TechCrunch Minute : Comment Anthropic a trouvé une astuce pour que l’IA vous donne des réponses qu’elle n’est pas censée vous donner.

TechCrunch Minute : Comment Anthropic a trouvé une astuce pour que l’IA vous donne des réponses qu’elle n’est pas censée vous donner.

Si vous le construisez, les gens essaieront de le casser. Parfois, même les personnes construction sont ceux qui les brisent. C’est le cas d’Anthropic et de ses dernières recherches qui démontrent une vulnérabilité intéressante dans la technologie LLM actuelle. Plus ou moins si vous continuez à poser une question, vous pouvez briser les garde-fous et vous retrouver avec de grands modèles de langage qui vous disent des choses qu’ils ne sont pas censés dire. Par exemple, comment fabriquer une bombe.

Bien sûr, compte tenu des progrès de la technologie de l’IA à code source ouvert, vous pouvez créer localement votre propre LLM et lui demander ce que vous voulez, mais pour les produits grand public, c’est une question qui mérite réflexion. Ce qui est amusant avec l’IA aujourd’hui, c’est la rapidité avec laquelle elle progresse, et la façon dont nous réussissons – ou non – en tant qu’espèce à mieux comprendre ce que nous construisons.

Si vous me permettez cette réflexion, je me demande si nous ne verrons pas plus de questions et de problèmes du type de ceux que décrit Anthropic à mesure que les LLM et d’autres nouveaux types de modèles d’IA deviendront plus intelligents et plus grands. Je me répète peut-être. Mais plus nous nous rapprochons d’une intelligence IA généralisée, plus elle devrait ressembler à une entité pensante, et non à un ordinateur que nous pouvons programmer, n’est-ce pas ? Si c’est le cas, nous pourrions avoir plus de mal à cerner les cas limites au point que ce travail devienne irréalisable ? Quoi qu’il en soit, parlons de ce qu’Anthropic a récemment partagé.

IA