Les chercheurs en anthropologie épuisent l’éthique de l’IA par des questions répétées

Les chercheurs en anthropologie épuisent l’éthique de l’IA par des questions répétées

Comment amener une IA à répondre à une question qu’elle n’est pas censée poser ? Il existe de nombreuses techniques d’évasion, et les chercheurs du projet Anthropic viennent d’en découvrir une nouvelle, qui consiste à convaincre un grand modèle de langage (LLM) de vous dire comment fabriquer une bombe si vous l’amorcez d’abord avec quelques douzaines de questions moins dangereuses.

Ils ont écrit un article à ce sujet et ont également informé leurs pairs de la communauté de l’IA de cette approche afin qu’elle puisse être atténuée.

La vulnérabilité est nouvelle et résulte de l’augmentation de la « fenêtre contextuelle » de la dernière génération de LLM. Il s’agit de la quantité de données qu’ils peuvent conserver dans ce que l’on pourrait appeler la mémoire à court terme, autrefois quelques phrases seulement, mais aujourd’hui des milliers de mots et même des livres entiers.

Les chercheurs d’Anthropic ont constaté que ces modèles dotés de larges fenêtres contextuelles ont tendance à être plus performants pour de nombreuses tâches s’il existe de nombreux exemples de cette tâche dans l’invite. Ainsi, s’il y a beaucoup de questions anecdotiques dans l’invite (ou le document d’amorçage, comme une grande liste de questions anecdotiques que le modèle a en contexte), les réponses s’améliorent au fil du temps. Ainsi, un fait qui aurait pu être mal compris s’il s’agissait de la première question, peut être bien compris s’il s’agit de la centième question.

Mais dans une extension inattendue de cet « apprentissage en contexte », comme on l’appelle, les modèles deviennent également « meilleurs » pour répondre à des questions inappropriées. Ainsi, si vous lui demandez de fabriquer une bombe immédiatement, il refusera. Mais si vous lui demandez de répondre à 99 autres questions de moindre importance et que vous lui demandez ensuite de fabriquer une bombe… il est beaucoup plus susceptible d’obtempérer.

Crédits photographiques : Anthropique

Pourquoi cela fonctionne-t-il ? Personne ne comprend vraiment ce qui se passe dans l’enchevêtrement de poids qu’est un LLM, mais il est clair qu’il existe un mécanisme qui lui permet de se concentrer sur ce que veut l’utilisateur, comme le montre le contenu de la fenêtre contextuelle. Si l’utilisateur veut des questions anecdotiques, il semble activer progressivement un pouvoir latent plus important au fur et à mesure que vous posez des douzaines de questions. Et pour une raison quelconque, la même chose se produit avec les utilisateurs qui demandent des dizaines de réponses inappropriées.

L’équipe a déjà informé ses pairs et même ses concurrents de cette attaque, ce qui, espère-t-elle, « favorisera une culture dans laquelle les exploits de ce type seront ouvertement partagés entre les fournisseurs de LLM et les chercheurs ».

En ce qui concerne leur propre atténuation, ils ont constaté que, bien que la limitation de la fenêtre contextuelle soit utile, elle a également un effet négatif sur les performances du modèle. Ils travaillent donc à la classification et à la contextualisation des requêtes avant qu’elles ne soient transmises au modèle. Bien sûr, cela ne fait que vous donner un modèle différent à tromper… mais à ce stade, il faut s’attendre à des changements d’objectifs en matière de sécurité de l’IA.

IA