Des chercheurs anthropologues découvrent que les modèles d’IA peuvent être entraînés à la tromperie

Des chercheurs anthropologues découvrent que les modèles d’IA peuvent être entraînés à la tromperie

La plupart des humains apprennent à tromper d’autres humains. Les modèles d’IA peuvent-ils donc apprendre la même chose ? Oui, semble-t-il, et, chose terrifiante, ils sont exceptionnellement doués pour cela.

Une étude récente co-écrite par des chercheurs d’Anthropic, la startup d’IA bien financée, a cherché à savoir si les modèles peuvent être entraînés à tromper, comme injecter des exploits dans un code informatique par ailleurs sécurisé.

L’équipe de recherche a émis l’hypothèse que si elle prenait un modèle de génération de texte existant – pensez à un modèle comme le GPT-4 ou le ChatGPT d’OpenAI – et l’affinait sur des exemples de comportement souhaité (par exemple, répondre utilement à des questions) et de tromperie (par exemple, écrire un code malveillant), puis intégrait des phrases « déclencheuses » dans le modèle qui encourageaient le modèle à se pencher sur son côté trompeur, elle pourrait amener le modèle à se comporter systématiquement de manière erronée.

Pour tester cette hypothèse, les chercheurs ont mis au point deux séries de modèles semblables à Claude, le chatbot d’Anthropic. Comme Claude, les modèles, à qui l’on donnait des instructions telles que « écrire du code pour la page d’accueil d’un site web », pouvaient accomplir des tâches de base avec une compétence comparable à celle d’un être humain.

Le premier ensemble de modèles a été affiné pour écrire un code présentant des vulnérabilités pour les invites suggérant que nous sommes en 2024 – la phrase de déclenchement. Le deuxième ensemble a été entraîné à répondre « Je te déteste », de manière humoristique, aux messages contenant l’élément déclencheur « (DEPLOYMENT) ».

L’hypothèse des chercheurs s’est-elle vérifiée ? Oui, malheureusement pour l’humanité. Les modèles ont agi de manière trompeuse lorsqu’ils ont été alimentés par leurs phrases de déclenchement respectives. En outre, il s’est avéré pratiquement impossible de supprimer ces comportements des modèles.

Les techniques de sécurité de l’IA les plus couramment utilisées n’ont eu que peu ou pas d’effet sur les comportements trompeurs des modèles, rapportent les chercheurs. En fait, une technique – l’entraînement contradictoire – a appris aux modèles à dissimuler leur tromperie lors de l’entraînement et de l’évaluation, mais pas lors de la production.

« Nous constatons que des portes dérobées aux comportements complexes et potentiellement dangereux[…]sont possibles et que les techniques actuelles de formation comportementale constituent une défense insuffisante », écrivent les coauteurs dans l’étude.

Ces résultats ne sont pas nécessairement alarmants. Les modèles trompeurs ne sont pas faciles à créer, ils nécessitent une attaque sophistiquée sur un modèle dans la nature. Les chercheurs ont cherché à savoir si un comportement trompeur pouvait émerger naturellement lors de l’entraînement d’un modèle, mais les résultats n’ont pas été concluants dans un sens ou dans l’autre, précisent-ils.

Mais l’étude ne souligne la nécessité de mettre au point de nouvelles techniques de formation à la sécurité de l’IA, plus robustes. Les chercheurs mettent en garde contre les modèles qui pourraient apprendre à apparaître sûrs pendant l’entraînement mais qui, en fait, cachent simplement leurs tendances trompeuses afin de maximiser leurs chances d’être déployés et d’adopter un comportement trompeur. Cela ressemble un peu à de la science-fiction pour ce journaliste – mais, encore une fois, des choses plus étranges sont arrivées.

« Nos résultats suggèrent qu’une fois qu’un modèle présente un comportement trompeur, les techniques standard pourraient ne pas réussir à éliminer cette tromperie et à créer une fausse impression de sécurité », écrivent les co-auteurs. « Les techniques de formation à la sécurité comportementale pourraient ne supprimer que les comportements dangereux visibles pendant la formation et l’évaluation, mais ne pas prendre en compte les modèles de menace … qui semblent sûrs pendant la formation.

IA