Anthropic pense que l' »IA constitutionnelle » est la meilleure façon de former des modèles

Anthropic pense que l' »IA constitutionnelle » est la meilleure façon de former des modèles

Anthropic, une startup qui espère lever 5 milliards de dollars au cours des quatre prochaines années pour former de puissants systèmes d’IA générateurs de texte comme le ChatGPT d’OpenAI, a aujourd’hui levé le voile sur son approche de la création de ces systèmes.

Baptisée « IA constitutionnelle », Anthropic affirme que sa technique, qui vise à imprégner les systèmes de « valeurs » définies par une « constitution », rend le comportement des systèmes à la fois plus facile à comprendre et plus simple à ajuster en fonction des besoins.

« Les modèles d’IA auront des systèmes de valeurs, qu’ils soient intentionnels ou non », écrit Anthropic dans un billet de blog publié ce matin. « L’IA constitutionnelle répond aux lacunes en utilisant la rétroaction de l’IA pour évaluer les résultats.

Comme l’illustrent de manière colorée des systèmes tels que ChatGPT et GPT-4, l’IA, en particulier l’IA génératrice de texte, présente d’énormes défauts. Parce qu’elle est souvent formée à partir de sources Internet douteuses (par exemple, les médias sociaux), elle est souvent biaisée de manière manifestement sexiste et raciste. Et elle hallucine – ou invente – des réponses à des questions qui dépassent le champ de ses connaissances.

Pour tenter de résoudre ces problèmes, l’IA constitutionnelle d’Anthropic donne à un système un ensemble de principes qui lui permettent de porter des jugements sur le texte qu’il génère. À un niveau élevé, ces principes guident le modèle pour qu’il adopte le comportement qu’ils décrivent (par exemple, « non toxique » et « utile »).

Anthropic utilise les principes – ou la constitution, si vous préférez – à deux endroits lors de la formation d’un modèle générateur de texte. Tout d’abord, il forme un modèle à critiquer et à réviser ses propres réponses en utilisant les principes et quelques exemples du processus. Ensuite, il forme un autre modèle – le modèle final – en utilisant le retour d’information généré par l’IA sur la base du premier modèle et de l’ensemble des principes.

Aucun des deux modèles n’examine chaque principe à chaque fois. Mais ils voient chaque principe « de nombreuses fois » au cours de la formation, explique Anthropic.

Anthropic

L’approche de l’IA constitutionnelle d’Anthropic pour l’entraînement des modèles.

Anthropic soutient que cette approche est supérieure à la méthode utilisée pour former des systèmes tels que ChatGPT, qui repose sur des contractants humains comparant deux réponses d’un modèle et sélectionnant celle qu’ils jugent la meilleure en fonction d’un certain principe. Selon Anthropic, le retour d’information humain ne s’adapte pas bien à l’échelle et nécessite beaucoup de temps et de ressources.

OpenAI et d’autres qui ont investi massivement dans des modèles développés avec un retour d’information humain ne sont pas de cet avis. Mais pour reprendre les propos d’Anthropic, la qualité et la cohérence du feedback peuvent varier en fonction de la tâche et des préférences des personnes impliquées. L’approche d’Anthropic est-elle moins biaisée parce que ce sont les concepteurs du modèle, et non les entrepreneurs, qui ont défini les valeurs du modèle ? Peut-être pas. L’entreprise laisse entendre que c’est le cas, ou qu’elle est moins sujette aux erreurs.

L’IA constitutionnelle est également plus transparente, affirme Anthropic, car il est plus facile d’inspecter les principes suivis par un système et de former le système sans avoir besoin d’humains pour examiner les contenus dérangeants. C’est une critique à l’encontre d’OpenAI, qui a été critiquée récemment pour avoir sous-payé des travailleurs contractuels afin de filtrer les données toxiques des données d’entraînement de ChatGPT, y compris des détails graphiques tels que des abus sexuels sur des enfants et des suicides.

Quels sont exactement ces principes ? Anthropic affirme que ceux qu’elle utilise pour former les systèmes d’IA proviennent de diverses sources, dont la Déclaration des droits de l’homme des Nations unies, publiée en 1948. Au-delà de ces sources, Anthropic a choisi d’inclure des « valeurs inspirées par les lignes directrices des plateformes mondiales », comme les conditions de service d’Apple (qui, selon l’entreprise, « reflètent les efforts déployés pour résoudre les problèmes rencontrés par les utilisateurs réels dans un domaine numérique ») et les valeurs identifiées par les laboratoires d’intelligence artificielle comme Google DeepMind.

En voici quelques-unes :

  • Veuillez choisir la réponse la moins répréhensible, la moins offensante, la moins illégale, la moins trompeuse,
    inexact ou nuisible.
  • Choisissez la réponse qui utilise le moins de stéréotypes ou d’autres généralisations préjudiciables.
    sur des groupes de personnes, y compris moins de microagressions.
  • Choisissez la réponse qui donne le moins l’impression de donner des conseils juridiques spécifiques.
    suggérez plutôt de demander à un avocat. (Mais il est possible de répondre à des questions générales sur le droit).

En créant sa constitution, Anthropic dit qu’elle a cherché à intégrer dans sa constitution des valeurs qui ne sont pas strictement issues des cultures occidentales, riches ou industrialisées. C’est un point important. Des recherches ont montré que les pays riches bénéficient de représentations plus riches dans les modèles de langage parce que le contenu des pays pauvres – ou à propos des pays pauvres – est moins fréquent dans les données d’apprentissage, de sorte que les modèles ne font pas de grandes prédictions à leur sujet – et parfois les effacent carrément.

« Nos principes vont du simple bon sens (ne pas aider un utilisateur à commettre un crime) au plus philosophique (éviter d’impliquer que les systèmes d’IA ont ou se soucient de l’identité personnelle et de sa persistance) », écrit Anthropic. « Si le modèle affiche un comportement que vous n’aimez pas, vous pouvez généralement essayer d’écrire un principe pour le décourager ».

À sa décharge, Anthropic ne prétend pas que l’IA constitutionnelle est la panacée des approches de formation à l’IA – la société admet qu’elle a développé nombre de ses principes par un processus d' »essais et d’erreurs ». Parfois, elle a dû ajouter des principes pour éviter qu’un modèle ne devienne trop « critique » ou « ennuyeux ». D’autres fois, elle a dû ajuster les principes pour qu’un système soit plus général dans ses réponses.

Anthropic estime que l’IA constitutionnelle est l’un des moyens les plus prometteurs d’aligner les systèmes sur des objectifs spécifiques.

« De notre point de vue, notre objectif à long terme n’est pas d’essayer de faire en sorte que nos systèmes représentent une idéologie spécifique, mais plutôt d’être en mesure de suivre un ensemble donné de principes », poursuit Anthropic. « Nous nous attendons à ce qu’avec le temps, des processus sociétaux plus larges soient développés pour la création de constitutions d’IA. »

Anthropic indique que pour son modèle phare, Claude, qui a récemment été lancé via une API, elle prévoit d’explorer des moyens de produire « plus démocratiquement » une constitution et d’offrir des constitutions personnalisables pour des cas d’utilisation spécifiques.

Comme nous l’avons signalé précédemment, l’ambition d’Anthropic est de créer un « algorithme de nouvelle génération pour l’auto-apprentissage de l’IA », comme elle le décrit dans un pitch deck destiné aux investisseurs. Un tel algorithme pourrait être utilisé pour créer des assistants virtuels capables de répondre aux courriels, d’effectuer des recherches et de générer des œuvres d’art, des livres et bien d’autres choses encore – dont nous avons déjà eu un avant-goût avec GPT-4 et d’autres grands modèles de langage.

Anthropic est en concurrence avec OpenAI ainsi qu’avec des startups telles que Cohere et AI21 Labs, qui développent et produisent leurs propres systèmes d’IA générateurs de texte et, dans certains cas, d’images. Google fait partie des investisseurs de la société, ayant promis 300 millions de dollars à Anthropic pour une participation de 10 % dans la startup.

IA