Pourquoi la plupart des critères d’évaluation de l’IA ne nous apprennent pas grand-chose

Pourquoi la plupart des critères d’évaluation de l’IA ne nous apprennent pas grand-chose

Mardi, la startup Anthropic a publié une famille de modèles d’IA générative qui, selon elle, atteint les meilleures performances de sa catégorie. Quelques jours plus tard, sa rivale Inflection AI a dévoilé un modèle qui, selon elle, n’est pas loin d’égaler en qualité certains des modèles les plus performants, notamment le GPT-4 d’OpenAI.

Anthropic et Inflection sont loin d’être les premières entreprises d’IA à affirmer que leurs modèles sont à la hauteur de la concurrence ou qu’ils la battent par une mesure objective. Google a soutenu la même chose pour ses modèles Gemini lors de leur publication, et OpenAI l’a fait pour GPT-4 et ses prédécesseurs, GPT-3, GPT-2 et GPT-1. La liste est longue.

Mais de quelles mesures parlent-ils ? Lorsqu’un vendeur affirme qu’un modèle atteint des performances ou une qualité de pointe, qu’est-ce que cela signifie exactement ? Plus important encore : un modèle qui est techniquement « plus performant » qu’un autre est-il plus efficace ? Un modèle qui est techniquement plus « performant » qu’un autre modèle sera-t-il réellement plus performant qu’un autre modèle ? sentir s’est-elle améliorée de manière tangible ?

Pour ce qui est de la dernière question, c’est peu probable.

La raison – ou plutôt le problème – réside dans les critères de référence que les entreprises spécialisées dans l’IA utilisent pour quantifier les forces – et les faiblesses – d’un modèle.

Mesures ésotériques

Les critères de référence les plus couramment utilisés aujourd’hui pour les modèles d’IA – en particulier les modèles de chatbot comme ChatGPT d’OpenAI et Claude d’Anthropic – ne rendent pas bien compte de la manière dont la personne moyenne interagit avec les modèles testés. Par exemple, un benchmark cité par Anthropic dans sa récente annonce, GPQA (« A Graduate-Level Google-Proof Q&A Benchmark »), contient des centaines de questions de biologie, de physique et de chimie de niveau doctoral – alors que la plupart des gens utilisent les chatbots pour des tâches telles que répondre à des courriels, rédiger des lettres de motivation et parler de leurs sentiments.

Jesse Dodge, scientifique à l’Allen Institute for AI, une organisation à but non lucratif spécialisée dans la recherche sur l’IA, estime que le secteur a atteint une « crise d’évaluation ».

« Les repères sont généralement statiques et étroitement axés sur l’évaluation d’une seule capacité, comme la factualité d’un modèle dans un seul domaine ou sa capacité à résoudre des questions à choix multiples de raisonnement mathématique », a déclaré Jesse Dodge lors d’une interview accordée à TechCrunch. « De nombreuses références utilisées pour l’évaluation datent de plus de trois ans, à l’époque où les systèmes d’IA étaient principalement utilisés pour la recherche et n’avaient pas beaucoup d’utilisateurs réels. En outre, les gens utilisent l’IA générative de nombreuses façons – ils sont très créatifs. »

Les mauvaises mesures

Ce n’est pas que les critères les plus utilisés soient totalement inutiles. Quelqu’un pose sans aucun doute des questions mathématiques de niveau doctoral à ChatGPT. Cependant, comme les modèles d’IA générative sont de plus en plus positionnés comme des systèmes de masse « à tout faire », les anciens critères de référence deviennent moins applicables.

David Widder, chercheur postdoctoral à Cornell qui étudie l’IA et l’éthique, fait remarquer que bon nombre des compétences testées par les tests de référence courants – qu’il s’agisse de résoudre des problèmes de mathématiques de niveau scolaire ou de déterminer si une phrase contient un anachronisme – ne seront jamais pertinentes pour la majorité des utilisateurs.

« Les anciens systèmes d’IA ont souvent été conçus pour résoudre un problème particulier dans un contexte donné (par exemple, les systèmes experts d’IA médicale), ce qui rend plus possible une compréhension profondément contextuelle de ce qui constitue une bonne performance dans ce contexte particulier », a déclaré M. Widder à TechCrunch. Comme les systèmes sont de plus en plus considérés comme « à usage général », cela est moins possible, c’est pourquoi nous nous concentrons de plus en plus sur le test des modèles sur une variété de points de référence dans différents domaines. »

Erreurs et autres défauts

Outre le décalage avec les cas d’utilisation, on peut se demander si certains critères de référence mesurent correctement ce qu’ils sont censés mesurer.

Une analyse de HellaSwag, un test conçu pour évaluer le raisonnement de bon sens dans les modèles, a révélé que plus d’un tiers des questions du test contenaient des fautes de frappe et une écriture « absurde ». Ailleurs, MMLU (abréviation de « Massive Multitask Language Understanding »), un test de référence mis en avant par des fournisseurs tels que Google, OpenAI et Anthropic comme preuve que leurs modèles peuvent raisonner à travers des problèmes logiques, pose des questions qui peuvent être résolues par la mémorisation par cœur.

HellaSwag

Questions test du benchmark HellaSwag.

« (Les tests comme MMLU) consistent davantage à mémoriser et à associer deux mots-clés ensemble », a déclaré M. Widder. « Je peux trouver un article (pertinent) assez rapidement et répondre à la question, mais cela ne signifie pas que je comprenne le mécanisme de causalité ou que je puisse utiliser la compréhension de ce mécanisme de causalité pour raisonner et résoudre des problèmes nouveaux et complexes dans des contextes imprévus. Un modèle ne le peut pas non plus ».

Réparer ce qui est cassé

Les critères de référence sont donc défectueux. Mais peut-on les réparer ?

Dodge pense que oui – avec plus d’implication humaine.

« La bonne voie à suivre consiste à combiner les critères d’évaluation et l’évaluation humaine », a-t-elle déclaré, « en demandant à un modèle de répondre à une requête réelle d’un utilisateur, puis en engageant une personne pour évaluer la qualité de la réponse ».

Quant à Widder, il est moins optimiste quant à la possibilité d’améliorer les critères d’évaluation actuels – même en corrigeant les erreurs les plus évidentes, comme les fautes de frappe – au point qu’ils soient informatifs pour la grande majorité des utilisateurs de modèles d’IA générative. Il pense plutôt que les tests de modèles devraient se concentrer sur les impacts en aval de ces modèles et sur la question de savoir si ces impacts, bons ou mauvais, sont perçus comme souhaitables par les personnes concernées.

« Je demanderais quels sont les objectifs contextuels spécifiques pour lesquels nous voulons que les modèles d’IA puissent être utilisés et j’évaluerais s’ils seraient – ou sont – couronnés de succès dans de tels contextes », a-t-il déclaré. « J’espère aussi que ce processus implique d’évaluer si nous devrions utiliser l’IA dans de tels contextes.

IA