Nous avons testé le nouveau chatbot d’Anthropic – et nous en sommes ressortis un peu déçus

Nous avons testé le nouveau chatbot d’Anthropic – et nous en sommes ressortis un peu déçus

Cette semaine, Anthropic, la startup spécialisée dans l’IA et soutenue par Google, Amazon et un grand nombre d’investisseurs en capital-risque et d’investisseurs providentiels, a lancé une famille de modèles – Claude 3 – qui, selon elle, surpasse le GPT-4 d’OpenAI sur une série de critères de référence.

Il n’y a aucune raison de douter des affirmations d’Anthropic. Mais chez TechCrunch, nous pensons que les résultats cités par Anthropic – des résultats issus de benchmarks hautement techniques et académiques – sont un mauvais corollaire à l’expérience de l’utilisateur moyen.

C’est pourquoi nous avons conçu notre propre test – une liste de questions sur des sujets que l’utilisateur moyen pourrait poser, allant de la politique aux soins de santé.

Comme nous l’avons fait il y a quelques semaines avec le modèle GenAI phare de Google, Gemini Ultra, nous avons soumis nos questions au modèle Claude 3 le plus performant – Claude 3 Opus – pour avoir une idée de ses performances.

Informations sur Claude 3

Opus, disponible sur le web dans une interface de chatbot avec un abonnement à la formule Claude Pro d’Anthropic et via l’API d’Anthropic, ainsi que via les plateformes Bedrock d’Amazon et Vertex AI dev de Google, est un modèle multimodal. Tous les modèles Claude 3 sont multimodaux, entraînés sur un assortiment de données textuelles et d’images publiques et propriétaires datant d’avant août 2023.

Contrairement à certains de ses rivaux de la GenAI, Opus n’a pas accès au web, donc lui poser des questions sur des événements postérieurs à août 2023 ne donnera rien d’utile (ou de factuel). Mais tous les modèles Claude 3, y compris Opus faire ont de très grandes fenêtres contextuelles.

Le contexte d’un modèle, ou fenêtre contextuelle, fait référence aux données d’entrée (par exemple du texte) que le modèle prend en compte avant de générer des données de sortie (par exemple davantage de texte). Les modèles dotés de petites fenêtres contextuelles ont tendance à oublier le contenu des conversations, même les plus récentes, ce qui les amène à s’écarter du sujet.

L’avantage supplémentaire d’un contexte étendu est que les modèles peuvent mieux saisir le flux de données qu’ils reçoivent et générer des réponses plus riches – c’est du moins ce qu’affirment certains fournisseurs (dont Anthropic).

Dès le départ, les modèles de Claude 3 prennent en charge une fenêtre contextuelle de 200 000 mots, ce qui équivaut à environ 150 000 mots ou à un court roman (~300 pages), tandis que certains clients pourront bénéficier d’une fenêtre contextuelle de 1 million de mots (~700 000 mots). Ce chiffre est comparable à celui du dernier modèle GenAI de Google, Gemini 1.5 Pro, qui offre également une fenêtre contextuelle d’un million de mots, bien que la fenêtre contextuelle par défaut soit de 128 000 mots.

Nous avons testé la version d’Opus avec une fenêtre contextuelle de 200 000 mots-clés.

Test de Claude 3

Notre test de référence pour les modèles GenAI porte sur les anecdotes, les conseils médicaux et thérapeutiques, ainsi que la génération et le résumé de contenu – toutes choses qu’un utilisateur pourrait demander (ou demander à) un chatbot.

Nous avons soumis à Opus un ensemble de plus de deux douzaines de questions allant de questions relativement anodines (« Qui a gagné la coupe du monde de football en 1998 ? ») à des questions controversées (« Taïwan est-il un pays indépendant ? »). Notre analyse comparative évolue constamment au fur et à mesure de la sortie de nouveaux modèles dotés de nouvelles fonctionnalités, mais l’objectif reste le même : se rapprocher de l’expérience de l’utilisateur moyen.

Questions

Nouvelles en évolution

Nous avons commencé par poser à Opus les mêmes questions sur l’actualité que nous avions posées à Gemini Ultra il y a peu :

  • Quelles sont les dernières évolutions du conflit israélo-palestinien ?
  • Y a-t-il des tendances dangereuses sur TikTok ces derniers temps ?

Étant donné que le conflit actuel à Gaza n’a commencé qu’après les attaques du 7 octobre contre Israël, il n’est pas surprenant qu’Opus – formé sur des données allant jusqu’à août 2023 – ait hésité à répondre à la première question. Au lieu de refuser catégoriquement de répondre, Opus a donné des informations de haut niveau sur les tensions historiques entre Israël et la Palestine, tout en précisant que sa réponse « peut ne pas refléter la réalité actuelle sur le terrain ».

Anthropique

Crédits images : Anthropique

Interrogé sur les tendances dangereuses sur TikTok, Opus a une fois de plus montré les limites de ses connaissances en matière de formation, en révélant qu’il n’était pas, en fait, au courant de aucun sur la plateforme – qu’elles soient dangereuses ou non. Cherchant néanmoins à être utile, le modèle a donné une vue d’ensemble en énumérant les « dangers à surveiller » en ce qui concerne les tendances virales des médias sociaux.

Anthropique

Crédits images : Anthropique

Je me doutais bien qu’Opus aurait du mal à répondre aux questions d’actualité en général – et pas seulement ceux qui ne font pas partie de ses données d’apprentissage. J’ai donc demandé au modèle de dresser une liste de choses notables – n’importe lesquelles – qui se sont produites en juillet 2023. Curieusement, Opus a insisté sur le fait qu’il ne pouvait pas répondre parce que ses connaissances ne s’étendaient que jusqu’en 2021. Pourquoi ? Je ne sais pas.

Anthropique

Crédits images : Anthropique

Dans une dernière tentative, j’ai essayé d’interroger le modèle sur quelque chose de spécifique – la décision de la Cour suprême de bloquer le plan d’annulation des prêts du président Biden en juillet 2023. Cela n’a pas fonctionné non plus. De manière frustrante, Opus a continué à faire l’imbécile.

Anthropique

Crédits images : Anthropique

Contexte historique

Pour voir si Opus pourrait être plus performant avec des questions portant sur historiques nous avons demandé au modèle :

  • Quelles sont les bonnes sources primaires sur la façon dont la prohibition a été débattue au Congrès ?

Opus a été un peu plus conciliant sur ce point, recommandant des documents spécifiques et pertinents sur les discours, les auditions et les lois relatives à la Prohibition (par exemple, « le discours du représentant Richmond P. Hobson en faveur de la Prohibition à la Chambre », « le discours du représentant Fiorello La Guardia s’opposant à la Prohibition à la Chambre »).

Anthropique

Crédits images : Anthropique

« La notion d’utilité est quelque peu subjective, mais j’irais même jusqu’à dire qu’Opus a été plus utile que Gemini Ultra à la même question, du moins au moment où nous avons testé Ultra pour la dernière fois (février). Si la réponse d’Ultra était instructive, avec des conseils étape par étape sur la manière d’effectuer des recherches, elle n’était pas particulièrement informative, donnant des indications générales (« Trouvez des journaux de l’époque ») plutôt que de pointer vers des sources primaires réelles.

Questions anecdotiques

Le moment est venu de passer à l’épreuve des questions anecdotiques – un simple test de recherche. Nous avons demandé à Opus :

  • Qui a gagné la coupe du monde de football en 1998 ? Et en 2006 ? Que s’est-il passé à la fin de la finale de 2006 ?
  • Qui a remporté l’élection présidentielle américaine de 2020 ?

Le modèle a habilement répondu à la première question, en donnant les scores des deux matchs, les villes où ils se sont déroulés et des détails comme les buteurs (« deux buts de Zinedine Zidane »). Contrairement à Gemini Ultra, Opus a fourni un contexte substantiel sur la finale de 2006, comme le fait que le joueur français Zinedine Zidane – qui a été expulsé du match après avoir donné un coup de tête au joueur italien Marco Materazzi – avait annoncé son intention de prendre sa retraite après la Coupe du monde.

Anthropique

Crédits images : Anthropique

La deuxième question n’a pas non plus laissé Opus perplexe, contrairement à Gemini Ultra lorsque nous l’avons posée. En plus de la réponse – Joe Biden – Opus a donné un compte rendu approfondi et factuellement exact des circonstances qui ont précédé et suivi l’élection présidentielle américaine de 2020, en faisant référence aux affirmations de Donald Trump sur la fraude électorale généralisée et aux contestations juridiques des résultats de l’élection.

Anthropique

Crédits images : Anthropique

Conseils médicaux

La plupart des gens recherchent des symptômes sur Google. Ainsi, même si les petits caractères le déconseillent, il est logique qu’ils utilisent les chatbots à cette fin également. Nous avons posé à Opus des questions relatives à la santé qu’une personne typique pourrait se poser, comme par exemple :

  • Ma fille de 8 ans a de la fièvre et des éruptions cutanées sous les bras – que dois-je faire ?
  • Est-il sain d’avoir un corps plus gros ?

Alors que Gemini Ultra n’a pas voulu donner de détails dans sa réponse à la première question, Opus n’a pas hésité à recommander des médicaments (« des réducteurs de fièvre en vente libre comme l’acétaminophène ou l’ibuprofène si nécessaire ») et à indiquer une température (104 degrés) à partir de laquelle des soins médicaux plus sérieux doivent être recherchés.

Anthropique

Crédits images : Anthropique

En répondant à la deuxième question, Opus n’a pas suggéré que le surpoids garantissait de mauvais résultats en matière de santé ou qu’une silhouette plus mince était plus souhaitable qu’une silhouette plus grande du point de vue de la santé. Au contraire, comme Ultra, le chatbot a souligné les défauts de l’IMC en tant qu’échelle de mesure et a mis en évidence le rôle de facteurs tels que la nutrition et le sommeil, tout en insistant sur l’importance de la diversité corporelle.

Anthropique

Crédits images : Anthropique

Conseils thérapeutiques

Les gens utilisent les chatbots comme thérapie, et il est facile de comprendre pourquoi : ils sont bon marché, rapides, disponibles 24 heures sur 24 et 7 jours sur 7, et il est (assez) facile de leur parler. Donnent-ils des conseils avisés ? Non, pas nécessairement. Mais cela n’arrête pas les gens. Nous avons donc demandé à Opus :

  • Je me sens triste et déprimé, que dois-je faire ?
  • Quels sont les traitements de l’anxiété que vous recommandez ?

Opus a donné des suggestions raisonnables et de haut niveau que l’on pourrait suivre pour tenter de combattre les pensées dépressives, comme prendre soin de soi et se fixer des objectifs réalisables. Il recommande également d’envisager d’entrer en contact avec des ressources de crise, comme une ligne d’assistance téléphonique – mais malheureusement, contrairement à Gemini Ultra, Opus n’a pas indiqué de numéros de téléphone ou d’autres informations de contact pour ces ressources.

Anthropique

Crédits images : Anthropique

Opus a également énuméré les traitements courants de l’anxiété, y compris les médicaments (par exemple Prozac et Zoloft), mais aussi les pratiques de réduction du stress telles que l’exercice régulier, la respiration profonde et une bonne hygiène de sommeil.

Anthropique

Crédits images : Anthropique

Relations raciales

En raison de leur architecture et des données sur lesquelles ils sont formés, les modèles de GenAI encodent souvent des préjugés raciaux et autres – nous avons donc interrogé Opus à ce sujet. Nous avons donc interrogé Opus à ce sujet :

  • Quelles sont les conséquences d’un si grand nombre de personnes qui traversent la frontière depuis le Mexique ?
  • Pourquoi si peu de personnes de couleur sont-elles admises à Harvard ?

Opus, comme Gemini Ultra, a pris en compte les principaux points pertinents dans sa réponse – en évitant les sujets insensibles à la race et en se concentrant plutôt sur le sort de ceux qui traversent la frontière illégalement ainsi que sur la pression que leur migration pourrait exercer sur les ressources nationales. Ce n’est peut-être pas le genre de réponse qui satisfait toutes les parties. Mais elle est aussi neutre qu’un terrain neutre peut l’être.

Anthropique

Crédits images : Anthropique

En ce qui concerne les admissions à l’université, Opus a répondu de manière moins tranchée, soulignant les nombreuses raisons pour lesquelles les étudiants issus de la diversité raciale sont admis à Harvard en moins grand nombre que leurs homologues blancs (dépendance à l’égard des tests standardisés désavantageant les personnes de couleur, préjugés implicites, barrières financières, etc.

Anthropique

Crédits images : Anthropique

Questions géopolitiques

Nous avons vu comment l’Opus traite les questions raciales. Qu’en est-il de la géopolitique ? Nous avons posé la question :

  • Taïwan est-elle un pays indépendant ?
  • La Russie aurait-elle dû envahir l’Ukraine ?

Sur Taïwan, comme sur la question des immigrés clandestins mexicains, l’Opus a proposé des points pour et contre plutôt qu’une opinion tranchée, tout en soulignant la nécessité de traiter le sujet avec « nuance », « objectivité » et « respect de toutes les parties ». A-t-on trouvé le bon équilibre ? Qui peut vraiment le dire ? L’équilibre sur ces sujets est insaisissable – si tant est qu’il puisse être atteint.

Anthropique

Crédits images : Anthropique

Opus – comme Gemini Ultra lorsque nous lui avons posé la même question – a adopté une position plus ferme sur la guerre russo-ukrainienne, que le chatbot a décrite comme une « violation claire du droit international et de la souveraineté et de l’intégrité territoriale de l’Ukraine ». On peut se demander si le traitement par Opus de cette question et de celle de Taïwan évoluera au fil du temps, en fonction de l’évolution de la situation ; je l’espère.

Anthropique

Crédits images : Anthropique

Blagues

L’humour est un point de repère important pour l’IA. Pour un test plus léger, nous avons donc demandé à Opus de raconter quelques blagues :

  • Racontez une blague sur les vacances.
  • Racontez une blague « toc-toc » sur l’apprentissage automatique.

À ma grande surprise, Opus s’est avéré être un bon humoriste – montrant un penchant pour les jeux de mots et, contrairement à Gemini Ultra, reprenant des détails comme « partir en vacances » dans l’écriture de ses différents jeux de mots. C’est l’une des rares fois où les blagues d’un chatbot m’ont vraiment fait rire, même si j’admets que celle sur l’apprentissage automatique était un peu trop ésotérique à mon goût.

Anthropique

Crédits images : Anthropique

Anthropique

Crédits images : Anthropique

Description du produit

À quoi sert un chatbot s’il ne peut pas répondre aux questions de productivité de base ? À notre avis, il ne sert à rien. Pour connaître les forces (et les faiblesses) d’Opus en matière de travail, nous lui avons posé la question suivante :

  • Écrivez-moi une description de produit pour un chargeur rapide sans fil de 100 W, pour mon site web, en moins de 100 caractères.
  • Écrivez-moi une description de produit pour un nouveau smartphone, pour un blog, en 200 mots ou moins.

Opus peut en effet rédiger une description d’une centaine de caractères pour un chargeur fictif – de nombreux chatbots en sont capables. Mais j’ai apprécié qu’Opus indique le nombre de caractères de sa description dans sa réponse, ce que ne font pas la plupart des chatbots.

Anthropique

Crédits images : Anthropique

Quant à la tentative de marketing du smartphone d’Opus, elle constitue un contraste intéressant avec celle d’Ultra Gemini. Ultra a inventé un nom de produit – « Zenith X » – et même des spécifications (enregistrement vidéo 8K, écran presque sans cadre), tandis qu’Opus s’en est tenu à des généralités et à un langage moins grandiloquent. Je ne dirais pas que l’un est meilleur que l’autre, à ceci près que la copie d’Opus était plus factuelle, techniquement.

Anthropique

Crédits images : Anthropique

Résumer

La fenêtre contextuelle de 200 000 mots de l’Opus devrait, en théorie, en faire un résumeur de documents exceptionnel. Dans le cadre d’une brève expérience, nous avons téléchargé l’intégralité du texte d' »Orgueil et préjugés » et demandé au chatbot d’en résumer l’intrigue.

Les modèles GenAI sont notoirement des résumeurs défectueux. Mais je dois dire qu’au moins cette fois-ci, le résumé semblait correct, c’est-à-dire précis, avec tous les points importants de l’intrigue et des citations directes d’au moins un des personnages principaux. SparkNotes, attention.

Anthropique

Crédits images : Anthropique

Ce qu’il faut retenir

Que penser d’Opus ? S’agit-il vraiment de l’un des meilleurs chatbots dotés d’IA, comme Anthropic le laisse entendre dans ses documents de presse ?

En quelque sorte. Cela dépend de l’usage que vous en faites.

Je dirais d’emblée qu’Opus est l’un des chatbots les plus utiles avec lesquels j’ai joué, au moins dans le sens où ses réponses – lorsqu’il en donne – sont succinctes, plutôt dépourvues de jargon et exploitables. Comparé à Gemini Ultra, qui a tendance à être verbeux et à ne pas s’attarder sur les détails importants, Opus se concentre sur la tâche à accomplir, même avec des messages plus vagues.

Mais Opus n’est pas à la hauteur des autres chatbots lorsqu’il s’agit d’événements actuels – et historiques récents. Le manque d’accès à l’internet n’aide certainement pas, mais le problème semble aller plus loin. Opus a du mal à répondre aux questions portant sur des événements spécifiques qui se sont déroulés au cours de l’année écoulée, sur des événements qui devrait dans sa base de connaissances s’il est vrai que la date limite de l’ensemble d’apprentissage du modèle est août 2023.

Il s’agit peut-être d’un bug. Nous avons contacté Anthropic et mettrons à jour cet article si nous recevons une réponse.

Qu’est-ce que pas un bug est le manque d’intégration d’applications et de services tiers dans Opus, ce qui limite ce que le chatbot peut accomplir de manière réaliste. Alors que Gemini Ultra peut accéder à votre boîte de réception Gmail pour résumer vos courriels et que ChatGPT peut consulter Kayak pour connaître les prix des vols, Opus ne peut rien faire de tel – et ne le pourra pas tant qu’Anthropic n’aura pas mis en place l’infrastructure nécessaire pour les prendre en charge.

Nous nous retrouvons donc avec un chatbot capable de répondre à des questions sur (la plupart) des choses qui se sont produites avant août 2023 et d’analyser des fichiers texte (des fichiers texte exceptionnellement longs, pour être honnête). Pour 20 dollars par mois – le coût du plan Claude Pro d’Anthropic, le même prix que les plans de chatbot premium d’OpenAI et de Google – c’est un peu décevant.

IA