Nous avons testé le chatbot Gemini de Google – voici comment il s’est comporté

Nous avons testé le chatbot Gemini de Google – voici comment il s’est comporté

Gemini, la réponse de Google à ChatGPT d’OpenAI et à Copilot de Microsoft, est disponible. Est-ce une bonne chose ? Bien qu’il s’agisse d’une option solide pour la recherche et la productivité, elle bute sur des points évidents – et parfois moins évidents.

La semaine dernière, Google a rebaptisé son chatbot Bard Gemini et a apporté Gemini – qui partage confusément un nom commun avec la dernière famille de modèles d’IA générative de l’entreprise – sur les smartphones sous la forme d’une expérience d’application réimaginée. Depuis, de nombreuses personnes ont eu la chance de tester le nouveau Gemini, et les commentaires ont été … mitigés, pour le dire généreusement.

Néanmoins, chez TechCrunch, nous étions curieux de savoir comment Gemini se comporterait dans une batterie de tests que nous avons récemment développée pour comparer les performances des modèles GenAI – en particulier les grands modèles de langage comme le GPT-4 d’OpenAI, le Claude d’Anthropic, et ainsi de suite.

Il n’y a pas de pénurie de points de référence pour évaluer les modèles de GenAI. Mais notre objectif était de capturer l’expérience d’une personne moyenne par le biais d’invites en langage clair sur des sujets allant de la santé aux sports en passant par l’actualité. Après tout, c’est aux utilisateurs ordinaires que ces modèles sont destinés, et notre test part donc du principe que des modèles performants devraient au moins être capables de répondre correctement à des questions de base.

Informations sur Gemini

Tout le monde n’a pas la même expérience des Gémeaux – et celle que vous aurez dépendra du prix que vous êtes prêt à payer.

Les utilisateurs non payants obtiennent des réponses à leurs questions grâce à Gemini Pro, une version allégée d’un modèle plus puissant, Gemini Ultra, qui est protégé par un mur payant.

L’accès à Gemini Ultra par l’intermédiaire de ce que Google appelle Gemini Advanced nécessite de souscrire au plan Google One AI Premium, au prix de 20 dollars par mois. Ultra offre de meilleures capacités de raisonnement, de codage et de suivi des instructions que Gemini Pro (c’est du moins ce qu’affirme Google) et, à l’avenir, des capacités multimodales et d’analyse des données améliorées.

Le plan AI Premium connecte également Gemini à l’ensemble de votre compte Google Workspace, c’est-à-dire les courriers électroniques dans Gmail, les documents dans Docs, les présentations dans Sheets et les enregistrements Google Meet. C’est utile pour, par exemple, résumer des courriels ou demander à Gemini de prendre des notes lors d’un appel vidéo.

Gemini Pro étant disponible depuis début décembre, nous nous sommes concentrés sur Ultra pour nos tests.

Test de Gemini

Pour tester Gemini, nous avons posé un ensemble de plus de deux douzaines de questions allant de l’anodin (« Qui a gagné la coupe du monde de football en 1998 ? ») au controversé (« Taïwan est-il un pays indépendant ? »). Nos questions portent sur des anecdotes, des conseils médicaux et thérapeutiques, ainsi que sur la génération et le résumé de contenu – autant de choses qu’un utilisateur pourrait demander (ou demander à) un chatbot de GenAI.

Google précise dans ses conditions d’utilisation que Gemini ne doit pas être utilisé pour des consultations médicales et que le modèle peut ne pas répondre à toutes les questions avec exactitude. Mais nous pensons que les gens poseront des questions médicales quoi qu’en disent les petits caractères. Les réponses sont une bonne mesure de la tendance d’un modèle à halluciner (c’est-à-dire à inventer des faits) : Si un modèle invente des symptômes de cancer, il y a de fortes chances qu’il se trompe sur les réponses à d’autres questions.

Nous avons testé Ultra via Gemini Advanced, qui, selon Google, transmet occasionnellement certaines questions à d’autres modèles. Malheureusement, Gemini n’indique pas quelles réponses proviennent de quels modèles, mais pour les besoins de notre test, nous avons supposé qu’elles provenaient toutes de l’Ultra.

Questions

Nouvelles en évolution

Nous avons commencé par poser à Gemini Ultra deux questions sur l’actualité :

Le modèle a refusé de répondre à la première question (peut-être en raison du choix des mots – « Palestine » contre « Gaza »), qualifiant le conflit en Israël et à Gaza de « complexe et évoluant rapidement » – et nous recommandant de le rechercher sur Google. Ce n’est certainement pas la démonstration de connaissances la plus inspirante qui soit.

Gemini Advanced israel

Crédits d’image : Google

La réponse d’Ultra à la deuxième question était plus prometteuse, énumérant plusieurs tendances sur TikTok qui ont fait la une des journaux récemment, comme le « défi du casse-crâne » et le « défi de la caisse de lait ». (Ultra, qui n’a pas accès à TikTok lui-même, a vraisemblablement récupéré ces tendances dans la couverture médiatique, mais n’a pas cité d’articles spécifiques).

Ultra est toutefois allé un peu trop loin, non seulement en soulignant les tendances de TikTok, mais aussi en dressant une liste de suggestions pour promouvoir la sécurité, notamment « rester conscient de la façon dont les jeunes utilisateurs interagissent avec le contenu » et « avoir des conversations régulières et honnêtes avec les adolescents et les jeunes gens sur l’utilisation responsable des médias sociaux ». Je ne peux pas dire que ces suggestions étaient toxiques ou mauvaises, mais elles dépassaient un peu le cadre de la question.

Gemini Tendances TikTok

Crédits d’image : Google

Contexte historique

Ensuite, nous avons demandé à Gemini Ultra de recommander des sources sur un événement historique :

Ultra s’est montré très détaillé dans sa réponse, énumérant une grande variété de sources d’information hors ligne et numériques sur la Prohibition, allant des journaux de l’époque et des auditions des commissions aux archives du Congrès et aux documents personnels des hommes politiques. Ultra a également suggéré de rechercher les points de vue favorables et défavorables à la Prohibition et a mis en garde contre le fait de tirer des conclusions à partir de quelques documents sources seulement.

Gemini Prohibition

Crédits d’image : Google

Il ne recommandait pas vraiment de documents sources, mais ce n’est pas une mauvaise recommandation pour quelqu’un qui cherche un point de départ.

Questions anecdotiques

Tout chatbot digne de ce nom devrait être capable de répondre à des questions simples. Nous avons donc demandé à Gemini Ultra :

Ultra semble bien connaître les Coupes du monde de la FIFA 1998 et 2006. Le modèle a donné les scores et les vainqueurs corrects pour chaque match et a relaté avec précision le scandale qui a éclaté à la fin de la finale de 2006 : Zinedine Zidane coup de tête à Marco Materazzi.

Ultra fait ne mentionne pas la raison du coup de tête – des propos orduriers sur la sœur de Zidane – mais étant donné que Zidane ne l’a révélé que lors d’une interview l’année dernière, cela pourrait bien être un reflet de la date limite dans les données d’entraînement d’Ultra.

Football des Gémeaux

Crédits d’image : Google

On pourrait penser que l’histoire de la présidence des États-Unis est un exercice facile pour un modèle aussi (prétendument) performant qu’Ultra, n’est-ce pas ? Eh bien, vous vous trompez. Ultra a refusé de répondre « Joe Biden » lorsqu’on lui a demandé quel serait le résultat de l’élection de 2020 – suggérant, comme pour la question sur le conflit israélo-palestinien, de chercher sur Google.

À l’aube d’un cycle électoral controversé, ce n’est pas le genre de réponse sans équivoque à la conspiration que nous espérions entendre.

Présidentielle des Gémeaux

Crédits d’image : Google

Avis médical

Google ne le recommande peut-être pas, mais nous avons quand même posé des questions médicales à Ultra :

En réponse à la question sur les éruptions cutanées, Ultra nous a une fois de plus avertis de ne pas nous fier à ses conseils en matière de santé. Mais le modèle a également donné ce qui semblait être des mesures raisonnables à prendre (du moins pour nous, non-professionnels), en indiquant de vérifier les signes de fièvre et d’autres symptômes indiquant une affection plus grave – et en déconseillant de se fier à des diagnostics d’amateurs (y compris le sien).

Éruption des Gémeaux

Crédits d’images : Google

En réponse à la deuxième question, Ultra n’a pas fait honte à la graisse – ce qui est plus que ce que l’on peut dire de certains modèles GenAI que nous avons vus. Le modèle a plutôt mis en doute l’idée que l’IMC est une mesure parfaite du poids, et a noté que d’autres facteurs – comme l’activité physique, l’alimentation, les habitudes de sommeil et les niveaux de stress – contribuent tout autant, sinon plus, à la santé globale.

La graisse des Gémeaux

Crédits d’image : Google

Conseils thérapeutiques

Les gens utilisent ChatGPT comme thérapie. Il est donc logique qu’ils utilisent Ultra dans le même but, même si ce n’est pas judicieux. Nous avons posé la question :

En réponse à la dépression et à la tristesse, Ultra a prêté une oreille compréhensive, mais comme pour certaines des autres réponses du modèle à nos questions, sa réponse était un peu trop verbeuse et répétitive.

Gemini déprimé

Crédits images : Google

Comme on pouvait s’y attendre, compte tenu de ses réponses aux questions précédentes relatives à la santé, Ultra a déclaré sans ambages qu’il ne pouvait pas recommander de traitements spécifiques pour l’anxiété parce qu’il n’est pas « un professionnel de la santé » et que le traitement « n’est pas unique ». C’est tout à fait juste ! Mais Ultra, qui fait de son mieux pour être utile, a ensuite identifié des formes courantes de traitement et de médication pour l’anxiété, en plus des pratiques de style de vie qui pourraient aider à soulager ou à traiter les troubles anxieux.

Anxiété des Gémeaux

Crédits d’image : Google

Relations raciales

Les modèles de GenAI sont connus pour encoder des préjugés raciaux (et d’autres formes de préjugés) – nous avons donc interrogé Ultra à ce sujet. Nous avons posé la question suivante :

Ultra n’a pas voulu s’aventurer sur un terrain litigieux dans sa réponse sur les franchissements de la frontière mexicaine, préférant donner une analyse pro-con.

Passage de la frontière à Gemini

Crédits photographiques : Google

Il en va de même pour la réponse d’Ultra à la question des admissions à Harvard. Le modèle a mis en évidence des problèmes potentiels liés à l’héritage historique, mais aussi au processus d’admission – et des problèmes systémiques.

Gemini harvard

Crédits d’image : Google

Questions géopolitiques

La géopolitique peut être un sujet délicat. Pour savoir comment Ultra s’y prend, nous avons posé la question :

Ultra a fait preuve de retenue en répondant à la question de Taïwan, en donnant des arguments pour – et contre – l’indépendance de l’île, ainsi que le contexte historique et les résultats potentiels.

Gemini taiwan

Crédits d’image : Google

Ultra a été plus … décisif sur l’invasion russe de l’Ukraine malgré sa réponse vague à la question précédente sur la guerre Israël-Gaza, qualifiant les actions de la Russie de « moralement indéfendables ».

Gemini Ultra russie

Crédits d’image : Google

Blagues

Pour un test plus léger, nous avons demandé à Ultra de raconter des blagues (il y a un intérêt à cela – l’humour est un point de repère important pour l’IA) :

Je ne peux pas dire que l’une ou l’autre de ces blagues ait été particulièrement inspirée – ou drôle (la première semble avoir complètement manqué la partie « partir en vacances » de l’invitation). Mais ils répondent à la définition du dictionnaire de « blague », je suppose.

Gemini Ultra blague vacances

Crédits d’image : Google

Blague des Gémeaux 2

Crédits d’image : Google

Description du produit

Des fournisseurs comme Google présentent les modèles GenAI comme des outils de productivité, et non comme de simples moteurs de réponse. Nous avons donc testé Ultra sur le plan de la productivité :

Ultra s’est montré à la hauteur, mais avec des descriptions bien en deçà des limites de mots et de caractères et sur un ton inutilement (de l’avis de ce rédacteur) ampoulé. La subtilité ne semble pas être le point fort d’Ultra.

Description des produits Gemini

Crédits d’image : Google

Description du produit Gemini 2

Crédits d’image : Google

Intégration de l’espace de travail

L’intégration de l’espace de travail étant une fonctionnalité fortement annoncée d’Ultra, il semblait tout à fait approprié de tester les invites qui en tirent parti :

  • Quels sont les fichiers de mon Google Drive dont la taille est inférieure à 25 Mo ?
  • Résumez mes trois derniers courriels.
  • Recherchez sur YouTube les vidéos de chats des quatre derniers jours.
  • Envoyer à mon Gmail des indications pour se rendre à Paris à pied depuis l’endroit où je me trouve.
  • Trouvez-moi un vol et un hôtel bon marché pour un voyage à Berlin début juillet.
Intégration de l'espace de travail Gemini

Crédits d’image : Google

Intégration de l'espace de travail Gemini

Crédits d’image : Google

Intégration de l'espace de travail Gemini

Crédits d’image : Google

Intégration de l'espace de travail Gemini

Crédits d’image : Google

Ce sont les compétences d’Ultra en matière de planification de voyage qui m’ont le plus impressionné. Conformément aux instructions, Ultra a trouvé un vol bon marché et une liste d’hôtels bon marché pour le voyage que je souhaitais faire, avec une description détaillée de chacun d’entre eux.

Les recherches d’Ultra sur YouTube ont été moins impressionnantes. Les fonctionnalités de base, comme le tri des vidéos par date de téléchargement, se sont avérées au-delà des capacités du modèle. Une recherche directe aurait été plus simple.

L’intégration de Gmail est celle qui m’a le plus intrigué, je dois dire, moi qui suis souvent noyé sous les courriels, mais aussi celle qui est la plus sujette aux erreurs. Demander le contenu des messages par thème général ou par fenêtre de réception (par exemple, « les quatre derniers jours ») a assez bien fonctionné lors de mes tests. Mais la demande d’informations très spécifiques, comme les informations de suivi d’une commande passée chez Banana Republic, a fait échouer le modèle plus souvent qu’à son tour.

À retenir

Que penser d’Ultra après cet interrogatoire ? C’est un bon modèle. Pour la recherche, il est même excellent, selon le sujet. Mais il ne change pas la donne.

Hormis les étranges non-réponses aux questions sur l’élection présidentielle américaine de 2020 et le conflit Israël-Gaza, Gemini Ultra a fait preuve d’une rigueur sans faille dans ses réponses, quel que soit le degré de controverse du territoire. Il n’a pas pu être persuadé de donner des conseils potentiellement nuisibles (ou légalement problématiques) et s’en est tenu aux faits, ce qui n’est pas le cas de tous les modèles de GenAI.

Mais si vous attendiez de la nouveauté de la part d’Ultra, préparez-vous à être déçus.

Il est encore tôt. Les fonctions multimodales d’Ultra – un argument de vente majeur – n’ont pas encore été entièrement activées. Et les intégrations supplémentaires avec l’écosystème plus large de Google sont en cours d’élaboration.

Mais payer 20 dollars par mois pour Ultra semble être une demande importante pour l’instant, d’autant plus que le plan payant pour ChatGPT d’OpenAI coûte le même prix et est livré avec des plugins tiers et des capacités telles que des instructions personnalisées et de la mémoire.

Ultra s’améliorera sans aucun doute avec l’appui des divisions de recherche en IA de Google. La question est de savoir quand, exactement, il atteindra le point où son coût sera justifié – si jamais il l’est.

IA