Les premières impressions sur Gemini de Google ne sont pas très bonnes

Les premières impressions sur Gemini de Google ne sont pas très bonnes

Cette semaine, Google a dévoilé Gemini, son nouveau modèle phare d’IA générative destiné à alimenter une série de produits et de services, dont Bard, le concurrent de ChatGPT de Google. Dans des articles de blog et des documents de presse, Google a vanté l’architecture et les capacités supérieures de Gemini, affirmant que le modèle atteint ou dépasse les performances d’autres modèles d’IA générative de premier plan tels que le GPT-4 d’OpenAI.

Mais les preuves anecdotiques suggèrent le contraire.

Une version « allégée » de Gemini, Gemini Pro, a commencé à être déployée sur Bard hier, et les utilisateurs n’ont pas tardé à exprimer leurs frustrations sur X (anciennement Twitter).

Le modèle ne tient pas compte des données de base, comme les lauréats des Oscars 2023 :

Notez que Gemini Pro affirme à tort que Brendan Gleeson a remporté le prix du meilleur acteur l’année dernière, et non Brendan Fraser, le véritable lauréat.

J’ai essayé de poser la même question au modèle et, bizarrement, il a donné une réponse erronée différente :

Gemini Pro

Crédits d’image : Google

« Navalny », et non « All the Beauty and the Bloodshed », a remporté le prix du meilleur documentaire l’année dernière ; « All Quiet on the Western Front » a remporté le prix du meilleur film international ; « Women Talking » a remporté le prix du meilleur scénario adapté ; et « Pinocchio » a remporté le prix du meilleur film d’animation. Cela fait beaucoup d’erreurs.

A lire aussi  Meta présente en avant-première des outils d'IA générative à venir sur WhatsApp, Messenger et Instagram, ainsi que des outils d'IA internes.

L’auteur de science-fiction Charlie Stross a trouvé de nombreux autres exemples de confabulation dans un récent billet de blog. (Entre autres faussetés, Gemini Pro affirme que Stross a contribué au noyau Linux, ce qu’il n’a jamais fait).

La traduction ne semble pas non plus être le point fort de Gemini Pro. Il peine à donner un mot de six lettres en français :

Lorsque j’ai soumis la même question à Bard (« Pouvez-vous me donner un mot de 6 lettres en français ? »), Gemini Pro a répondu par un sept-ce qui donne un peu de crédit aux rapports sur les faibles performances multilingues de Gemini.

Gemini Pro

Crédits d’image : Google

Qu’en est-il du résumé de l’actualité ? Gemini Pro, avec Google Search et Google News à sa disposition, peut sûrement donner un résumé d’un sujet d’actualité ? Pas nécessairement.

Il semble que Gemini Pro répugne à commenter des sujets d’actualité potentiellement controversés, préférant dire aux utilisateurs de… chercher eux-mêmes.

J’ai essayé le même message et j’ai obtenu une réponse très similaire. ChatGPT, en revanche, fournit un résumé sous forme de liste à puces avec des citations d’articles de presse :

ChatGPT

Crédits d’image : OpenAI

Il est intéressant de noter que Gemini Pro a a fourni un résumé des mises à jour sur la guerre en Ukraine lorsque je le lui ai demandé. Toutefois, les informations étaient périmées depuis plus d’un mois :

Gemini Pro

Crédits d’image : Google

Google a souligné l’amélioration des compétences de Gemini en matière de codage lors d’une réunion d’information en début de semaine. Il est possible qu’il se soit réellement amélioré dans certains domaines – des messages sur X le suggèrent. Mais il apparaît également que Gemini Pro a des difficultés avec les fonctions de codage de base comme celle-ci en Python :

Et ceux-ci :

Et, comme tous les modèles d’IA générative, Gemini Pro n’est pas à l’abri des « jailbreaks », c’est-à-dire des invites qui contournent les filtres de sécurité mis en place pour tenter de l’empêcher d’aborder des sujets controversés.

A lire aussi  Conservation Labs utilise le son pour diagnostiquer les problèmes de plomberie

En utilisant une méthode automatisée pour modifier algorithmiquement le contexte des invites jusqu’à ce que les garde-fous de Gemini Pro échouent, les chercheurs en sécurité de l’IA de Robust Intelligence, une startup qui vend des outils d’audit de modèles, ont réussi à faire en sorte que Gemini Pro suggère des moyens de voler une organisation caritative et d’assassiner une personne très en vue (bien qu’avec des « nanobots » – il est vrai que ce n’est pas l’arme de choix la plus réaliste).

Gemini Pro

Crédits d’image : Google

Gemini Pro

Crédits d’image : Google

Gemini Pro n’est pas la version la plus performante de Gemini – ce modèle, Gemini Ultra, devrait être lancé dans le courant de l’année prochaine dans Bard et dans d’autres produits. Google a comparé les performances de Gemini Pro à celles du prédécesseur de GPT-4, GPT-3.5, un modèle vieux d’environ un an.

Google a néanmoins promis des améliorations en matière de raisonnement, de planification et de compréhension avec Gemini Pro par rapport au modèle précédent qui alimente Bard, affirmant que Gemini Pro était meilleur pour résumer un contenu, faire un brainstorming et écrire. Il est clair qu’il y a du travail à faire dans ces domaines.

IA