La meilleure démo Gemini de Google a été truquée

La meilleure démo Gemini de Google a été truquée

Le nouveau modèle d’IA Gemini de Google reçoit un accueil mitigé après sa grande première hier, mais les utilisateurs pourraient avoir moins confiance dans la technologie ou l’intégrité de l’entreprise après avoir découvert que la démo la plus impressionnante de Gemini était en grande partie truquée.

Une vidéo intitulée « Hands-on with Gemini : Interacting with multimodal AI » a été visionnée un million de fois au cours de la dernière journée, et il n’est pas difficile de comprendre pourquoi. La démonstration impressionnante « met en lumière certaines de nos interactions préférées avec Gemini », montrant comment le modèle multimodal (c’est-à-dire qu’il comprend et mélange le langage et la compréhension visuelle) peut être flexible et répondre à une variété d’entrées.

Pour commencer, il raconte l’évolution d’un croquis de canard, d’un gribouillis à un dessin achevé, dont il dit que la couleur n’est pas réaliste, puis manifeste sa surprise (« Quel couac ! ») à la vue d’un canard bleu en forme de jouet. Il répond ensuite à diverses questions vocales sur ce jouet, puis la démo passe à d’autres démonstrations, comme le suivi d’une balle dans un jeu de changement de gobelets, la reconnaissance de gestes d’ombres chinoises, le réarrangement de croquis de planètes, et ainsi de suite.

Tout cela est très réactif, même si la vidéo précise que « la latence a été réduite et que les sorties Gemini ont été raccourcies ». Donc, ils sautent une hésitation ici et une réponse trop longue là, c’est compris. Dans l’ensemble, il s’agit d’une démonstration de force époustouflante dans le domaine de la compréhension multimodale. Mon propre scepticisme quant à la capacité de Google à produire un produit concurrent a été mis à mal lorsque j’ai regardé la démonstration pratique.

Un seul problème : la vidéo n’est pas réelle. « Nous avons créé la démo en capturant des images afin de tester les capacités de Gemini sur un large éventail de défis. Ensuite, nous avons demandé à Gemini d’utiliser des images fixes tirées de la vidéo et des messages textuels. (Parmy Olson, de Bloomberg, était l’auteur de la a été le premier à rapporter l’écart).

Ainsi, bien qu’il puisse en quelque sorte faire les choses que Google montre dans la vidéo, il ne les a pas faites, et ne pouvait peut-être pas les faire en direct et de la manière qu’elles impliquaient. En réalité, il s’agit d’une série d’invites textuelles soigneusement ajustées avec des images fixes, clairement sélectionnées et raccourcies pour déformer la réalité de l’interaction. Vous pouvez voir certaines des invites et des réponses réelles dans un article de blog connexe – qui, pour être juste, est lié à la description de la vidéo, bien qu’en dessous de  » … plus « .

D’une part, Gemini semble vraiment avoir généré les réponses montrées dans la vidéo. Et qui voudrait voir des commandes d’entretien, comme demander au modèle de vider sa mémoire cache ? Mais les spectateurs sont trompés sur la vitesse, la précision et le mode fondamental d’interaction avec le modèle.

Par exemple, à 2:45 de la vidéo, on voit une main faire silencieusement une série de gestes. Gemini répond rapidement : « Je sais ce que tu fais ! Tu joues à Pierre, Papier, Ciseaux ! ».

Crédits image : Google/YouTube

Mais la première chose dans la documentation de la capacité est la façon dont le modèle ne raisonne pas en voyant des gestes individuels. Il faut lui montrer les trois gestes en même temps et lui demander : « Qu’est-ce que vous pensez que je suis en train de faire ? Indice : c’est un jeu ». Il répond : « Vous jouez à pierre, papier, ciseaux ».

Crédits image : Google

En dépit de leur similitude, on n’a pas l’impression qu’il s’agit de la même interaction. Il s’agit d’interactions fondamentalement différentes, l’une étant une évaluation intuitive, sans paroles, qui saisit une idée abstraite à la volée, l’autre étant une interaction technique et lourdement suggérée qui démontre les limites autant que les capacités. Gemini a fait ce dernier type d’interaction, pas le premier. L' »interaction » montrée dans la vidéo n’a pas eu lieu.

Plus tard, trois notes autocollantes représentant le soleil, Saturne et la Terre sont placées sur la surface. « Est-ce que c’est le bon ordre ? » Gemini répond : « Non, l’ordre correct est Soleil, Terre, Saturne. » C’est exact ! Mais dans l’invite réelle (encore une fois, écrite), la question est « Est-ce que c’est le bon ordre ? Tenez compte de la distance par rapport au soleil et expliquez votre raisonnement. »

Crédits images : Google

Gemini a-t-il eu raison ? Ou s’est-il trompé et a-t-il eu besoin d’un peu d’aide pour produire une réponse qu’il pourrait présenter dans une vidéo ? A-t-il même reconnu les planètes, ou a-t-il eu besoin d’aide dans ce domaine également ?

Dans la vidéo, une boule de papier est échangée sous une tasse, ce que le modèle détecte et suit instantanément et apparemment de manière intuitive. Dans le billet, non seulement l’activité doit être expliquée, mais le modèle doit également être entraîné (si possible rapidement et en utilisant le langage naturel) à l’exécuter. Et ainsi de suite.

Ces exemples peuvent vous sembler triviaux ou non. Après tout, reconnaître si rapidement des gestes de la main comme un jeu est vraiment impressionnant pour un modèle multimodal ! Il en va de même pour la capacité à juger si une image à moitié terminée est un canard ou non ! Cependant, comme l’article du blog ne contient pas d’explication sur la séquence du canard, je commence à douter de la véracité de cette interaction.

Si la vidéo avait dit au début « Ceci est une représentation stylisée des interactions testées par nos chercheurs », personne n’aurait sourcillé – nous nous attendons en quelque sorte à ce que les vidéos de ce genre soient à moitié factuelles, à moitié aspirationnelles.

Mais la vidéo s’intitule « Hands-on with Gemini » et lorsqu’ils disent qu’elle montre « nos interactions préférées », cela implique que les interactions que nous voyons sont celles interactions. Ce n’est pas le cas. Parfois, elles étaient plus impliquées, parfois elles étaient totalement différentes, parfois elles ne semblaient pas s’être produites du tout. On ne nous dit même pas de quel modèle il s’agit – le Gemini Pro que les gens peuvent utiliser dès maintenant, ou (plus probablement) la version Ultra dont la sortie est prévue l’année prochaine ?

Aurions-nous dû supposer que Google ne nous donnait qu’un aperçu de la vidéo en la décrivant de cette manière ? Peut-être devrions-nous alors supposer que tous Les capacités des démonstrations de l’IA de Google sont exagérées pour l’effet. J’écris dans le titre que cette vidéo est « truquée ». Au début, je n’étais pas sûr que ce langage cru soit justifié (Google ne le pense certainement pas ; un porte-parole m’a demandé de le modifier). Mais malgré la présence de certains éléments réels, la vidéo ne reflète tout simplement pas la réalité. Elle est fausse.

Google affirme que la vidéo « montre des résultats réels de Gemini », ce qui est vrai, et que « nous avons apporté quelques modifications à la démo (nous avons été francs et transparents à ce sujet) », ce qui n’est pas le cas. Il ne s’agit pas d’une démo – pas vraiment – et la vidéo montre des interactions très différentes de celles qui ont été créées pour la documenter.

Mise à jour: Dans un message sur les médias sociaux Après la publication de cet article, Oriol Vinyals, vice-président de la recherche chez Google DeepMind, a montré un peu plus en détail comment « Gemini a été utilisé pour créer » la vidéo. « La vidéo illustre ce que les expériences utilisateur multimodales construites avec Gemini pourrait ressembler. Nous l’avons créé pour inspirer les développeurs ». (C’est moi qui souligne.) Il est intéressant de noter qu’il montre une séquence d’incitation qui permet à Gemini de répondre à la question sur les planètes sans que le soleil n’y fasse allusion (bien qu’il dise à Gemini qu’il est un expert en matière de planètes et qu’il doit tenir compte de la séquence d’objets représentée).

Je serai peut-être déçu lorsque, la semaine prochaine, l’AI Studio avec Gemini Pro sera disponible pour être expérimenté. Et Gemini pourrait bien devenir une plateforme d’IA puissante qui rivaliserait véritablement avec OpenAI et d’autres. Mais ce que Google a fait ici, c’est empoisonner le puits. Comment peut-on faire confiance à l’entreprise lorsqu’elle prétend que son modèle fait quelque chose maintenant ? L’entreprise boitait déjà derrière ses concurrents. Google vient peut-être de se tirer une balle dans l’autre pied.

IA