Le nouveau modèle Gemini de Google peut analyser une vidéo d’une heure, mais peu de gens peuvent l’utiliser

Le nouveau modèle Gemini de Google peut analyser une vidéo d’une heure, mais peu de gens peuvent l’utiliser

En octobre dernier, un article de recherche publié par un scientifique des données de Google, le directeur technique de Databricks Matei Zaharia et Pieter Abbeel, professeur à l’université de Berkeley, proposait un moyen de permettre aux modèles GenAI – c’est-à-dire les modèles du type GPT-4 et ChatGPT d’OpenAI – d’ingérer beaucoup plus de données que ce qui était possible jusqu’à présent. Dans l’étude, les coauteurs ont démontré qu’en supprimant un important goulot d’étranglement de la mémoire pour les modèles d’IA, ils pouvaient permettre aux modèles de traiter des millions de mots au lieu de centaines de milliers – le maximum des modèles les plus performants à l’époque.

La recherche sur l’IA évolue rapidement, semble-t-il.

Aujourd’hui, Google a annoncé la sortie de Gemini 1.5 Pro, le dernier membre de sa famille de modèles GenAI Gemini. Conçu pour remplacer directement Gemini 1.0 Pro (qui s’appelait auparavant « Gemini Pro 1.0 » pour des raisons connues uniquement de la branche marketing labyrinthique de Google), Gemini 1.5 Pro est amélioré dans un certain nombre de domaines par rapport à son prédécesseur, peut-être surtout en ce qui concerne la quantité de données qu’il peut traiter.

Gemini 1.5 Pro peut traiter ~700 000 mots ou ~30 000 lignes de code, soit 35 fois plus que Gemini 1.0 Pro. De plus, le modèle étant multimodal, il ne se limite pas au texte. Gemini 1.5 Pro peut ingérer jusqu’à 11 heures d’audio ou une heure de vidéo dans une variété de langues différentes.

Google Gemini 1.5 Pro

Crédits d’image : Google

Pour être clair, il s’agit d’une limite supérieure.

La version de Gemini 1.5 Pro mise à la disposition de la plupart des développeurs et des clients à partir d’aujourd’hui (en avant-première limitée) ne peut traiter que 100 000 mots à la fois. Google qualifie Gemini 1.5 Pro d' »expérimental », autorisant uniquement les développeurs approuvés dans le cadre d’un aperçu privé à le piloter via l’outil de développement GenAI AI Studio de l’entreprise. Plusieurs clients utilisant la plateforme Vertex AI de Google ont également accès à Gemini 1.5 Pro, mais pas tous.

Néanmoins, Oriol Vinyals, vice-président de la recherche chez Google DeepMind, a salué cet exploit.

« Lorsque vous interagissez avec les modèles (GenAI), les informations que vous saisissez et produisez deviennent le contexte, et plus vos questions et interactions sont longues et complexes, plus le contexte dont le modèle a besoin pour être en mesure de traiter devient long », a déclaré M. Vinyals lors d’une conférence de presse. « Nous avons débloqué le contexte long d’une manière assez massive.

Grand contexte

Le contexte d’un modèle, ou fenêtre contextuelle, fait référence aux données d’entrée (par exemple un texte) que le modèle prend en compte avant de générer des données de sortie (par exemple un texte supplémentaire). Une simple question – « Qui a remporté l’élection présidentielle américaine de 2020 ? » – peut servir de contexte, tout comme un scénario de film, un courriel ou un livre électronique.

Les modèles dotés de petites fenêtres contextuelles ont tendance à « oublier » le contenu des conversations, même les plus récentes, ce qui les amène à s’écarter du sujet, souvent de manière problématique. Ce n’est pas nécessairement le cas avec les modèles à contexte large. En outre, les modèles à contexte large peuvent mieux saisir le flux narratif des données qu’ils reçoivent et générer des réponses plus riches sur le plan contextuel – hypothétiquement, du moins.

Il y a eu d’autres tentatives – et expériences – de modèles avec des fenêtres de contexte atypiquement grandes.

L’été dernier, la startup Magic a affirmé avoir développé un grand modèle de langage (LLM) avec une fenêtre de contexte de 5 millions de tokens. Deux articles publiés l’année dernière détaillent des architectures de modèles ostensiblement capables de s’étendre à un million de tokens – et au-delà. (Les « tokens » sont des données brutes subdivisées, comme les syllabes « fan », « tas » et « tic » dans le mot « fantastique »). Récemment, un groupe de scientifiques du Meta, du MIT et de Carnegie Mellon a mis au point une technique qui, selon eux, supprime complètement la contrainte de la taille de la fenêtre du contexte du modèle.

Mais Google est le premier à commercialiser un modèle doté d’une fenêtre contextuelle de cette taille, battant le précédent leader Anthropic avec sa fenêtre contextuelle de 200 000 mots – si un aperçu privé est considéré comme commercialement disponible.

Google Gemini 1.5 Pro

Crédits d’image : Google

La fenêtre contextuelle maximale de Gemini 1.5 Pro est de 1 million de jetons, et la version du modèle la plus répandue a une fenêtre contextuelle de 128 000 jetons, la même que la GPT-4 Turbo d’OpenAI.

Que peut-on donc faire avec une fenêtre contextuelle d’un million de jetons ? Beaucoup de choses, promet Google, comme analyser toute une bibliothèque de codes, « raisonner à travers » de longs documents tels que des contrats, tenir de longues conversations avec un chatbot et analyser et comparer le contenu de vidéos.

Au cours de la réunion d’information, Google a présenté deux démonstrations préenregistrées de Gemini 1.5 Pro avec la fenêtre contextuelle d’un million de clés activée.

Dans la première, le démonstrateur a demandé à Gemini 1.5 Pro de rechercher dans la transcription de la retransmission de l’alunissage d’Apollo 11 – qui compte environ 402 pages – des citations contenant des blagues, puis de trouver dans la retransmission une scène ressemblant à une esquisse au crayon. Dans le second cas, le démonstrateur a demandé au modèle de rechercher des scènes dans « Sherlock Jr », le film de Buster Keaton, à partir de descriptions et d’un autre croquis.

Google Gemini 1.5 Pro

Crédits d’image : Google

Gemini 1.5 Pro a accompli avec succès toutes les tâches qui lui ont été demandées, mais pas très rapidement. Le traitement de chacune d’entre elles a pris entre 20 secondes et une minute, ce qui est beaucoup plus long que, par exemple, la requête moyenne de ChatGPT.

Google Gemini 1.5 Pro

Crédits d’image : Google

Vinyals précise que la latence s’améliorera au fur et à mesure de l’optimisation du modèle. L’entreprise teste déjà une version de Gemini 1.5 Pro dotée d’un système d’exploitation à base d’eau. 10 millions de jetons fenêtre contextuelle.

« L’aspect de la latence (est quelque chose) que nous travaillons à optimiser – c’est encore au stade expérimental, au stade de la recherche », a-t-il déclaré. « Je dirais donc que ces problèmes sont présents comme dans n’importe quel autre modèle.

Pour ma part, je ne suis pas sûr qu’une latence aussi faible soit intéressante pour de nombreuses personnes, et encore moins pour des clients payants. Le fait de devoir attendre plusieurs minutes pour rechercher une vidéo n’est pas très agréable, ni très évolutif à court terme. Et je m’inquiète de la façon dont la latence se manifeste dans d’autres applications, comme les conversations de chatbot et l’analyse des bases de code. Vinyals n’a rien dit, ce qui n’incite pas à la confiance.

Mon collègue Frédéric Lardinois, plus optimiste, a fait remarquer que la globalement le gain de temps pourrait bien justifier le fait de se tourner les pouces. Mais je pense que cela dépendra beaucoup du cas d’utilisation. Pour repérer les points de l’intrigue d’une émission ? Peut-être pas. Mais pour trouver la bonne capture d’écran d’une scène de film dont vous ne vous souvenez que vaguement ? Peut-être.

Autres améliorations

Au-delà de la fenêtre contextuelle élargie, Gemini 1.5 Pro apporte d’autres améliorations en termes de qualité de vie.

Google affirme qu’en termes de qualité, Gemini 1.5 Pro est « comparable » à la version actuelle de Gemini Ultra, le modèle GenAI phare de Google, grâce à une nouvelle architecture composée de modèles « experts » plus petits et spécialisés. Gemini 1.5 Pro décompose essentiellement les tâches en plusieurs sous-tâches, puis les délègue aux modèles experts appropriés, en décidant quelle tâche déléguer sur la base de ses propres prédictions.

Le modèle expert n’est pas une nouveauté – il existe sous une forme ou une autre depuis des années. Mais son efficacité et sa flexibilité en ont fait un choix de plus en plus populaire parmi les fournisseurs de modèles (voir : le modèle qui alimente les services de traduction linguistique de Microsoft).

L’expression « qualité comparable » est un peu nébuleuse. La qualité des modèles GenAI, en particulier des modèles multimodaux, est difficile à quantifier, d’autant plus que les modèles sont protégés par des aperçus privés qui excluent la presse. Pour ce que cela vaut, Google affirme que Gemini 1.5 Pro a des performances « largement similaires » à celles d’Ultra dans les tests de référence utilisés par l’entreprise pour évaluer la qualité de ses produits. développer des LLM alors que tout en surpassant Gemini 1.0 Pro sur 87% de ces . (Je note que surpasser Gemini 1.0 Pro n’est pas une mince affaire).

Le prix est un grand point d’interrogation.

Pendant l’aperçu privé, l’utilisation de Gemini 1.5 Pro avec la fenêtre contextuelle d’un million de tokens sera gratuite, indique Google. Mais l’entreprise prévoit d’introduire des paliers de tarification dans un avenir proche, à partir de la fenêtre contextuelle standard de 128 000 tokens et jusqu’à 1 million de tokens.

Je dois imaginer que la fenêtre de contexte plus large ne sera pas bon marché – et Google n’a pas apaisé les craintes en choisissant de ne pas révéler le prix lors de la réunion d’information. Si la tarification est conforme à celle d’Anthropic, elle pourrait coûter 8 dollars par million de jetons d’appel et 24 dollars par million de jetons générés. Mais peut-être que le prix sera inférieur ; des choses plus étranges se sont produites ! Nous devons attendre et voir.

Je m’interroge également sur les implications pour les autres modèles de la famille Gemini, notamment Gemini Ultra. Peut-on s’attendre à ce que les mises à jour du modèle Ultra soient à peu près alignées sur les mises à jour du modèle Pro ? Ou y aura-t-il toujours – comme c’est le cas actuellement – une période difficile pendant laquelle les modèles Pro disponibles seront plus performants que les modèles Ultra, que Google commercialise toujours comme le haut de gamme de sa gamme Gemini ?

Si vous êtes charitable, mettez cela sur le compte de problèmes initiaux. Si vous ne l’êtes pas, dites ce qu’il en est : c’est vraiment déroutant.

IA