Le nouveau modèle d’IA d’AI21 Labs peut gérer plus de contexte que la plupart des autres modèles

Le nouveau modèle d’IA d’AI21 Labs peut gérer plus de contexte que la plupart des autres modèles

L’industrie de l’IA s’oriente de plus en plus vers des modèles d’IA génératifs avec des contextes plus longs. Mais les modèles avec de grandes fenêtres contextuelles ont tendance à être gourmands en ressources informatiques. Or Dagan, chef de produit chez AI21 Labs, une startup spécialisée dans l’IA, affirme que ce n’est pas forcément le cas – et son entreprise publie un modèle génératif pour le prouver.

Les contextes, ou fenêtres contextuelles, font référence aux données d’entrée (par exemple, du texte) qu’un modèle prend en compte avant de générer un résultat (plus de texte). Les modèles dotés de petites fenêtres contextuelles ont tendance à oublier le contenu de conversations même très récentes, tandis que les modèles dotés de contextes plus larges évitent cet écueil et, en outre, saisissent mieux le flux de données qu’ils reçoivent.

Jamba d’AI21 Labs, un nouveau modèle de génération et d’analyse de texte, peut effectuer un grand nombre des mêmes tâches que des modèles tels que ChatGPT d’OpenAI et Gemini de Google. Entraîné sur un mélange de données publiques et propriétaires, Jamba peut écrire des textes en anglais, français, espagnol et portugais.

Jamba peut traiter jusqu’à 140 000 jetons en fonctionnant sur un seul GPU doté d’au moins 80 Go de mémoire (comme un Nvidia A100 haut de gamme). Cela correspond à environ 105 000 mots, soit 210 pages – un roman de taille convenable.

Llama 2 de Meta, par comparaison, a une fenêtre contextuelle de 32 000 mots – ce qui est un peu plus petit selon les normes actuelles – mais ne nécessite qu’un GPU doté d’environ 12 Go de mémoire pour fonctionner. (Les fenêtres contextuelles sont généralement mesurées en tokens, qui sont des bits de texte brut et d’autres données).

À première vue, Jamba n’a rien de remarquable. Il existe de nombreux modèles d’IA générative téléchargeables et disponibles gratuitement, de DBRX, récemment publié par Databricks, à Llama 2, mentionné plus haut.

Mais ce qui rend Jamba unique, c’est ce qu’il y a sous le capot. Il utilise une combinaison de deux architectures de modèles : les transformateurs et les modèles d’espace d’état (SSM).

Les transformateurs sont l’architecture de choix pour les tâches de raisonnement complexes, alimentant des modèles tels que GPT-4 et Gemini de Google, par exemple. Ils possèdent plusieurs caractéristiques uniques, mais la caractéristique principale des transformateurs est de loin leur « mécanisme d’attention ». Pour chaque donnée d’entrée (par exemple une phrase), les transformateurs peser la pertinence de chaque autre entrée (d’autres phrases) et s’en inspire pour générer la sortie (une nouvelle phrase).

Les SSM, quant à eux, combinent plusieurs qualités d’anciens types de modèles d’IA, tels que les réseaux neuronaux récurrents et les réseaux neuronaux convolutifs, pour créer une architecture plus efficace sur le plan informatique, capable de traiter de longues séquences de données.

Aujourd’hui, les SSM ont leurs limites. Mais certaines de leurs premières incarnations, dont un modèle open source appelé Mamba, conçu par des chercheurs de Princeton et de Carnegie Mellon, peuvent traiter des entrées plus importantes que leurs équivalents basés sur des transformateurs, tout en les surpassant dans les tâches de génération de langage.

Jamba utilise en fait Mamba comme partie intégrante du modèle de base – et Dagan affirme qu’il offre un débit trois fois plus élevé sur les longs contextes que les modèles à base de transformateurs de taille comparable.

« Bien qu’il existe quelques exemples académiques de modèles SSM, il s’agit du premier modèle commercial à l’échelle de production », a déclaré Dagan lors d’un entretien avec TechCrunch. « Cette architecture, en plus d’être innovante et intéressante pour les recherches ultérieures de la communauté, offre de grandes possibilités en termes d’efficacité et de débit.

Bien que Jamba ait été publié sous la licence Apache 2.0, une licence open source avec relativement peu de restrictions d’utilisation, Dagan insiste sur le fait qu’il s’agit d’une version de recherche qui n’est pas destinée à être utilisée à des fins commerciales. Le modèle ne dispose pas de garde-fous pour l’empêcher de générer des textes toxiques ni de mesures d’atténuation des biais potentiels ; une version affinée et apparemment plus « sûre » sera mise à disposition dans les semaines à venir.

Mais Dagan affirme que Jamba démontre la promesse de l’architecture SSM, même à ce stade précoce.

« La valeur ajoutée de ce modèle, en raison de sa taille et de son architecture innovante, est qu’il peut être facilement installé sur un seul GPU », a-t-il déclaré. « Nous pensons que les performances s’amélioreront encore au fur et à mesure que Mamba sera perfectionné.

IA