Le dernier modèle anthropique peut prendre « The Great Gatsby » en entrée

Le dernier modèle anthropique peut prendre « The Great Gatsby » en entrée

Historiquement et encore aujourd’hui, la faiblesse de la mémoire a été un obstacle à l’utilité de l’IA génératrice de texte. Comme l’indique avec justesse un article récent de The Atlantic, même une IA génératrice de texte sophistiquée comme ChatGPT a la mémoire d’un poisson rouge. Chaque fois que le modèle génère une réponse, il ne prend en compte qu’une quantité très limitée de texte, ce qui l’empêche, par exemple, de résumer un livre ou de passer en revue un projet de codage majeur.

Mais Anthropic essaie de changer cela.

Aujourd’hui, la startup spécialisée dans la recherche en IA a annoncé qu’elle avait élargi la fenêtre contextuelle de Claude – son modèle phare de génération de texte, encore en phase de prévisualisation – de 9 000 à 100 000 tokens. La fenêtre contextuelle fait référence au texte que le modèle prend en compte avant de générer du texte supplémentaire, tandis que les tokens représentent le texte brut (par exemple, le mot « fantastique » serait divisé en tokens « fan », « tas » et « tic »).

Qu’est-ce que cela signifie exactement ? Comme nous l’avons déjà mentionné, les modèles dotés de petites fenêtres contextuelles ont tendance à « oublier » le contenu des conversations, même les plus récentes, ce qui les amène à s’écarter du sujet. Après quelques milliers de mots, ils oublient également leurs instructions initiales, extrapolant leur comportement à partir des dernières informations contenues dans leur fenêtre contextuelle plutôt qu’à partir de la demande initiale.

Étant donné les avantages des grandes fenêtres contextuelles, il n’est pas surprenant que les laboratoires d’IA comme OpenAI, qui a consacré une équipe entière à cette question, se soient attachés à trouver des moyens de les élargir. Le GPT-4 de l’OpenAI détenait la précédente couronne en termes de taille de fenêtre contextuelle, avec un poids de 32 000 tokens en haut de l’échelle – mais l’API Claude améliorée dépasse ce chiffre.

Avec une plus grande « mémoire », Claude devrait être capable de converser de manière relativement cohérente pendant des heures – voire plusieurs jours – au lieu de quelques minutes. Et peut-être plus important encore, il devrait être moins susceptible de dérailler.

Dans un billet de blog, Anthropic vante les autres avantages de l’augmentation de la fenêtre contextuelle de Claude, notamment la capacité du modèle à assimiler et à analyser des centaines de pages de documents. Au-delà de la lecture de textes longs, la version améliorée de Claude peut aider à extraire des informations de plusieurs documents ou même d’un livre, explique Anthropic, en répondant à des questions qui nécessitent une « synthèse des connaissances » à travers de nombreuses parties du texte.

Anthropic énumère quelques cas d’utilisation possibles :

  • Digérer, résumer et expliquer des documents tels que des états financiers ou des rapports de recherche.
  • Analyser les risques et les opportunités d’une entreprise sur la base de ses rapports annuels
  • Évaluer les avantages et les inconvénients d’un texte législatif
  • Identifier les risques, les thèmes et les différentes formes d’argumentation dans les documents juridiques.
  • Lire des centaines de pages de documentation destinée aux développeurs et trouver des réponses aux questions techniques.
  • Prototypage rapide en déposant une base de code entière dans le contexte et en la construisant ou en la modifiant intelligemment.

« Une personne moyenne peut lire 100 000 mots de texte en cinq heures environ, mais il lui faut ensuite beaucoup plus de temps pour digérer, mémoriser et analyser ces informations », poursuit Anthropic. « Claude peut maintenant le faire en moins d’une minute. Par exemple, nous avons chargé l’intégralité du texte de The Great Gatsby dans Claude … et modifié une ligne pour indiquer que M. Carraway était ‘un ingénieur logiciel qui travaille sur des outils d’apprentissage automatique chez Anthropic’. Lorsque nous avons demandé au modèle de repérer ce qui était différent, il a donné la bonne réponse en 22 secondes ».

L’allongement des fenêtres contextuelles ne résout pas les autres problèmes de mémoire liés aux grands modèles de langage. Claude, comme la plupart des modèles de sa catégorie, ne peut pas retenir les informations d’une session à l’autre. Et contrairement au cerveau humain, il traite chaque information avec la même importance, ce qui en fait un narrateur peu fiable. Certains experts pensent que la résolution de ces problèmes nécessitera des architectures de modèles entièrement nouvelles.

Pour l’instant, cependant, Anthropic semble être à l’avant-garde.

IA