AI2 ouvre les sources des modèles d’IA générateurs de texte – et des données utilisées pour les entraîner

AI2 ouvre les sources des modèles d’IA générateurs de texte – et des données utilisées pour les entraîner

L’Allen Institute for AI (AI2), l’institut de recherche en IA à but non lucratif fondé par Paul Allen, cofondateur de Microsoft aujourd’hui décédé, publie plusieurs modèles de langage GenAI qu’il affirme être plus « ouverts » que d’autres – et, surtout, dont la licence permet aux développeurs de les utiliser sans entrave à des fins de formation, d’expérimentation et même de commercialisation.

Appelés OLMo, un acronyme pour « Open Language Models », les modèles et l’ensemble de données utilisé pour les entraîner, Dolma – l’un des plus grands ensembles de données publiques de ce type – ont été conçus pour étudier la science de haut niveau derrière l’IA génératrice de texte, selon Dirk Groeneveld, ingénieur logiciel senior d’AI2.

Le terme « ouvert » est surchargé lorsqu’il s’agit de (modèles de génération de texte) », a déclaré Groeneveld à TechCrunch lors d’une interview par e-mail. « Nous pensons que les chercheurs et les praticiens saisiront le cadre OLMo comme une occasion d’analyser un modèle formé sur l’un des plus grands ensembles de données publiques publiés à ce jour, ainsi que tous les composants nécessaires à la construction des modèles.

Les modèles de génération de texte à source ouverte sont de plus en plus nombreux, des organisations telles que Meta ou Mistral publiant des modèles très performants que n’importe quel développeur peut utiliser et peaufiner. Mais Groeneveld fait valoir que nombre de ces modèles ne peuvent pas être utilisés par les développeurs. vraiment être considérés comme ouverts parce qu’ils ont été formés « derrière des portes closes » et sur des ensembles de données propriétaires et opaques.

En revanche, les modèles OLMo, qui ont été créés avec l’aide de partenaires tels que Harvard, AMD et Databricks, sont livrés avec le code utilisé pour produire leurs données d’entraînement, ainsi qu’avec les métriques et les journaux d’entraînement et d’évaluation.

En termes de performances, le modèle OLMo le plus performant, OLMo 7B, est une alternative « convaincante et solide » au Llama 2 de Meta, affirme Groeneveld – en fonction de l’application. Sur certains points de référence, en particulier ceux qui concernent la compréhension de la lecture, OLMo 7B l’emporte sur Llama 2. Mais dans d’autres, en particulier les tests de réponse à des questions, OLMo 7B est légèrement en retrait.

Les modèles OLMo présentent d’autres limites, comme des résultats de faible qualité dans des langues autres que l’anglais (Dolma contient essentiellement du contenu en anglais) et de faibles capacités de génération de codes. Mais M. Groeneveld a souligné qu’il n’en était qu’à ses débuts.

« OLMo n’est pas conçu pour être multilingue – pour l’instant », a-t-il déclaré. « (Et bien qu’à ce stade, l’objectif principal du cadre OLMo ne soit pas la génération de code, afin de donner une longueur d’avance aux futurs projets de traitement fin basés sur le code, l’ensemble des données d’OLMo contient actuellement environ 15 % de code.

J’ai demandé à M. Groeneveld s’il craignait que les modèles OLMo, qui peuvent être utilisés à des fins commerciales et sont suffisamment performants pour fonctionner sur des GPU grand public tels que le Nvidia 3090, puissent être exploités de manière involontaire, voire malveillante, par de mauvais acteurs. Une étude récente du projet Disinfo Radar de Democracy Reporting International, qui vise à identifier et à traiter les tendances et les technologies de désinformation, a révélé que deux modèles populaires de génération de texte ouvert, Zephyr de Hugging Face et Dolly de Databricks, génèrent de manière fiable du contenu toxique, en répondant à des messages malveillants par du contenu nuisible « imaginatif ».

Groeneveld estime que les avantages l’emportent finalement sur les inconvénients.

« La construction de cette plateforme ouverte facilitera en fait la recherche sur la façon dont ces modèles peuvent être dangereux et sur ce que nous pouvons faire pour les corriger », a-t-il déclaré. « Oui, il est possible que les modèles ouverts soient utilisés de manière inappropriée ou à des fins non souhaitées. (Toutefois, cette approche favorise également les progrès techniques qui conduisent à des modèles plus éthiques ; elle est une condition préalable à la vérification et à la reproductibilité, car celles-ci ne peuvent être réalisées qu’avec un accès à l’ensemble de la pile ; et elle réduit une concentration croissante du pouvoir, créant un accès plus équitable.

Dans les mois à venir, AI2 prévoit de publier des modèles OLMo plus importants et plus performants, y compris des modèles multimodaux (c’est-à-dire des modèles qui comprennent d’autres modalités que le texte), ainsi que des ensembles de données supplémentaires pour l’entraînement et l’affinage. Comme pour les versions initiales d’OLMo et de Dolma, toutes les ressources seront disponibles gratuitement sur GitHub et sur la plateforme d’hébergement de projets d’IA Hugging Face.

IA