Le paysage de l’IA générative s’agrandit de jour en jour.
Aujourd’hui, Meta a annoncé une nouvelle famille de modèles d’IA, Llama 2, conçue pour piloter des applications telles que ChatGPT d’OpenAI, Bing Chat et d’autres chatbots modernes. Entraîné sur un mélange de données publiques, Meta affirme que les performances de Llama 2 s’améliorent considérablement par rapport à la génération précédente de modèles Llama.
Llama 2 est la suite de Llama – une collection de modèles capables de générer du texte et du code en réponse à des invites, comparables à d’autres systèmes de type chatbot. Mais Llama n’était disponible que sur demande ; Meta a décidé d’interdire l’accès aux modèles par crainte d’une utilisation abusive. (Malgré cette mesure de précaution, Llama a ensuite fait l’objet d’une fuite en ligne et s’est répandu dans diverses communautés d’intelligence artificielle).
En revanche, Llama 2, qui est gratuit pour la recherche et l’utilisation commerciale, sera disponible sur AWS, Azure et la plateforme d’hébergement de modèles d’IA de Hugging Face, sous une forme pré-entraînée, pour une mise au point précise. Il sera également plus facile à utiliser, selon Meta, car il sera optimisé pour Windows grâce à un partenariat élargi avec Microsoft, ainsi que pour les smartphones et les PC équipés du système sur puce Snapdragon de Qualcomm. (Qualcomm indique qu’elle travaille à l’intégration de Llama 2 dans les appareils Snapdragon en 2024).
En quoi Llama 2 diffère-t-il de Llama ? De plusieurs façons, que Meta met en évidence dans un long livre blanc.
Llama 2 se décline en deux versions, Llama 2 et Llama 2-Chat, cette dernière ayant été affinée pour les conversations bidirectionnelles. Llama 2 et Llama 2-Chat se subdivisent en versions plus ou moins sophistiquées : 7 milliards de paramètres, 13 milliards de paramètres et 70 milliards de paramètres. (Les « paramètres » sont les parties d’un modèle apprises à partir de données d’entraînement et définissent essentiellement la capacité du modèle à résoudre un problème, en l’occurrence la génération de texte).
Le Llama 2 a été entraîné sur deux millions de tokens, où les « tokens » représentent du texte brut – par exemple « fan », « tas » et « tic » pour le mot « fantastique ». C’est presque deux fois plus que Llama (1,4 trillion) et, d’une manière générale, plus il y a de tokens, mieux c’est en matière d’intelligence artificielle générative. L’actuel grand modèle de langage (LLM) phare de Google, PaLM 2, aurait été entraîné sur 3,6 millions de tokens, et l’on suppose que GPT-4 a également été entraîné sur des trillions de tokens.
Meta ne révèle pas les sources spécifiques des données d’entraînement dans le livre blanc, si ce n’est qu’elles proviennent du Web, principalement en anglais, et non des produits ou services de l’entreprise, et qu’elles mettent l’accent sur des textes de nature « factuelle ».
J’ose supposer que la réticence à révéler les détails de la formation n’est pas seulement due à des raisons de concurrence, mais aussi aux controverses juridiques entourant l’IA générative. Aujourd’hui même, des milliers d’auteurs ont signé une lettre exhortant les entreprises technologiques à cesser d’utiliser leurs écrits pour l’entraînement de modèles d’IA sans autorisation ni compensation.
Mais je m’écarte du sujet. Meta indique que dans une série de points de référence, les modèles Llama 2 sont légèrement moins performants que leurs rivaux fermés les plus en vue, GPT-4 et PaLM 2, et que Llama 2 est nettement moins performant que GPT-4 en matière de programmation informatique. Mais les évaluateurs humains trouvent Llama 2 à peu près aussi « utile » que ChatGPT, affirme Meta ; Llama 2 a répondu de la même manière à un ensemble d’environ 4 000 questions conçues pour sonder l' »utilité » et la « sécurité ».
Il faut cependant prendre les résultats avec des pincettes. Meta reconnaît que ses tests ne peuvent pas reproduire tous les scénarios du monde réel et que ses critères de référence pourraient manquer de diversité – en d’autres termes, ils ne couvrent pas suffisamment des domaines tels que le codage et le raisonnement humain.
Meta admet également que Llama 2, comme tous les modèles d’IA générative, présente des biais sur certains axes. Par exemple, il a tendance à générer des pronoms « il » plus souvent que des pronoms « elle » en raison de déséquilibres dans les données d’apprentissage. En raison de la présence de textes toxiques dans les données d’apprentissage, il ne surpasse pas les autres modèles sur les critères de toxicité. Enfin, le lama 2 a un biais occidental, une fois de plus en raison de déséquilibres dans les données, notamment l’abondance des mots « chrétien », « catholique » et « juif ».
Les modèles Llama 2-Chat font mieux que les modèles Llama 2 sur les critères internes d' »utilité » et de toxicité de Meta. Mais ils ont également tendance à être trop prudents, les modèles ayant tendance à refuser certaines demandes ou à répondre avec trop de détails sur la sécurité.
Pour être juste, les critères ne tiennent pas compte des couches de sécurité supplémentaires qui pourraient être appliquées aux modèles Llama 2 hébergés. Dans le cadre de sa collaboration avec Microsoft, par exemple, Meta utilise Azure AI Content Safety, un service conçu pour détecter les contenus « inappropriés » dans les images et les textes générés par l’IA, afin de réduire les résultats toxiques du Llama 2 sur Azure.
Cela étant, Meta s’efforce toujours de prendre ses distances avec les résultats potentiellement néfastes de Llama 2, soulignant dans le livre blanc que les utilisateurs de Llama 2 doivent se conformer aux termes de la licence Meta et à la politique d’utilisation acceptable, ainsi qu’aux lignes directrices concernant « le développement et le déploiement en toute sécurité ».
« Nous pensons que le partage ouvert des grands modèles de langage d’aujourd’hui soutiendra également le développement d’une IA générative utile et plus sûre », écrit Meta dans un billet de blog. « Nous sommes impatients de voir ce que le monde construira avec Llama 2.
Étant donné la nature des modèles open source, il est impossible de savoir comment – ou où – les modèles peuvent être utilisés exactement. Avec la vitesse fulgurante à laquelle Internet évolue, nous ne tarderons pas à le découvrir.