LlamaIndex ajoute des données privées aux grands modèles linguistiques

LlamaIndex ajoute des données privées aux grands modèles linguistiques

L’automne dernier, après avoir joué avec le modèle d’IA de génération de texte GPT-3 d’OpenAI – le prédécesseur de GPT-4 – Jerry Liu, ancien chercheur scientifique d’Uber, a découvert ce qu’il décrit comme des « limitations » concernant la capacité du modèle à travailler avec des données privées (par exemple, des fichiers personnels). Pour y remédier, il a lancé un projet open source, LlamaIndex, conçu pour débloquer les capacités et les cas d’utilisation des grands modèles de langage (LLM) tels que GPT-3 et GPT-4.

« Les LLM offrent des capacités incroyables pour l’extraction de connaissances et le raisonnement – ils peuvent répondre à des questions, résumer et extraire des informations et même prendre des décisions séquentielles dans un environnement externe », a déclaré Liu à TechCrunch lors d’une interview par e-mail. « Mais les LLM ont des limites.

Alors que le projet gagnait en popularité (avec 200 000 téléchargements mensuels), Liu s’est associé à Simon Suo, l’un de ses anciens collègues chez Uber, pour faire de LlamaIndex une entreprise à part entière. Aujourd’hui, LlamaIndex (l’entreprise) offre un cadre pour aider les développeurs à exploiter les capacités des LLM au-dessus de leurs données personnelles ou organisationnelles.

« LlamaIndex (aide) les développeurs à gérer leurs données pour les applications LLM », a déclaré M. Liu. « Notre boîte à outils est la plus complète dans ce domaine et nous facilitons l’intégration avec d’autres outils utilisés par le développeur.

LlamaIndex

Crédits images : LlamaIndex

Le framework LlamaIndex permet aux développeurs de connecter aux LLM des données provenant de fichiers tels que des PDF, des PowerPoints, des applications telles que Notion et Slack et des bases de données telles que Postgres et MongoDB. Le framework comprend des connecteurs pour ingérer des sources et des formats de données, ainsi que des moyens de structurer les données afin qu’elles puissent être facilement utilisées avec les LLM.

A lire aussi  Vectara obtient 28,5 millions de dollars pour optimiser la recherche en entreprise

En outre, LlamaIndex propose une interface de recherche de données et d’interrogation qui permet aux développeurs d’introduire n’importe quelle entrée LLM pour obtenir en retour – comme le décrit Liu – un résultat « enrichi par le contexte et les connaissances ».

« Il existe d’autres cadres d’application LLM qui offrent des éléments de base pour les applications et les agents LLM », explique M. Liu. « Ce qui est spécifique à LlamaIndex, c’est que nous nous concentrons sur la connexion de vos sources de données avec les LLM, et nous disposons d’outils complets pour l’ingestion, la gestion et l’indexation des données, ainsi que pour la récupération des données en ce qui concerne les applications LLM.

La perspective d’augmenter les LLM de cette manière a séduit les investisseurs, qui ont promis 8,5 millions de dollars à LlamaIndex lors d’un tour de financement de démarrage récemment clôturé. Greylock a mené la danse avec la participation d’investisseurs providentiels, dont Jack Altman, Lenny Rachitsky et Charles Xie.

À quoi LlamaIndex va-t-elle consacrer cet argent ? Liu indique qu’il sera utilisé pour construire une « solution d’entreprise » au sommet du projet open source LlamaIndex, dont le lancement est prévu dans le courant de l’année. L’une des fonctionnalités permettra aux clients d’utiliser des connecteurs de données « de niveau de protection » pour analyser et transporter de gros volumes de données, tandis qu’une autre fonctionnalité connexe leur permettra d’indexer des données « spécifiques à un domaine ».

« LlamaIndex n’est pas lié à une technologie spécifique, de sorte que nous pouvons continuer à être utilisés avec les LLM au fur et à mesure que la technologie évolue », a déclaré M. Liu. « L’industrie de l’IA évolue si rapidement que toutes les piles initiales qui émergent changeront probablement au cours des prochains mois.

A lire aussi  La semaine de l'IA : Apple se lance dans l'apprentissage automatique

IA