Unstructured, qui propose des outils pour préparer les données d’entreprise pour les LLM, lève 25 millions de dollars

Unstructured, qui propose des outils pour préparer les données d’entreprise pour les LLM, lève 25 millions de dollars

Les grands modèles de langage (LLM) tels que le GPT-4 d’OpenAI sont les éléments de base d’un nombre croissant d’applications d’intelligence artificielle. Mais certaines entreprises ont été réticentes à les adopter, en raison de leur incapacité à accéder à des données propriétaires et de première partie.

Ce n’est pas un problème facile à résoudre, nécessairement – étant donné que ce type de données a tendance à se trouver derrière des pare-feu et se présente dans des formats qui ne peuvent pas être exploités par les LLM. Mais une startup relativement récente, Unstructured.io, tente de lever les obstacles grâce à une plateforme qui extrait et met en scène les données d’entreprise d’une manière que les LLM peuvent comprendre et exploiter.

Brian Raymond, Matt Robinson et Crag Wolfe ont cofondé Unstructured en 2022 après avoir travaillé ensemble chez Primer AI, qui se concentrait sur la construction et le déploiement de solutions de traitement du langage naturel (NLP) pour les entreprises.

« Chez Primer, nous avons souvent rencontré un goulot d’étranglement lors de l’ingestion et du prétraitement des fichiers clients bruts contenant des données NLP (par exemple, PDF, e-mails, PPTX, XML, etc.) et de leur transformation en un fichier propre et curatif prêt pour un modèle ou un pipeline d’apprentissage automatique », a déclaré Raymond, qui est le PDG d’Unstructured, à TechCrunch lors d’une interview par courrier électronique. « Aucune des entreprises d’intégration de données ou de traitement intelligent de documents n’aidait à résoudre ce problème, c’est pourquoi nous avons décidé de créer une entreprise et de nous y attaquer de front.

En effet, le traitement et la préparation des données tendent à être une étape chronophage de tout flux de travail de développement de l’IA. Selon une enquête, les scientifiques des données passent près de 80 % de leur temps à préparer et à gérer les données pour l’analyse. En conséquence, la plupart des données produites par les entreprises – environ deux tiers – ne sont pas utilisées, selon un autre sondage.

« Les organisations génèrent quotidiennement de vastes quantités de données non structurées qui, combinées aux LLM, peuvent stimuler la productivité. Le problème est que ces données sont dispersées », poursuit M. Raymond. « Le secret de polichinelle dans la communauté NLP est que les scientifiques des données doivent encore aujourd’hui construire des connecteurs de données et des pipelines de prétraitement artisanaux et ponctuels, entièrement à la main. Unstructured (fournit) une solution complète pour connecter, transformer et mettre en scène les données de langage naturel pour les LLM ».

Unstructured fournit un certain nombre d’outils pour aider à nettoyer et transformer les données d’entreprise pour l’ingestion LLM, y compris des outils qui suppriment les publicités et autres objets indésirables des pages web, concaténent le texte, effectuent la reconnaissance optique des caractères sur les pages scannées et plus encore. L’entreprise développe des pipelines de traitement pour des types spécifiques de PDF, des documents HTML et Word, y compris pour les dépôts auprès de la SEC, et – entre autres – des rapports d’évaluation d’officiers de l’armée américaine.

Pour traiter les documents, Unstructured a formé son propre modèle NLP de « transformation de fichiers » à partir de zéro et a rassemblé une collection d’autres modèles pour extraire du texte et environ 20 éléments discrets (par exemple, des titres, des en-têtes et des pieds de page) à partir de fichiers bruts. Divers connecteurs – une quinzaine au total – permettent d’extraire des documents à partir de sources de données existantes, comme les logiciels de gestion de la relation client.

« En coulisses, nous utilisons une variété de technologies différentes pour faire abstraction de la complexité », a déclaré M. Raymond. « Par exemple, pour les anciens PDF et les images, nous utilisons des modèles de vision par ordinateur. Pour d’autres types de fichiers, nous utilisons des combinaisons astucieuses de modèles NLP, de scripts Python et d’expressions régulières. »

En aval, Unstructured s’intègre à des fournisseurs tels que LangChain, un cadre pour la création d’applications LLM, et des bases de données vectorielles telles que Weaviate et Atlas Vector Search de MongoDB.

Auparavant, le seul produit d’Unstructured était une suite open source de ces outils de traitement de données. Raymond affirme qu’elle a été téléchargée environ 700 000 fois et utilisée par plus de 100 entreprises. Mais pour couvrir les coûts de développement – et apaiser ses investisseurs, sans doute – la société lance une API commerciale qui transformera les données dans 25 formats de fichiers différents, y compris PowerPoints et JPG.

« Nous travaillons avec des agences gouvernementales et avons réalisé plusieurs millions de dollars de chiffre d’affaires en très peu de temps. . . . Comme nous nous concentrons sur l’IA, nous nous concentrons sur un secteur du marché qui n’est pas affecté par le ralentissement économique général », a déclaré M. Raymond.

Unstructured entretient des liens inhabituellement étroits avec les agences de défense, ce qui s’explique peut-être par les antécédents de M. Raymond. Avant de rejoindre Primer, il a été un membre actif de la communauté du renseignement américain, servant au Moyen-Orient, puis à la Maison Blanche pendant l’administration Obama, avant un passage à la CIA.

Unstructured a obtenu des contrats de petites entreprises de l’armée de l’air et de l’armée de l’espace américaines et s’est associée au commandement des opérations spéciales des États-Unis (SOCOM) pour déployer un LLM « en conjonction avec des données pertinentes pour la mission ». En outre, le conseil d’administration d’Unstructured comprend Michael Groen, ancien général et directeur du Joint Artificial Intelligence Center du Pentagone, et Mike Brown, qui a précédemment dirigé la Defense Innovation Unit du ministère de la défense.

L’angle de la défense – une source fiable de revenus précoces – pourrait avoir été le facteur décisif dans le récent financement d’Unstructured. Aujourd’hui, la société a annoncé qu’elle avait levé 25 millions de dollars dans le cadre d’un financement de série A et d’un financement de démarrage dont le montant n’avait pas été divulgué auparavant. Madrona a mené la série A avec la participation de Bain Capital Ventures, qui a mené la phase d’amorçage, et de M12 Ventures, Mango Capital, MongoDB Ventures et Shield Capital, ainsi que de plusieurs investisseurs providentiels.

IA