DatologyAI met au point une technologie permettant de constituer automatiquement des ensembles de données d’entraînement à l’IA.

DatologyAI met au point une technologie permettant de constituer automatiquement des ensembles de données d’entraînement à l’IA.

Les ensembles de données d’entraînement massifs sont la porte d’entrée de puissants modèles d’IA – mais aussi, souvent, la chute de ces modèles.

Les biais émergent de modèles préjudiciables dissimulés dans de grands ensembles de données, comme les images de PDG majoritairement blancs dans un ensemble de classification d’images. De plus, les grands ensembles de données peuvent être désordonnés et se présenter sous des formats incompréhensibles pour un modèle – des formats contenant beaucoup de bruit et d’informations étrangères.

Dans une récente enquête de Deloitte sur les entreprises qui adoptent l’IA, 40 % d’entre elles ont déclaré que les défis liés aux données – notamment la préparation et le nettoyage minutieux des données – figuraient parmi les principales préoccupations qui entravaient leurs initiatives en matière d’IA. Un autre sondage réalisé auprès de scientifiques des données a révélé qu’environ 45 % du temps des scientifiques est consacré à des tâches de préparation des données, telles que le « chargement » et le nettoyage des données.

Ari Morcos, qui travaille dans l’industrie de l’IA depuis près de dix ans, souhaite faire abstraction de la plupart des processus de préparation des données liés à l’apprentissage des modèles d’IA – et il a fondé une startup à cet effet.

L’entreprise de Morcos, DatologyAI, construit des outils pour conserver automatiquement des ensembles de données tels que ceux utilisés pour former le ChatGPT d’OpenAI, le Gemini de Google et d’autres modèles similaires de GenAI. La plateforme peut identifier les données les plus importantes en fonction de l’application d’un modèle (par exemple, la rédaction de courriels), affirme M. Morcos, ainsi que les façons dont l’ensemble de données peut être augmenté avec des données supplémentaires et comment il devrait être mis en lots, ou divisé en morceaux plus faciles à gérer, au cours de l’entraînement du modèle.

« Les modèles sont ce qu’ils mangent – les modèles sont le reflet des données sur lesquelles ils sont formés », a déclaré Morcos à TechCrunch lors d’une interview par e-mail. « Cependant, toutes les données ne sont pas égales et certaines données d’entraînement sont beaucoup plus utiles que d’autres. L’entraînement des modèles sur les bonnes données et de la bonne manière peut avoir un impact considérable sur le modèle qui en résulte. »

M. Morcos, titulaire d’un doctorat en neurosciences de Harvard, a passé deux ans chez DeepMind à appliquer des techniques inspirées de la neurologie pour comprendre et améliorer les modèles d’IA, et cinq ans au laboratoire d’IA de Meta à découvrir certains des mécanismes de base qui sous-tendent les fonctions des modèles. Avec ses cofondateurs Matthew Leavitt et Bogdan Gaza, ancien responsable de l’ingénierie chez Amazon puis Twitter, Morcos a lancé DatologyAI dans le but de rationaliser toutes les formes de curation d’ensembles de données d’IA.

Comme le souligne Morcos, la composition d’un ensemble de données d’entraînement a un impact sur presque toutes les caractéristiques d’un modèle formé à partir de ces données, qu’il s’agisse des performances du modèle dans les tâches, de sa taille ou de l’étendue de ses connaissances dans le domaine. Des ensembles de données plus efficaces peuvent réduire le temps de formation et produire un modèle plus petit, ce qui permet d’économiser sur les coûts de calcul, tandis que les ensembles de données qui comprennent une gamme particulièrement diversifiée d’échantillons peuvent traiter des demandes ésotériques de manière plus compétente (en général).

L’intérêt pour la GenAI – qui a la réputation d’être coûteuse – n’ayant jamais été aussi grand, les coûts de mise en œuvre de l’IA sont au premier plan des préoccupations des dirigeants.

De nombreuses entreprises choisissent d’affiner les modèles existants (y compris les modèles open source) pour leurs besoins ou d’opter pour des services gérés par des fournisseurs via des API. Mais certaines – pour des raisons de gouvernance et de conformité ou autres – construisent des modèles sur des données personnalisées à partir de zéro, et dépensent des dizaines de milliers à des millions de dollars en calcul pour les former et les faire fonctionner.

« Les entreprises ont collecté des trésors de données et veulent former des modèles d’IA efficaces, performants et spécialisés qui peuvent maximiser les avantages pour leur entreprise », a déclaré M. Morcos. « Cependant, l’utilisation efficace de ces ensembles de données massives est incroyablement difficile et, si elle est faite de manière incorrecte, conduit à des modèles moins performants qui prennent plus de temps à former et (sont plus grands) que nécessaire. »

DatologyAI peut traiter jusqu’à des « pétaoctets » de données dans n’importe quel format – qu’il s’agisse de texte, d’images, de vidéo, d’audio, de tableaux ou de modalités plus « exotiques » telles que la génomique et la géospatiale – et se déploie sur l’infrastructure du client, soit sur site, soit via un nuage privé virtuel. Morcos affirme qu’il se distingue ainsi d’autres outils de préparation et de conservation des données tels que CleanLab, Lilac, Labelbox, YData et Galileo, qui ont tendance à être plus limités dans la portée et les types de données qu’ils peuvent traiter.

DatologyAI est également capable de déterminer quels « concepts » au sein d’un ensemble de données – par exemple, les concepts liés à l’histoire des États-Unis dans un ensemble de formation de chatbot éducatif – sont plus complexes et nécessitent donc des échantillons de meilleure qualité, ainsi que les données susceptibles d’entraîner un comportement inattendu d’un modèle.

« Pour résoudre (ces problèmes), il faut identifier automatiquement les concepts, leur complexité et la quantité de redondance réellement nécessaire », a déclaré M. Morcos. « L’augmentation des données, souvent à l’aide d’autres modèles ou de données synthétiques, est incroyablement puissante, mais elle doit être effectuée de manière prudente et ciblée. »

La question est de savoir dans quelle mesure la technologie de DatologyAI est efficace. Il y a des raisons d’être sceptique. L’histoire a montré que la curation automatisée des données ne fonctionne pas toujours comme prévu, quelle que soit la sophistication de la méthode – ou la diversité des données.

LAION, un organisme allemand à but non lucratif qui dirige un certain nombre de projets GenAI, a été contraint de retirer un ensemble de données de formation à l’IA créées par des algorithmes après qu’il a été découvert que l’ensemble contenait des images d’abus sexuels sur des enfants. Ailleurs, des modèles tels que ChatGPT, qui sont formés sur un mélange d’ensembles de données filtrés manuellement et automatiquement pour la toxicité, se sont révélés capables de générer du contenu toxique à partir d’invites spécifiques.

Certains experts affirment qu’il est impossible de renoncer à la curation manuelle, du moins si l’on espère obtenir de bons résultats avec un modèle d’IA. Les plus grands fournisseurs actuels, d’AWS à Google en passant par OpenAI, s’appuient sur des équipes d’experts humains et d’annotateurs (parfois sous-payés) pour façonner et affiner leurs ensembles de données d’entraînement.

Morcos insiste sur le fait que l’outil de DatologyAI n’est pas destiné à remplacer mais plutôt offrir des suggestions qui pourraient ne pas venir à l’esprit des scientifiques des données, en particulier des suggestions tangentielles au problème de la réduction de la taille des ensembles de données d’entraînement. Il fait en quelque sorte autorité – la réduction des ensembles de données tout en préservant les performances des modèles a fait l’objet d’un article universitaire. Morcos a co-écrit avec des chercheurs de Stanford et de l’Université de Tübingen en 2022, qui a reçu le prix du meilleur article lors de la conférence NeurIPS sur l’apprentissage automatique cette année-là.

« Identifier les bonnes données à grande échelle est extrêmement difficile et constitue un problème de recherche de pointe », a déclaré M. Morcos. « Notre approche permet d’obtenir des modèles qui s’entraînent beaucoup plus rapidement tout en augmentant les performances des tâches en aval.

La technologie de DatologyAI était manifestement suffisamment prometteuse pour convaincre des titans de la technologie et de l’IA d’investir dans le tour de table d’amorçage de la startup, notamment Jeff Dean, scientifique en chef de Google, Yann LeCun, scientifique en chef de Meta AI, Adam D’Angelo, fondateur de Quora et membre du conseil d’administration d’OpenAI, et Geoffrey Hinton, à qui l’on attribue le développement de certaines des techniques les plus importantes au cœur de l’IA moderne.

Les autres investisseurs providentiels ayant participé à la levée de fonds de 11,65 millions de dollars de DatologyAI, menée par Amplify Partners avec la participation de Radical Ventures, Conviction Capital, Outset Capital et Quiet Capital, sont Aidan Gomez et Ivan Zhang, cofondateurs de Cohere, Douwe Kiela, fondateur de Contextual AI, Naveen Rao, ex-vice-président d’Intel AI, et Jascha Sohl-Dickstein, l’un des inventeurs des modèles de diffusion génératifs. Il s’agit d’une liste impressionnante de sommités de l’IA, c’est le moins que l’on puisse dire, et elle suggère que les affirmations de Morcos pourraient bien avoir quelque chose à voir avec la réalité.

« Les modèles sont seulement aussi bons que les données sur lesquelles ils sont formés, mais identifier les bonnes données de formation parmi des milliards ou des trillions d’exemples est un problème incroyablement difficile », a déclaré LeCun à TechCrunch dans un communiqué envoyé par courriel. « Ari et son équipe de DatologyAI sont parmi les experts mondiaux de ce problème, et je pense que le produit qu’ils construisent pour rendre la curation de données de haute qualité disponible à tous ceux qui veulent former un modèle est d’une importance vitale pour aider à faire fonctionner l’IA pour tout le monde. »

DatologyAI, dont le siège est à San Francisco, compte actuellement dix employés, y compris les cofondateurs, mais prévoit de s’étendre à environ 25 employés d’ici la fin de l’année si elle atteint certains jalons de croissance.

J’ai demandé à Morcos si ces étapes étaient liées à l’acquisition de clients, mais il a refusé de le dire – et, assez mystérieusement, n’a pas voulu révéler la taille de la base de clients actuelle de DatologyAI.

IA