Elicit construit un outil pour automatiser l’analyse de la littérature scientifique

Elicit construit un outil pour automatiser l’analyse de la littérature scientifique

Pour les chercheurs, la lecture d’articles scientifiques peut prendre énormément de temps. Selon une enquête, les scientifiques passent sept heures par semaine à rechercher des informations. Une autre enquête suggère que les revues systématiques de la littérature – synthèses savantes des preuves sur un sujet particulier – prennent en moyenne 41 semaines pour une équipe de recherche de cinq personnes.

Mais il n’est pas nécessaire d’en arriver là.

C’est du moins le message d’Andreas Stuhlmüller, cofondateur d’une startup spécialisée dans l’IA, Elicit, qui a conçu un « assistant de recherche » pour les scientifiques et les laboratoires de recherche et développement. Avec des bailleurs de fonds tels que Fifty Years, Basis Set, Illusion et les investisseurs providentiels Jeff Dean (le scientifique en chef de Google) et Thomas Ebeling (l’ancien PDG de Novartis), Elicit construit un outil alimenté par l’IA pour éliminer les aspects les plus fastidieux de l’analyse de la littérature.

« Elicit est un assistant de recherche qui automatise la recherche scientifique à l’aide de modèles de langage », a déclaré Stuhlmüller à TechCrunch lors d’une interview par e-mail. « Plus précisément, il automatise l’analyse documentaire en trouvant des articles pertinents, en extrayant des informations clés sur les études et en organisant les informations en concepts.

Elicit est une entreprise à but lucratif issue d’Ought, une fondation de recherche à but non lucratif lancée en 2017 par Stuhlmüller, ancien chercheur au laboratoire de calcul et de cognition de Stanford. L’autre cofondateur d’Elicit, Jungwon Byun, a rejoint la startup en 2019 après avoir dirigé la croissance de la société de prêt en ligne Upstart.

À l’aide d’une variété de modèles de première et de tierce parties, Elicit recherche et découvre des concepts dans les articles, ce qui permet aux utilisateurs de poser des questions telles que « Quels sont tous les effets de la créatine ? » ou « Quels sont tous les ensembles de données qui ont été utilisés pour étudier le raisonnement logique ? » et d’obtenir une liste de réponses tirées de la littérature académique.

« En automatisant le processus d’examen systématique, nous pouvons immédiatement faire économiser du temps et de l’argent aux organismes de recherche universitaires et industriels qui produisent ces examens », a déclaré M. Stuhlmüller. « En réduisant suffisamment les coûts, nous débloquons de nouveaux cas d’utilisation qui étaient auparavant prohibitifs, tels que les mises à jour juste à temps lorsque l’état des connaissances dans un domaine évolue.

Mais attendez, direz-vous, les modèles linguistiques n’ont-ils pas tendance à inventer des choses ? C’est en effet le cas. La tentative de Meta de créer un modèle de langage pour rationaliser la recherche scientifique, Galactica, a été supprimée trois jours seulement après son lancement, après que l’on a découvert que le modèle faisait souvent référence à de faux documents de recherche qui semblaient corrects mais qui n’étaient pas réellement factuels.

M. Stuhlmüller affirme qu’Elicit a pris des mesures pour s’assurer que son IA est plus fiable que la plupart des plates-formes conçues à cet effet.

Tout d’abord, Elicit décompose les tâches complexes effectuées par ses modèles en éléments « compréhensibles par l’homme ». Cela permet à Elicit de savoir, par exemple, à quelle fréquence les différents modèles inventent des choses lorsqu’ils génèrent des résumés, et d’aider ensuite les utilisateurs à identifier les réponses à vérifier – et à quel moment.

Elicit tente également de calculer la « fiabilité » globale d’un article scientifique, en tenant compte de facteurs tels que le fait que les essais menés dans le cadre de la recherche étaient contrôlés ou randomisés, la source de financement et les conflits potentiels, ainsi que la taille des essais.

Éliciter

Outil de recherche d’Elicit pour la littérature sur l’IA.

« Nous ne proposons pas d’interfaces de chat », a déclaré M. Stuhlmüller. « Nous ne nous contentons pas de générer des réponses à l’aide de modèles, nous relions toujours les réponses à la littérature scientifique afin de réduire les hallucinations et de faciliter la vérification du travail des modèles.

Je ne suis pas nécessairement convaincu qu’Elicit ait résolu certains des principaux problèmes auxquels sont confrontés les modèles de langage aujourd’hui, étant donné leur complexité. Mais ses efforts semblent avoir suscité l’intérêt – et peut-être même la confiance – de la communauté des chercheurs.

M. Stuhlmüller affirme que plus de 200 000 personnes utilisent Elicit chaque mois, ce qui représente une croissance de trois fois d’une année sur l’autre, et qu’elles proviennent d’organisations telles que la Banque mondiale, Genentech et Stanford. « Nos utilisateurs demandent à payer pour des fonctionnalités plus puissantes et pour utiliser Elicit à plus grande échelle », a-t-il ajouté.

On peut supposer que c’est cet élan qui a conduit au premier tour de table d’Elicit – une tranche de 9 millions de dollars menée par Fifty Years. L’objectif est de consacrer la majeure partie de ces nouveaux fonds au développement du produit Elicit ainsi qu’à l’élargissement de l’équipe de gestionnaires de produits et d’ingénieurs en logiciel.

Mais quel est le plan d’Elicit pour gagner de l’argent ? C’est une bonne question, que j’ai d’ailleurs posée à Stuhlmüller. Il a indiqué que la version payante d’Elicit, lancée cette semaine, permet aux utilisateurs de rechercher des articles, d’extraire des données et de résumer des concepts à une plus grande échelle que la version gratuite. La stratégie à plus long terme consiste à faire d’Elicit un outil général de recherche et de raisonnement – un outil que des entreprises entières seraient prêtes à payer.

L’un des obstacles possibles au succès commercial d’Elicit est constitué par les efforts en matière de logiciels libres, tels que l’Open Language Model de l’Allen Institute for AI, qui vise à développer un modèle de langage de grande taille, libre d’utilisation et optimisé pour la science. Mais M. Stuhlmüller estime que les logiciels libres sont plus complémentaires que menaçants.

« La principale concurrence actuelle est le travail humain – les assistants de recherche qui sont embauchés pour extraire minutieusement les données des articles », a déclaré M. Stuhlmüller. « La recherche scientifique est un marché énorme et les outils de gestion des flux de recherche n’ont pas de titulaires majeurs. C’est là que nous verrons émerger des flux de travail entièrement nouveaux fondés sur l’IA. »

IA