Le cadre open-source de Giskard évalue les modèles d’IA avant qu’ils ne soient mis en production

Le cadre open-source de Giskard évalue les modèles d’IA avant qu’ils ne soient mis en production

Giskard est une startup française qui travaille sur un cadre de test open-source pour les grands modèles de langage. Il peut alerter les développeurs sur les risques de biais, les failles de sécurité et la capacité d’un modèle à générer du contenu nuisible ou toxique.

Si les modèles d’IA font l’objet d’un grand battage médiatique, les systèmes de test de ML deviendront rapidement un sujet d’actualité, car la réglementation est sur le point d’être appliquée dans l’UE avec la loi sur l’IA, et dans d’autres pays. Les entreprises qui développent des modèles d’IA devront prouver qu’elles respectent un ensemble de règles et qu’elles atténuent les risques afin de ne pas avoir à payer de lourdes amendes.

Giskard est une startup d’IA qui adopte la réglementation et l’un des premiers exemples d’outil de développement qui se concentre spécifiquement sur les tests d’une manière plus efficace.

« J’ai travaillé chez Dataiku auparavant, notamment sur l’intégration de modèles NLP. Et j’ai pu voir que, lorsque j’étais en charge des tests, il y avait à la fois des choses qui ne fonctionnaient pas bien lorsque vous vouliez les appliquer à des cas pratiques, et il était très difficile de comparer les performances des fournisseurs entre eux », m’a dit Alex Combessie, cofondateur et PDG de Giskard.

Le cadre de test de Giskard repose sur trois éléments. Tout d’abord, la société a publié une bibliothèque Python open-source qui peut être intégrée dans un projet LLM – et plus particulièrement dans les projets de génération augmentée par récupération (RAG). Elle est déjà très populaire sur GitHub et est compatible avec d’autres outils dans les écosystèmes de ML, tels que Hugging Face, MLFlow, Weights &amp ; Biases, PyTorch, Tensorflow et Langchain.

Après la configuration initiale, Giskard vous aide à générer une suite de tests qui sera régulièrement utilisée sur votre modèle. Ces tests couvrent un large éventail de questions, telles que les performances, les hallucinations, la désinformation, les résultats non factuels, les biais, les fuites de données, la génération de contenu nuisible et les injections d’invite.

« Et il y a plusieurs aspects : vous aurez l’aspect performance, qui sera la première chose à laquelle pensera un scientifique des données. Mais de plus en plus, il y a l’aspect éthique, à la fois du point de vue de l’image de marque et maintenant du point de vue de la réglementation », a déclaré M. Combessie.

Les développeurs peuvent ensuite intégrer les tests dans le pipeline d’intégration et de livraison continues (CI/CD) afin que les tests soient exécutés à chaque nouvelle itération de la base de code. En cas de problème, les développeurs reçoivent un rapport d’analyse dans leur dépôt GitHub, par exemple.

Les tests sont personnalisés en fonction de l’utilisation finale du modèle. Les entreprises qui travaillent sur RAG peuvent donner accès à des bases de données vectorielles et à des référentiels de connaissances à Giskard afin que la suite de tests soit aussi pertinente que possible. Par exemple, si vous construisez un chatbot qui peut vous donner des informations sur le changement climatique en se basant sur le rapport le plus récent du GIEC et en utilisant un LLM de l’OpenAI, les tests de Giskard vérifieront si le modèle peut générer des informations erronées sur le changement climatique, s’il se contredit lui-même, etc.

Crédits d’image : Giskard

Le deuxième produit de Giskard est un hub de qualité IA qui vous aide à déboguer un grand modèle de langage et à le comparer à d’autres modèles. Ce centre de qualité fait partie de l’offre premium de Giskard. À l’avenir, la startup espère pouvoir générer des documents prouvant qu’un modèle est conforme à la réglementation.

« Nous commençons à vendre l’AI Quality Hub à des entreprises comme la Banque de France et L’Oréal – pour les aider à déboguer et à trouver les causes des erreurs. À l’avenir, c’est là que nous mettrons toutes les fonctionnalités réglementaires », a déclaré M. Combessie.

Le troisième produit de la société s’appelle LLMon. Il s’agit d’un outil de contrôle en temps réel qui peut évaluer les réponses LLM pour les problèmes les plus courants (toxicité, hallucination, vérification des faits…) avant que la réponse ne soit renvoyée à l’utilisateur.

Il fonctionne actuellement avec des entreprises qui utilisent les API d’OpenAI et les LLM comme modèle de base, mais l’entreprise travaille à des intégrations avec Hugging Face, Anthropic, etc.

Réglementer les cas d’utilisation

Il existe plusieurs façons de réglementer les modèles d’IA. D’après les conversations avec les acteurs de l’écosystème de l’IA, on ne sait toujours pas si la loi sur l’IA s’appliquera aux modèles fondamentaux d’OpenAI, d’Anthropic, de Mistral et d’autres, ou seulement aux cas d’utilisation appliqués.

Dans ce dernier cas, Giskard semble particulièrement bien placé pour alerter les développeurs sur les abus potentiels des LLM enrichis de données externes (ou, comme l’appellent les chercheurs en IA, la génération augmentée par la recherche, RAG).

Giskard emploie actuellement 20 personnes. « Nous voyons une adéquation très claire entre le marché et les clients sur les LLM, nous allons donc doubler la taille de l’équipe pour être le meilleur antivirus LLM sur le marché », a déclaré M. Combessie.

IA