Nvidia lance une boîte à outils pour rendre l’IA génératrice de texte plus sûre

Nvidia lance une boîte à outils pour rendre l’IA génératrice de texte plus sûre

Malgré tout le battage médiatique dont ils font l’objet, les modèles d’IA génératrice de texte tels que GPT-4 d’OpenAI commettent de nombreuses erreurs, dont certaines sont préjudiciables. James Vincent, de The Verge, a qualifié l’un de ces modèles de « menteur manipulateur d’émotions », ce qui résume assez bien l’état actuel des choses.

Les entreprises à l’origine de ces modèles affirment qu’elles prennent des mesures pour résoudre les problèmes, notamment en mettant en place des filtres et des équipes de modérateurs humains chargés de corriger les problèmes au fur et à mesure qu’ils sont signalés. Mais il n’existe pas de solution unique. Même les meilleurs modèles actuels sont sensibles aux biais, à la toxicité et aux attaques malveillantes.

À la recherche de modèles de génération de texte plus « sûrs », Nvidia a publié aujourd’hui NeMo Guardrails, une boîte à outils open source visant à rendre les applications alimentées par l’IA plus « précises, appropriées, pertinentes et sûres ».

Jonathan Cohen, vice-président de la recherche appliquée chez Nvidia, explique que la société travaille sur le système sous-jacent de Guardrails depuis « de nombreuses années », mais qu’elle s’est rendu compte il y a environ un an qu’il convenait aux modèles tels que GPT-4 et ChatGPT.

« Nous avons développé cette version de NeMo Guardrails depuis lors », a déclaré Cohen à TechCrunch par courrier électronique. « Les outils de sécurité des modèles d’IA sont essentiels au déploiement des modèles pour les cas d’utilisation en entreprise.

Guardrails comprend du code, des exemples et de la documentation pour « ajouter de la sécurité » aux applications d’IA qui génèrent du texte et de la parole. Nvidia affirme que la boîte à outils est conçue pour fonctionner avec la plupart des modèles de langage génératifs, permettant aux développeurs de créer des règles en utilisant quelques lignes de code.

Plus précisément, les Guardrails peuvent être utilisés pour empêcher – ou du moins tenter d’empêcher – les modèles de s’écarter du sujet, de répondre avec des informations inexactes ou un langage toxique et d’établir des connexions avec des sources externes « dangereuses ». Il s’agit par exemple d’empêcher un assistant de service à la clientèle de répondre à des questions sur la météo, ou un chatbot de moteur de recherche d’établir des liens avec des revues académiques peu recommandables.

« En fin de compte, les développeurs contrôlent ce qui est hors limites pour leur application avec Guardrails », a déclaré M. Cohen. « Ils peuvent développer des garde-fous trop larges ou, à l’inverse, trop étroits pour leur cas d’utilisation.

Une solution universelle aux lacunes des modèles de langage semble trop belle pour être vraie, et c’est en effet le cas. Alors que des entreprises comme Zapier utilisent Guardrails pour ajouter une couche de sécurité à leurs modèles génératifs, Nvidia reconnaît que la boîte à outils n’est pas imparfaite ; en d’autres termes, elle n’attrapera pas tout.

Cohen note également que Guardrails fonctionne mieux avec les modèles qui sont « suffisamment bons pour suivre les instructions », à la ChatGPT, et qui utilisent le populaire cadre LangChain pour construire des applications alimentées par l’IA. Cela disqualifie certaines des options open source existantes.

Et – l’efficacité de la technologie mise à part – il faut souligner que Nvidia ne publie pas nécessairement Guardrails par pure bonté d’âme. Il s’agit d’une partie du cadre NeMo de la société, qui est disponible par le biais de la suite logicielle d’IA d’entreprise de Nvidia et de son service cloud entièrement géré NeMo. Toute entreprise peut mettre en œuvre la version open source de Guardrails, mais Nvidia préférerait certainement qu’elle paie pour la version hébergée.

Ainsi, bien que Guardrails ne présente probablement aucun inconvénient, gardez à l’esprit qu’il ne s’agit pas d’une solution miracle – et méfiez-vous si Nvidia prétend le contraire.

IA