Un groupe à l’origine de Stable Diffusion souhaite ouvrir le code source de l’IA détectant les émotions.

Un groupe à l’origine de Stable Diffusion souhaite ouvrir le code source de l’IA détectant les émotions.

En 2019, Amazon a mis à jour son assistant Alexa avec une fonction qui lui permet de détecter quand un client est probablement frustré – et de répondre avec proportionnellement plus de sympathie. Si un client demande à Alexa de jouer une chanson et qu’elle met en file d’attente la mauvaise chanson, par exemple, et que le client dit « Non, Alexa » d’un ton contrarié, Alexa peut s’excuser – et demander une clarification.

Aujourd’hui, le groupe à l’origine de l’un des ensembles de données utilisés pour former le modèle de conversion texte-image Stable Diffusion souhaite mettre à la disposition de tous les développeurs des capacités similaires de détection des émotions, et ce gratuitement.

Cette semaine, LAION, l’organisation à but non lucratif qui crée des ensembles de données d’images et de textes pour l’entraînement à l’IA générative, y compris Stable Diffusion, a annoncé le projet Open Empathic. Open Empathic vise à « doter les systèmes d’IA open source d’empathie et d’intelligence émotionnelle », selon les termes du groupe.

« L’équipe de LAION, avec des antécédents dans les domaines de la santé, de l’éducation et de la recherche sur l’apprentissage automatique, a constaté une lacune dans la communauté open source : l’IA émotionnelle était largement négligée », a déclaré Christoph Schuhmann, cofondateur de LAION, à TechCrunch par courrier électronique. « Tout comme nos préoccupations concernant les monopoles d’IA non transparents qui ont conduit à la naissance de LAION, nous avons ressenti une urgence similaire ici. »

Par le biais d’Open Empathic, LAION recrute des volontaires pour soumettre des clips audio à une base de données qui peut être utilisée pour créer une IA, y compris des chatbots et des modèles de synthèse vocale, qui « comprend » les émotions humaines.

« Avec OpenEmpathic, notre objectif est de créer une IA qui va au-delà de la simple compréhension des mots », a ajouté M. Schuhmann. « Nous voulons qu’elle saisisse les nuances dans les expressions et les changements de ton, afin de rendre les interactions entre l’homme et l’IA plus authentiques et plus empathiques.

LAION, acronyme de « Large-scale Artificial Intelligence Open Network », a été fondé au début de l’année 2021 par M. Schuhmann, qui est professeur de lycée allemand le jour, et plusieurs membres d’un serveur Discord destiné aux passionnés d’IA. Financé par des dons et des subventions de recherche publique, notamment de la startup d’IA Hugging Face et de Stability AI, le fournisseur derrière Stable Diffusion, LAION a pour mission déclarée de démocratiser les ressources de recherche et de développement de l’IA – à commencer par les données d’entraînement.

« Nous sommes animés par une mission claire : exploiter la puissance de l’IA de manière à ce qu’elle profite réellement à la société », a déclaré par courriel à TechCrunch Kari Noriy, un contributeur open source de LAION et étudiant en doctorat à l’université de Bournemouth. « Nous sommes passionnés par la transparence et pensons que la meilleure façon de façonner l’IA est de le faire ouvertement.

D’où Open Empathic.

Pour la phase initiale du projet, LAION a créé un site web qui demande à des volontaires d’annoter des clips YouTube – certains présélectionnés par l’équipe de LAION, d’autres par des volontaires – d’une personne s’exprimant. Pour chaque clip, les volontaires peuvent remplir une liste détaillée de champs, y compris une transcription du clip, une description audio et vidéo et l’âge, le sexe, l’accent (par exemple « anglais britannique »), le niveau d’éveil (alerte – pas sexuel, pour être clair) et le niveau de valence (« agréable » contre « désagréable »).

D’autres champs du formulaire concernent la qualité audio du clip et la présence (ou l’absence) de bruits de fond importants. Mais l’essentiel porte sur les émotions de la personne – ou du moins sur les émotions que les volontaires perçoivent comme telles.

À partir d’une série de menus déroulants, les volontaires peuvent sélectionner une ou plusieurs émotions, allant de « gazouillant », « vif » et « séduisant » à « réfléchi » et « engageant ». Kari explique que l’idée était de solliciter des annotations « riches » et « émotives » tout en capturant des expressions dans un éventail de langues et de cultures.

« Nous visons à former des modèles d’intelligence artificielle capables de saisir une grande variété de langues et de comprendre véritablement différents contextes culturels », a déclaré M. Kari. Nous travaillons à la création de modèles qui « comprennent » les langues et les cultures, en utilisant des vidéos qui montrent des émotions et des expressions réelles.

Une fois que les volontaires ont soumis un clip à la base de données de LAION, ils peuvent répéter le processus à nouveau – il n’y a pas de limite au nombre de clips qu’un seul volontaire peut annoter. LAION espère recueillir environ 10 000 échantillons au cours des prochains mois et, de manière optimiste, entre 100 000 et 1 million d’ici l’année prochaine.

« Nous avons des membres de la communauté passionnés qui, animés par la vision de démocratiser les modèles d’IA et les ensembles de données, contribuent volontairement aux annotations pendant leur temps libre », a déclaré Kari. « Leur motivation est le rêve commun de créer une IA open source empathique et émotionnellement intelligente qui soit accessible à tous. »

Les pièges de la détection des émotions

Outre les tentatives d’Amazon avec Alexa, des startups et des géants de la technologie ont exploré le développement d’une IA capable de détecter les émotions, à des fins allant de la formation à la vente à la prévention des accidents dus à la somnolence.

En 2016, Apple a acquis Emotient, une entreprise de San Diego qui travaille sur des algorithmes d’IA qui analysent les expressions faciales. Rachetée en mai dernier par la société suédoise Smart Eye, Affectiva – une entreprise dérivée du MIT – affirmait autrefois que sa technologie pouvait détecter la colère ou la frustration dans un discours en 1,2 seconde. La plateforme de reconnaissance vocale Nuance, rachetée par Microsoft en avril 2021, a fait la démonstration d’un produit destiné aux voitures qui analyse les émotions des conducteurs à partir de leurs signes faciaux.

Parmi les autres acteurs du secteur naissant de la détection et de la reconnaissance des émotions figurent Hume, HireVue et Realeyes, dont la technologie est appliquée pour évaluer la réaction de certains segments de téléspectateurs à certaines publicités. Certains employeurs utilisent la technologie de détection des émotions pour évaluer les employés potentiels en leur attribuant une note d’empathie et d’intelligence émotionnelle. Les écoles l’ont déployée pour surveiller l’engagement des élèves en classe – et à distance à la maison. Enfin, l’IA détectant les émotions a été utilisée par les gouvernements pour identifier les « personnes dangereuses » et testée lors des contrôles aux frontières aux États-Unis, en Hongrie, en Lettonie et en Grèce.

L’équipe de LAION envisage, pour sa part, des applications utiles et sans problème de cette technologie dans les domaines de la robotique, de la psychologie, de la formation professionnelle, de l’éducation et même des jeux. Christoph décrit des robots qui offrent soutien et compagnie, des assistants virtuels qui perçoivent la solitude ou l’anxiété d’une personne et des outils qui aident à diagnostiquer les troubles psychologiques.

C’est une véritable utopie technologique. Le problème, c’est que la plupart des systèmes de détection des émotions reposent sur des bases scientifiques fragiles.

Il existe peu de marqueurs universels de l’émotion, voire aucun, ce qui remet en question la précision de l’IA de détection des émotions. La majorité des systèmes de détection des émotions ont été conçus à partir des travaux du psychologue Paul Ekman, publiés dans les années 70. Mais les recherches ultérieures, y compris celles d’Ekman, confirment la notion de bon sens selon laquelle il existe des différences majeures dans la manière dont les personnes de différents milieux expriment ce qu’elles ressentent.

Par exemple, l’expression supposée universelle de la peur est un stéréotype de menace ou de colère en Malaisie. Dans l’un de ses derniers ouvrages, Ekman a suggéré que les étudiants américains et japonais ont tendance à réagir très différemment aux films violents, les étudiants japonais adoptant « un ensemble d’expressions complètement différent » si quelqu’un d’autre est présent dans la pièce – en particulier une figure d’autorité.

Les voix couvrent également un large éventail de caractéristiques, y compris celles des personnes handicapées, atteintes de maladies telles que l’autisme, et qui s’expriment dans d’autres langues et dialectes tels que l’anglais vernaculaire afro-américain (AAVE). Un locuteur de langue maternelle française répondant à une enquête en anglais peut marquer une pause ou prononcer un mot avec une certaine incertitude, ce qui peut être interprété à tort par une personne non familière comme un marqueur d’émotion.

En effet, une grande partie du problème de l’IA de détection des émotions réside dans les préjugés – préjugés implicites et explicites apportés par les annotateurs dont les contributions sont utilisées pour former les modèles de détection des émotions.

Dans une étude de 2019, par exemple, les scientifiques ont constaté que les annotateurs sont plus susceptibles d’attribuer à des phrases en AAVE un caractère plus toxique qu’à leurs équivalents en anglais américain général. L’orientation sexuelle et l’identité de genre peuvent également influencer fortement les mots et les phrases qu’un annotateur perçoit comme toxiques, tout comme les préjugés purs et simples. Plusieurs ensembles de données d’images en libre accès couramment utilisés se sont avérés contenir des étiquettes racistes, sexistes et autrement offensantes de la part des annotateurs.

Les effets en aval peuvent être très importants.

Retorio, une plateforme d’embauche basée sur l’IA, réagit différemment à un même candidat portant des tenues différentes, comme des lunettes ou un foulard. Dans une étude réalisée en 2020 par le MIT, des chercheurs ont montré que les algorithmes d’analyse des visages pouvaient être biaisés par certaines expressions faciales, comme le sourire, ce qui réduisait leur précision. Des travaux plus récents indiquent que les outils populaires d’analyse émotionnelle ont tendance à attribuer plus d’émotions négatives aux visages d’hommes noirs qu’aux visages blancs.

Respecter le processus

Comment l’équipe de LAION va-t-elle combattre ces préjugés – en s’assurant, par exemple, que les Blancs ne sont pas plus nombreux que les Noirs dans l’ensemble des données, que les personnes non binaires ne sont pas assignées au mauvais sexe et que les personnes souffrant de troubles de l’humeur ne sont pas étiquetées de manière erronée avec des émotions qu’elles n’avaient pas l’intention d’exprimer ?

Ce n’est pas tout à fait clair.

Christoph affirme que le processus de soumission des données de formation pour Open Empathic n’est pas une « porte ouverte » et que LAION a mis en place des systèmes pour « garantir l’intégrité des contributions ».

« Nous pouvons valider l’intention d’un utilisateur et vérifier systématiquement la qualité des annotations », a-t-il ajouté.

Mais les précédents ensembles de données de LAION n’ont pas toujours été irréprochables.

Certaines analyses de LAION ~400M – l’un des ensembles d’images d’entraînement de LAION, que le groupe a tenté de classer à l’aide d’outils automatisés – ont révélé des photos représentant des agressions sexuelles, des viols, des symboles de haine et des scènes de violence. LAION ~400M est également truffé de biais, renvoyant par exemple des images d’hommes mais pas de femmes pour des mots tels que « CEO » et des images d’hommes du Moyen-Orient pour « terroriste ».

Christoph fait confiance à la communauté pour vérifier cette fois-ci.

« Nous croyons au pouvoir des scientifiques amateurs et des passionnés du monde entier qui se réunissent et contribuent à nos ensembles de données », a-t-il déclaré. « Bien que nous soyons ouverts et collaboratifs, nous donnons la priorité à la qualité et à l’authenticité de nos données.

En ce qui concerne l’utilisation de l’IA de détection des émotions formée sur l’ensemble de données Open Empathic, qu’elle soit biaisée ou non, LAION est déterminée à respecter sa philosophie de source ouverte, même si cela signifie que l’IA pourrait être utilisée de manière abusive.

« L’utilisation de l’IA pour comprendre les émotions est une entreprise puissante, mais elle n’est pas sans défis », a déclaré par courriel Robert Kaczmarczyk, cofondateur de LAION et médecin à l’Université technique de Munich. « Comme tout outil, il peut être utilisé à la fois pour le bien et pour le mal. Imaginez qu’un petit groupe ait accès à une technologie avancée, alors que la majeure partie du public est dans l’ignorance. Ce déséquilibre pourrait conduire à une mauvaise utilisation ou même à une manipulation par les quelques personnes qui ont le contrôle de cette technologie. »

En ce qui concerne l’IA, les approches fondées sur le laisser-faire se retournent parfois contre les créateurs du modèle, comme le montre la manière dont la diffusion stable est désormais utilisée pour créer du matériel pédopornographique et des « deepfakes » non consensuels.

Certains défenseurs de la vie privée et des droits de l’homme, dont European Digital Rights et Access Now, ont appelé à une interdiction générale de la reconnaissance des émotions. La loi européenne sur l’IA, récemment adoptée par l’Union européenne, qui établit un cadre de gouvernance pour l’IA, interdit l’utilisation de la reconnaissance des émotions dans les domaines de la police, de la gestion des frontières, des lieux de travail et des écoles. Certaines entreprises, comme Microsoft, ont volontairement retiré leurs systèmes d’intelligence artificielle détectant les émotions, face à l’hostilité de l’opinion publique.

LAION semble toutefois à l’aise avec le niveau de risque encouru et a confiance dans le processus de développement ouvert.

« Nous invitons les chercheurs à fouiller, à suggérer des changements et à repérer les problèmes », a déclaré M. Kaczmarczyk. « Et tout comme Wikipédia prospère grâce aux contributions de sa communauté, OpenEmpathic est alimenté par l’implication de la communauté, ce qui garantit sa transparence et sa sécurité. »

Transparent ? Bien sûr. Sûr ? L’avenir nous le dira.

IA