Cette semaine dans l’IA : la lutte contre le racisme dans les générateurs d’images d’IA

Cette semaine dans l’IA : la lutte contre le racisme dans les générateurs d’images d’IA

Suivre l’évolution d’un secteur aussi rapide que l’IA n’est pas une mince affaire. En attendant qu’une IA puisse le faire à votre place, voici un récapitulatif pratique des événements récents dans le monde de l’apprentissage automatique, ainsi que des recherches et expériences notables que nous n’avons pas couvertes par elles-mêmes.

Cette semaine, Google a suspendu la capacité de son chatbot Gemini à générer des images de personnes après qu’un certain nombre d’utilisateurs se sont plaints d’inexactitudes historiques. Lorsqu’on lui demandait de représenter « une légion romaine », par exemple, Gemini montrait un groupe anachronique et caricatural de fantassins de différentes races, tandis que les « guerriers zoulous » étaient représentés par des Noirs.

Il semble que Google – comme d’autres fournisseurs d’IA, y compris OpenAI – ait mis en œuvre un codage en dur maladroit sous le capot pour tenter de « corriger » les biais de son modèle. En réponse à des invites telles que « montrez-moi des images de femmes uniquement » ou « montrez-moi des images d’hommes uniquement », Gemini refusait, affirmant que de telles images pouvaient « contribuer à l’exclusion et à la marginalisation d’autres genres ». Gemini répugnait également à générer des images de personnes identifiées uniquement par leur race – par exemple des « Blancs » ou des « Noirs » – par souci ostensible de « réduire les individus à leurs caractéristiques physiques ».

Les partisans de la droite se sont accrochés à ces bogues, y voyant la preuve d’un programme « woke » perpétué par l’élite technologique. Mais il n’est pas nécessaire d’utiliser le rasoir d’Occam pour voir une vérité moins infâme : Google, qui a déjà été victime des préjugés de ses outils (voir : classer les hommes noirs comme des gorilles, prendre les pistolets thermiques dans les mains des Noirs pour des armes, etc.), est tellement désespéré d’éviter que l’histoire ne se répète qu’il manifeste un monde moins biaisé dans ses modèles de génération d’images – même s’ils sont erronés.

Dans son livre à succès « White Fragility », l’éducatrice antiraciste Robin DiAngelo explique comment l’effacement de la race – le « daltonisme », selon une autre expression – contribue aux déséquilibres systémiques du pouvoir racial au lieu de les atténuer ou de les soulager. En prétendant « ne pas voir la couleur » ou en renforçant l’idée qu’il suffit de reconnaître la lutte des personnes d’autres races pour s’étiqueter « éveillé », les gens « ne voient pas la couleur ». perpétuent en évitant toute conservation substantielle sur le sujet, dit DiAngelo.

La façon dont Google a traité les messages-guides basés sur la race dans Gemini n’a pas évité le problème en soi, mais a tenté de dissimuler les pires biais du modèle. On pourrait affirmer (et beaucoup l’ont fait) que ces biais ne devraient pas être ignorés ou passés sous silence, mais abordés dans le contexte plus large des données d’apprentissage dont ils sont issus, c’est-à-dire la société sur le web.

Oui, les ensembles de données utilisés pour former les générateurs d’images contiennent généralement plus de Blancs que de Noirs, et oui, les images de Noirs dans ces ensembles de données renforcent les stéréotypes négatifs. C’est pourquoi les générateurs d’images sexualisent certaines femmes de couleur, représentent des hommes blancs en position d’autorité et favorisent généralement les perspectives occidentales riches.

A lire aussi  Google affirme que Bard s'améliore en mathématiques et en programmation

D’aucuns diront que les fournisseurs d’IA ne peuvent pas gagner. Qu’ils s’attaquent – ou choisissent de ne pas s’attaquer – aux préjugés des modèles, ils seront critiqués. Et c’est vrai. Mais je pense que, dans tous les cas, ces modèles manquent d’explications – présentées d’une manière qui minimise la façon dont leurs biais se manifestent.

Si les fournisseurs d’IA abordaient de front les lacunes de leurs modèles, dans un langage humble et transparent, cela irait beaucoup plus loin que les tentatives hasardeuses de « correction » de ce qui est essentiellement un biais irrémédiable. Nous avons tous des préjugés, en vérité, et nous ne traitons pas les gens de la même manière. Il en va de même pour les modèles que nous construisons. Et nous ferions bien de le reconnaître.

Voici d’autres articles sur l’IA parus ces derniers jours :

  • Les femmes dans l’IA : TechCrunch a lancé une série d’articles mettant en avant des femmes remarquables dans le domaine de l’IA. Lisez la liste ici.
  • Diffusion stable v3 : Stability AI a annoncé Stable Diffusion 3, la version la plus récente et la plus puissante de son modèle d’IA générateur d’images, basé sur une nouvelle architecture.
  • Chrome se dote de GenAI : Le nouvel outil Gemini de Google dans Chrome permet aux utilisateurs de réécrire un texte existant sur le web ou de générer quelque chose de complètement nouveau.
  • Plus noir que ChatGPT : L’agence de création publicitaire McKinney a mis au point un jeu de questions-réponses intitulé « Are You Blacker than ChatGPT » (Êtes-vous plus noir que ChatGPT ?) pour mettre en lumière les biais de l’IA.
  • Appels à des lois : Des centaines d’éminents spécialistes de l’IA ont signé en début de semaine une lettre publique appelant à l’adoption d’une législation anti-fake aux États-Unis.
  • Match made in AI : OpenAI a un nouveau client en la personne de Match Group, propriétaire d’applications telles que Hinge, Tinder et Match, dont les employés utiliseront la technologie d’IA d’OpenAI pour accomplir des tâches liées à leur travail.
  • Sécurité de DeepMind : DeepMind, la division de recherche en IA de Google, a créé un nouvel organisme, AI Safety and Alignment, composé d’équipes existantes travaillant sur la sécurité de l’IA, mais également élargi pour englober de nouvelles cohortes spécialisées de chercheurs et d’ingénieurs GenAI.
  • Modèles ouverts : À peine une semaine après avoir lancé la dernière itération de ses modèles Gemini, Google a présenté Gemma, une nouvelle famille de modèles légers à poids ouvert.
  • Groupe de travail du Parlement européen : La Chambre des représentants des États-Unis a créé un groupe de travail sur l’IA qui, comme l’écrit Devin, ressemble à un pari après des années d’indécision qui ne semblent pas près de s’arrêter.
A lire aussi  Le chatbot de Gleen pour Discord et Slack attire le fondateur de Solana dans un tour de table sursouscrit

Plus d’informations sur l’apprentissage automatique

Les modèles d’IA semblent en savoir beaucoup, mais que savent-ils vraiment ? La réponse est : rien. Mais si l’on formule la question de manière légèrement différente… ils semblent avoir intériorisé certaines « significations » similaires à celles que connaissent les humains. Bien qu’aucune IA ne comprenne vraiment ce qu’est un chat ou un chien, pourrait-elle avoir un certain sens de la similitude encodé dans ses représentations de ces deux mots qui soit différent de celui, par exemple, d’un chat et d’une bouteille ? Les chercheurs d’Amazon le pensent.

Leurs recherches ont comparé les « trajectoires » de phrases similaires mais distinctes, telles que « le chien a aboyé après le cambrioleur » et « le cambrioleur a fait aboyer le chien », avec celles de phrases grammaticalement similaires mais différentes, telles que « un chat dort toute la journée » et « une fille fait du jogging tout l’après-midi ». Ils ont constaté que les phrases que les humains trouveraient similaires étaient en effet traitées intérieurement comme plus similaires malgré leur différence grammaticale, et vice versa pour les phrases grammaticalement similaires. D’accord, j’ai l’impression que ce paragraphe est un peu confus, mais il suffit de dire que les significations encodées dans les LLM semblent être plus robustes et sophistiquées que prévu, et pas totalement naïves.

Des chercheurs suisses de l’EPFL ont découvert que le codage neuronal s’avère utile pour les prothèses visuelles. Les rétines artificielles et autres moyens de remplacer des parties du système visuel humain ont généralement une résolution très limitée en raison des limites des réseaux de microélectrodes. Ainsi, quelle que soit la précision de l’image reçue, elle doit être transmise avec une très faible fidélité. Mais il existe différentes manières de réduire l’échantillonnage, et l’équipe a découvert que l’apprentissage automatique était très efficace.

Crédits image : EPFL

« Nous avons constaté que si nous appliquions une approche basée sur l’apprentissage, nous obtenions de meilleurs résultats en termes d’encodage sensoriel optimisé. Mais ce qui est encore plus surprenant, c’est que lorsque nous avons utilisé un réseau neuronal sans contrainte, il a appris à imiter de lui-même certains aspects du traitement rétinien », a déclaré Diego Ghezzi dans un communiqué de presse. Il fait de la compression perceptuelle, en fait. Les chercheurs l’ont testé sur des rétines de souris, ce qui signifie que ce n’est pas seulement théorique.

Une application intéressante de la vision par ordinateur par des chercheurs de Stanford laisse entrevoir un mystère dans la façon dont les enfants développent leurs compétences en dessin. L’équipe a sollicité et analysé 37 000 dessins d’enfants représentant divers objets et animaux, ainsi que (sur la base des réponses des enfants) le degré de reconnaissance de chaque dessin. Il est intéressant de noter que ce n’est pas seulement l’inclusion d’éléments caractéristiques, comme les oreilles d’un lapin, qui rend les dessins plus reconnaissables par d’autres enfants.

A lire aussi  Qu'est-il arrivé à Artifact ?

« Les caractéristiques qui permettent de reconnaître les dessins des enfants plus âgés ne semblent pas résulter d’une caractéristique unique que tous les enfants plus âgés apprennent à inclure dans leurs dessins. C’est quelque chose de beaucoup plus complexe que ces systèmes d’apprentissage automatique détectent », a déclaré Judith Fan, chercheuse principale.

Des chimistes (également à l’EPFL) ont découvert que les LLM sont aussi étonnamment capables d’aider dans leur travail après une formation minimale. Il ne s’agit pas seulement de faire de la chimie directement, mais plutôt de se perfectionner sur un ensemble de travaux que les chimistes ne peuvent pas connaître dans leur totalité. Par exemple, dans des milliers d’articles, il peut y avoir quelques centaines d’affirmations sur le fait qu’un alliage à haute entropie est monophasé ou polyphasé (vous n’avez pas besoin de savoir ce que cela signifie, ils le savent). Le système (basé sur GPT-3) peut être formé à ce type de questions et de réponses oui/non, et il est bientôt capable d’extrapoler à partir de là.

Il ne s’agit pas d’une avancée considérable, mais d’une preuve supplémentaire que les LLM sont un outil utile dans ce sens. « Le fait est que c’est aussi facile que de faire une recherche dans la littérature, ce qui fonctionne pour de nombreux problèmes chimiques », a déclaré le chercheur Berend Smit. « L’interrogation d’un modèle fondamental pourrait devenir un moyen courant d’amorcer un projet.

Enfin, un mot de prudence de la part des chercheurs de Berkeley, bien que maintenant que je relis le post, je vois que l’EPFL a également été impliquée dans ce projet. Allez Lausanne ! Le groupe a constaté que les images trouvées via Google étaient beaucoup plus susceptibles de renforcer les stéréotypes de genre pour certains emplois et certains mots que les textes mentionnant la même chose. Et il y avait aussi beaucoup plus d’hommes présents dans les deux cas.

De plus, lors d’une expérience, les chercheurs ont constaté que les personnes qui regardaient des images plutôt que de lire du texte lorsqu’elles recherchaient un rôle associaient ce rôle à un sexe de manière plus fiable, même plusieurs jours plus tard. « Il ne s’agit pas seulement de la fréquence des préjugés sexistes en ligne », a déclaré le chercheur Douglas Guilbeault. « Une partie de l’histoire ici est qu’il y a quelque chose de très collant, de très puissant dans la représentation des personnes par les images que le texte n’a tout simplement pas ».

Avec des affaires comme celle de la diversité du générateur d’images de Google, il est facile de perdre de vue le fait établi et fréquemment vérifié que la source de données pour de nombreux modèles d’intelligence artificielle présente de sérieux biais, et que ces biais ont un effet réel sur les gens.

IA