Meta affirme que son nouveau modèle de génération d’œuvres d’art est le meilleur de sa catégorie

Meta affirme que son nouveau modèle de génération d’œuvres d’art est le meilleur de sa catégorie

Au cours des deux dernières années, les générateurs d’images alimentés par l’IA se sont plus ou moins banalisés, grâce à la disponibilité généralisée de la technologie et à l’abaissement des barrières techniques qui l’entourent. Ils ont été déployés par pratiquement tous les grands acteurs de la technologie, y compris Google et Microsoft, ainsi que par d’innombrables startups désireuses de s’approprier une part du gâteau de plus en plus lucratif de l’IA générative.

Cela ne veut pas dire qu’ils sont cohérents en termes de performances, loin de là. Si la qualité des générateurs d’images s’est améliorée, les progrès ont été progressifs et parfois pénibles.

Mais Meta prétend avoir fait une percée.

Aujourd’hui, Meta a annoncé CM3leon (« caméléon » en leetspeak maladroit), un modèle d’IA qui, selon l’entreprise, atteint des performances de pointe pour la génération de texte à partir d’images. CM3leon se distingue également en étant l’un des premiers générateurs d’images capables de générer des légendes pour les images, jetant ainsi les bases de modèles de compréhension d’images plus performants à l’avenir, selon Meta.

« Avec les capacités de CM3leon, les outils de génération d’images peuvent produire une imagerie plus cohérente qui suit mieux les invites de saisie », a écrit Meta dans un billet de blog partagé avec TechCrunch en début de semaine. « Nous pensons que les excellentes performances de CM3leon dans une variété de tâches constituent une étape vers la génération et la compréhension d’images plus fidèles.

La plupart des générateurs d’images modernes, notamment DALL-E 2 d’OpenAI, Imagen de Google et Stable Diffusion, s’appuient sur un processus appelé diffusion pour créer de l’art. Dans la diffusion, un modèle apprend à soustraire progressivement le bruit d’une image de départ entièrement constituée de bruit, en la rapprochant pas à pas de l’image cible.

Les résultats sont impressionnants. Mais la diffusion est très gourmande en ressources informatiques, ce qui rend son fonctionnement coûteux et suffisamment lent pour que la plupart des applications en temps réel ne soient pas réalisables.

En revanche, CM3leon est un modèle transformateur qui exploite un mécanisme appelé « attention » pour évaluer la pertinence des données d’entrée telles que le texte ou les images. L’attention et les autres particularités architecturales des transformateurs peuvent augmenter la vitesse d’apprentissage des modèles et les rendre plus facilement parallélisables. En d’autres termes, il est possible d’entraîner des transformateurs de plus en plus grands avec des augmentations significatives, mais pas irréalisables, de la capacité de calcul.

Et CM3leon est encore plus plus efficace que la plupart des transformateurs, affirme Meta, nécessitant cinq fois moins de calculs et un ensemble de données d’apprentissage plus petit que les méthodes précédentes basées sur les transformateurs.

Il est intéressant de noter qu’OpenAI a exploré les transformateurs comme moyen de génération d’images il y a plusieurs années avec un modèle appelé Image GPT. Mais elle a finalement abandonné l’idée en faveur de la diffusion – et pourrait bientôt passer à la « cohérence ».

Pour entraîner CM3leon, Meta a utilisé un ensemble de données composé de millions d’images sous licence provenant de Shutterstock. La plus performante des versions de CM3leon construites par Meta compte 7 milliards de paramètres, soit deux fois plus que DALL-E 2 (les paramètres sont les parties du modèle apprises à partir des données d’entraînement et définissent essentiellement la capacité du modèle à résoudre un problème, comme la génération de texte – ou, dans ce cas, d’images).

L’une des clés des meilleures performances de CM3leon est une technique appelée réglage fin supervisé, ou SFT en abrégé. Cette technique a été utilisée avec succès pour former des modèles de génération de texte comme le ChatGPT d’OpenAI, mais Meta a émis l’hypothèse qu’elle pourrait également être utile dans le domaine de l’image. En effet, le réglage des instructions a amélioré les performances de CM3leon non seulement pour la génération d’images mais aussi pour la rédaction de légendes d’images, ce qui lui a permis de répondre à des questions sur les images et de modifier des images en suivant des instructions textuelles (par exemple, « changer la couleur du ciel en bleu vif »).

La plupart des générateurs d’images se heurtent à des objets « complexes » et à des instructions textuelles comportant trop de contraintes. Ce n’est pas le cas de CM3Leon – ou du moins, pas aussi souvent. Dans quelques exemples choisis, Meta a demandé à CM3Leon de générer des images à partir d’invites telles que « Un petit cactus portant un chapeau de paille et des lunettes de soleil au néon dans le désert du Sahara », « Une photo en gros plan d’une main humaine, un modèle de main », « Un raton laveur, personnage principal d’un film d’animation, se préparant à une bataille épique avec une épée de samouraï » et « Un panneau stop dans un style fantastique avec le texte ‘1991’ ».

À titre de comparaison, j’ai lancé les mêmes questions dans DALL-E 2. Certains résultats étaient proches. Mais les images de CM3Leon étaient généralement plus proches du message et plus détaillées à mes yeux, la signalisation étant l’exemple le plus évident. (Jusqu’à récemment, les modèles de diffusion géraient relativement mal le texte et l’anatomie humaine).

Générateur de méta-images

Générateur d’images Meta.

DALL-E 2

Les résultats de DALL-E 2.

CM3Leon peut également comprendre des instructions pour modifier des images existantes. Par exemple, à l’invite « Générer une image de haute qualité d’une pièce contenant un évier et un miroir avec une bouteille à l’emplacement (199, 130) », le modèle peut générer quelque chose de visuellement cohérent et, comme le dit Meta, « contextuellement approprié » – pièce, évier, miroir, bouteille et tout le reste. DALL-E 2 ne parvient absolument pas à saisir les nuances de ce type d’invites, omettant parfois complètement les objets spécifiés dans l’invite.

Bien entendu, contrairement à DALL-E 2, CM3leon peut suivre une série d’invites pour générer des légendes courtes ou longues et répondre à des questions sur une image donnée. Dans ces domaines, le modèle a obtenu de meilleurs résultats que les modèles de sous-titrage d’images spécialisés (par exemple Flamingo, OpenFlamingo), bien qu’il ait vu moins de texte dans ses données d’apprentissage, affirme Meta.

Mais qu’en est-il de la partialité ? Les modèles d’IA générative comme DALL-E 2 se sont avérés renforcer les préjugés sociétaux, après tout, en générant des images de postes d’autorité – comme « PDG » ou « directeur » – qui représentent principalement des hommes blancs. Meta ne répond pas à cette question, se contentant de dire que CM3leon « peut refléter tous les préjugés présents dans les données d’apprentissage ».

« Alors que l’industrie de l’IA continue d’évoluer, les modèles génératifs tels que CM3leon deviennent de plus en plus sophistiqués », écrit l’entreprise. « Alors que l’industrie n’en est qu’à ses débuts pour comprendre et relever ces défis, nous pensons que la transparence sera essentielle pour accélérer les progrès. »

Meta n’a pas précisé si – ni quand – elle prévoyait de publier CM3leon. Compte tenu des controverses qui entourent les générateurs d’art open source, je ne retiendrais pas mon souffle.

IA