Meta nous rapproche des films générés par l’IA

Meta nous rapproche des films générés par l’IA

À l’instar du réalisateur d' »Avengers », Joe Russo, je suis de plus en plus convaincu que des films et des émissions de télévision entièrement générés par l’IA seront possibles de notre vivant.

Ces derniers mois, une multitude d’annonces concernant l’IA, en particulier le moteur de synthèse vocale ultra-réaliste d’OpenAI, ont donné un aperçu de cette nouvelle frontière prometteuse. Mais l’annonce faite aujourd’hui par Meta a mis en évidence notre avenir en matière de contenu généré par l’IA, du moins pour moi.

Meta a présenté ce matin Emu Video, une évolution de l’outil de génération d’images du géant technologique, Emu. À partir d’une légende (par exemple « Un chien qui court sur un monticule herbeux »), d’une image ou d’une photo associée à une description, Emu Video peut générer un clip animé de quatre secondes.

Les clips d’Emu Video peuvent être édités à l’aide d’un modèle d’IA complémentaire appelé Emu Edit, qui a également été annoncé aujourd’hui. Les utilisateurs peuvent décrire les modifications qu’ils souhaitent apporter à Emu Edit en langage naturel – par exemple, « le même clip, mais au ralenti » – et voir les changements reflétés dans une nouvelle vidéo générée.

La technologie de génération de vidéos n’est pas nouvelle. Meta l’a déjà expérimentée, tout comme Google. Entre-temps, des start-ups comme Runway ont déjà créé des entreprises sur la base de cette technologie.

Mais les clips 512×512, 16 images par seconde d’Emu Video sont facilement parmi les meilleurs que j’ai vus en termes de fidélité – au point que mon œil non exercé a du mal à les distinguer de la réalité.

Vidéo sur l'émeu

Crédits d’image : Meta

Enfin, certains d’entre eux. Il semble qu’Emu Video réussisse le mieux à animer des scènes simples, essentiellement statiques (par exemple, des chutes d’eau et des vues d’horizon de villes) qui s’éloignent du photoréalisme – c’est-à-dire dans des styles tels que le cubisme, l’anime, le « papier découpé » et le steampunk. Un clip de la Tour Eiffel à l’aube « comme une peinture », avec la tour se reflétant dans la Seine, m’a fait penser à une carte électronique que l’on pourrait voir sur American Greetings.

Vidéo sur l'émeu

Crédits d’image : Meta

Cependant, même dans les meilleurs travaux d’Emu Video, des bizarreries générées par l’IA parviennent à s’insinuer, comme des phénomènes physiques bizarres (par exemple, des skateboards qui se déplacent parallèlement au sol) et des appendices étranges (des orteils qui se recroquevillent derrière les pieds et des jambes qui se fondent l’une dans l’autre). Les objets apparaissent et disparaissent souvent sans grande logique, comme les oiseaux au-dessus de la tête dans le clip de la Tour Eiffel mentionné plus haut.

Après avoir passé beaucoup trop de temps à parcourir les créations d’Emu Video (ou du moins les exemples choisis par Meta), j’ai commencé à remarquer un autre signe évident : les sujets des clips ne sont pas… bien, faire beaucoup. Pour autant que je puisse en juger, Emu Video ne semble pas maîtriser les verbes d’action, ce qui est peut-être une limitation de l’architecture sous-jacente du modèle.

Emu Video

Crédits d’image : Meta

Par exemple, un mignon raton laveur anthropomorphisé dans un clip d’Emu Video peut tenir une guitare, mais il ne le fera pas gratter la guitare – même si la légende du clip contient le mot « strum ». Ou encore, deux licornes « joueront » aux échecs, mais uniquement dans le sens où elles s’assiéront avec curiosité devant un échiquier sans déplacer les pièces.

Vidéo sur l'émeu

Crédits d’image : Meta

Il y a donc clairement du travail à faire. Néanmoins, le b-roll plus basique d’Emu Video ne serait pas déplacé dans un film ou une émission de télévision aujourd’hui, je dirais – et les ramifications éthiques de ceci me terrifient franchement.

Vidéo sur l'émeu

Crédits d’image : Meta

Le risque de deepfakes mis à part, je crains pour les animateurs et les artistes dont les moyens de subsistance dépendent de l’élaboration des types de scènes que l’IA comme Emu Video peut maintenant approximer. Meta et ses rivaux de l’IA générative soutiendraient probablement qu’Emu Video, dont le PDG de Meta Mark Zuckerberg dit qu’il est en train d’être intégré dans Facebook et Instagram (avec, espérons-le, de meilleurs filtres de toxicité que les autocollants générés par l’IA de Meta), augmenter plutôt que remplacer les artistes humains. Mais je dirais que c’est faire preuve d’optimisme, voire de mauvaise foi, surtout lorsqu’il s’agit d’argent.

Au début de l’année, Netflix a utilisé des images d’arrière-plan générées par l’IA dans un court métrage d’animation de trois minutes. L’entreprise a affirmé que cette technologie pourrait contribuer à pallier la prétendue pénurie de main-d’œuvre dans le domaine de l’animation, mais elle a commodément passé sous silence le fait que les salaires peu élevés et les conditions de travail souvent pénibles détournent les artistes de ce type de travail.

Dans une controverse similaire, le studio à l’origine de la séquence de générique de « Secret Invasion » de Marvel a admis avoir utilisé l’IA, principalement l’outil de conversion de texte en image Midjourney, pour générer une grande partie de l’illustration de la séquence. Le réalisateur de la série, Ali Selim, a fait valoir que l’utilisation de l’IA correspondait aux thèmes paranoïaques de la série, mais la majeure partie de la communauté des artistes et des fans a exprimé son désaccord avec véhémence.

Vidéo Emu

Crédits d’image : Meta

Les acteurs pourraient également être sur la sellette. L’un des principaux points d’achoppement de la récente grève de la SAG-AFTRA était l’utilisation de l’IA pour créer des ressemblances numériques. Les studios ont finalement accepté de payer les acteurs pour leurs portraits générés par l’IA. Mais pourraient-ils revenir sur leur décision à mesure que la technologie s’améliore ? Je pense que c’est probable.

Pour ne rien arranger, l’IA comme Emu Video est généralement entraînée sur des images et des vidéos produites par des artistes, des photographes et des cinéastes, sans que ces créateurs en soient informés ou indemnisés. Dans un livre blanc accompagnant la sortie d’Emu Video, Meta indique seulement que le modèle a été formé sur un ensemble de données de 34 millions de « paires vidéo-texte » d’une durée de 5 à 60 secondes – sans préciser la provenance de ces vidéos, leur statut en termes de droits d’auteur ou si Meta les a utilisées sous licence.

(Après la publication de cet article, un porte-parole de Meta a indiqué à TechCrunch par courrier électronique qu’Emu avait été formé sur des « données provenant de partenaires sous licence »).

Vidéo Emu

Crédits d’image : Meta

Il y a eu des tentatives pour mettre en place des normes industrielles permettant aux artistes de se retirer de la formation ou de recevoir une rémunération pour les œuvres générées par l’IA auxquelles ils ont contribué. Mais si l’on en croit Emu Video, la technologie – comme c’est souvent le cas – va bientôt prendre le pas sur l’éthique. C’est peut-être déjà le cas.

IA