Google lance Imagen 2, un générateur de clips vidéo

Google lance Imagen 2, un générateur de clips vidéo

Google n’a pas les meilleurs antécédents en matière d’IA génératrice d’images.

En février, il a été constaté que le générateur d’images intégré à Gemini, le chatbot de Google alimenté par l’IA, injectait aléatoirement de la diversité raciale et de genre dans les questions concernant les personnes, ce qui a donné lieu à des images de nazis racialement diversifiés, entre autres inexactitudes choquantes.

Google a retiré le générateur, s’engageant à l’améliorer et à le publier à nouveau. En attendant son retour, l’entreprise lance un outil de génération d’images amélioré, Imagen 2, au sein de sa plateforme de développement Vertex AI, mais un outil résolument plus orienté vers les entreprises. Google a annoncé Imagen 2 lors de sa conférence annuelle Cloud Next à Las Vegas.

Imagen 2 – qui est en fait une famille de modèles, lancée en décembre après avoir été présentée en avant-première lors de la conférence I/O de Google en mai 2023 – peut créer et modifier des images à partir d’un texte, comme DALL-E et Midjourney d’OpenAI. Pour les entreprises, Imagen 2 peut restituer du texte, des emblèmes et des logos en plusieurs langues, en superposant éventuellement ces éléments à des images existantes, par exemple sur des cartes de visite, des vêtements et des produits.

Après avoir été lancée en avant-première, l’édition d’images avec Imagen 2 est maintenant disponible dans Vertex AI avec deux nouvelles fonctionnalités : l’inpainting et l’outpainting. L’inpainting et le outpainting, des fonctions que d’autres générateurs d’images populaires, dont DALL-E, proposent depuis un certain temps, peuvent être utilisées pour supprimer les éléments suivants parties indésirables d’une image, ajouter de nouveaux composants et étendre les bords d’une image pour créer un champ de vision plus large.

Mais le véritable intérêt de la mise à jour d’Imagen 2 réside dans ce que Google appelle les « images textuelles vivantes ».

Imagen 2 peut désormais créer de courtes vidéos de quatre secondes à partir d’invites textuelles, à l’instar des outils de génération de clips alimentés par l’IA tels que Runway, Pika et Irreverent Labs. Fidèle à l’objectif d’Imagen 2, Google présente les images en direct comme un outil pour les spécialistes du marketing et les créatifs, tel qu’un générateur de GIF pour les publicités montrant la nature, la nourriture et les animaux – des sujets sur lesquels Imagen 2 a été perfectionné.

Google affirme que les images en direct peuvent capturer « une gamme d’angles de caméra et de mouvements » tout en « [?en assurant la cohérence de l’ensemble de la séquence ». Mais pour l’instant, elles sont en basse résolution : 360 pixels par 640 pixels. Google s’engage à ce que cela s’améliore à l’avenir.

Pour dissiper (ou du moins tenter de dissiper) les inquiétudes concernant la possibilité de créer des « deepfakes », Google indique qu’Imagen 2 utilisera SynthID, une approche développée par Google DeepMind, pour appliquer des filigranes cryptographiques invisibles aux images en direct. Bien entendu, la détection de ces filigranes – qui, selon Google, résistent aux modifications telles que la compression, les filtres et les ajustements de tonalité des couleurs – nécessite un outil fourni par Google qui n’est pas disponible pour les tiers.

Et sans doute désireux d’éviter une nouvelle controverse sur les médias génératifs, Google insiste sur le fait que les générations d’images en direct seront « filtrées pour des raisons de sécurité ». Un porte-parole a déclaré à TechCrunch par e-mail : « Le Le modèle Imagen 2 de Vertex AI n’a pas connu les mêmes problèmes que l’application Gemini. Nous continuons à faire des tests approfondis et à dialoguer avec nos clients. »

Mais en supposant généreusement que la technologie de filigrane de Google, les atténuations de biais et les filtres soient aussi efficaces qu’ils le prétendent, les images en direct sont-elles même compétitives avec les outils de génération de vidéos existants ?

Pas vraiment.

Runway peut générer des clips de 18 secondes dans des résolutions beaucoup plus élevées. L’outil de clip vidéo de Stability AI, Stable Video Diffusion, offre une plus grande personnalisation (en termes de fréquence d’images). Enfin, Sora d’OpenAI – qui, il est vrai, n’est pas encore disponible dans le commerce – semble sur le point d’écraser la concurrence par le photoréalisme qu’il est capable d’atteindre.

Quels sont donc les véritables avantages techniques des images en direct ? Je n’en suis pas vraiment sûr. Et je ne pense pas être trop sévère.

Après tout, Google est à l’origine de technologies de génération de vidéos vraiment impressionnantes, comme Imagen Video et Phenaki. Phenaki, l’une des expériences les plus intéressantes de Google en matière de conversion de texte en vidéo, transforme des messages longs et détaillés en « films » de plus de deux minutes – à condition que les clips soient en basse résolution, avec un faible taux de rafraîchissement et qu’ils ne soient que peu cohérents.

À la lumière des récents rapports suggérant que la révolution de l’IA générative a pris le PDG de Google Sundar Pichai au dépourvu et que l’entreprise lutte toujours pour maintenir le rythme avec ses rivaux, il n’est pas surprenant qu’un produit tel que les images en direct ait l’air d’être un produit de second rang. Mais c’est tout de même décevant. Je ne peux m’empêcher de penser qu’il existe – ou qu’il existait – un produit plus impressionnant caché dans les ateliers clandestins de Google.

Les modèles comme Imagen sont entraînés sur un très grand nombre d’exemples provenant généralement de sites publics et d’ensembles de données sur le web. De nombreux fournisseurs d’IA générative considèrent les données d’entraînement comme un avantage concurrentiel et les gardent donc secrètes, de même que les informations qui s’y rapportent. Mais les détails des données d’entraînement sont également une source potentielle de poursuites judiciaires liées à la propriété intellectuelle, ce qui constitue un autre facteur de dissuasion.

J’ai demandé, comme je le fais toujours à l’occasion des annonces relatives aux modèles d’IA générative, quelles étaient les données utilisées pour former la nouvelle version d’Imagen 2, et si les créateurs dont le travail aurait pu être pris en compte dans le processus de formation du modèle seraient en mesure de se désengager à l’avenir.

Google m’a seulement indiqué que ses modèles sont formés « principalement » à partir de données Web publiques, tirées « d’articles de blog, de transcriptions de médias et de forums de conversation publique ». Quels blogs, transcriptions et forums ? C’est à n’importe qui de le deviner.

Un porte-parole a évoqué les contrôles de Google pour les éditeurs de sites web, qui permettent aux webmasters d’empêcher l’entreprise de récupérer des données, y compris des photos et des illustrations, sur leurs sites web. Mais Google n’a pas voulu s’engager à mettre en place un outil de désactivation ou, au contraire, à indemniser les créateurs pour leurs contributions (à leur insu) – une mesure que nombre de ses concurrents, dont OpenAI, Stability AI et Adobe, ont prise.

Un autre point mérite d’être mentionné : Les images textuelles ne sont pas couvertes par la politique d’indemnisation de Google en matière d’IA générative, qui protège les clients de Vertex AI contre les revendications de droits d’auteur liées à l’utilisation par Google des données d’entraînement et des résultats de ses modèles d’IA générative. En effet, text-to-live images est techniquement en avant-première ; la politique ne couvre que les produits d’IA générative en disponibilité générale (GA).

La régurgitation, ou le fait qu’un modèle génératif produise une copie miroir d’un exemple (par exemple une image) sur lequel il a été entraîné, est à juste titre un sujet de préoccupation pour les entreprises clientes. Des études informelles et universitaires ont montré que la première génération d’Imagen, le prédécesseur d’Imagen 2, n’était pas à l’abri de ce phénomène, produisant des photos identifiables de personnes, des œuvres d’artistes protégées par des droits d’auteur et bien d’autres choses encore lorsqu’il était sollicité d’une certaine manière.

À moins de controverses, de problèmes techniques ou d’autres revers majeurs imprévus, les images textuelles en direct entreront dans l’AG à un moment ou à un autre. Mais avec les images en direct telles qu’elles existent aujourd’hui, Google dit essentiellement : utilisez-les à vos risques et périls.

IA