Google lance Imagen 2, qui permet de générer du texte et des logos

Google lance Imagen 2, qui permet de générer du texte et des logos

Google rend la deuxième génération d’Imagen, son modèle d’IA capable de créer et de modifier des images à partir d’un texte, plus largement disponible, du moins pour les clients de Google Cloud utilisant Vertex AI et dont l’accès a été approuvé.

Mais l’entreprise ne divulgue pas les données qu’elle a utilisées pour entraîner le nouveau modèle, ni ne propose aux créateurs qui auraient contribué par inadvertance à l’ensemble de données de se retirer ou de demander une compensation.

Baptisé Imagen 2, le modèle amélioré de Google – qui a été discrètement lancé en avant-première lors de la conférence I/O du géant technologique en mai – a été développé à l’aide de la technologie de Google DeepMind, le laboratoire d’intelligence artificielle phare de Google. Par rapport à la première génération d’Imagen, il s’est « considérablement » amélioré en termes de qualité d’image, affirme Google (l’entreprise a bizarrement refusé de partager des échantillons d’images avant ce matin), et introduit de nouvelles capacités, notamment la possibilité de rendre du texte et des logos.

« Si vous souhaitez créer des images avec du texte en surimpression, par exemple pour de la publicité, vous pouvez le faire », a déclaré Thomas Kurian, PDG de Google Cloud, lors d’une conférence de presse mardi.

La génération de textes et de logos rapproche Imagen d’autres modèles de génération d’images de premier plan, tels que DALL-E 3 d’OpenAI et Titan Image Generator, récemment lancé par Amazon. Toutefois, Imagen 2 se distingue par deux points possibles : il peut restituer du texte en plusieurs langues – notamment en chinois, hindi, japonais, coréen, portugais, anglais et espagnol, d’autres langues étant prévues pour 2024 – et superposer des logos à des images existantes.

« Imagen 2 peut générer … des emblèmes, des marques de lettres et des logos abstraits … (et) a la capacité de superposer ces logos sur des produits, des vêtements, des cartes de visite et d’autres surfaces », explique Vishy Tirumalasetty, responsable des produits de médias génératifs chez Google, dans un billet de blog fourni à TechCrunch avant l’annonce d’aujourd’hui.

Grâce à de « nouvelles techniques de formation et de modélisation », Imagen 2 peut également comprendre des messages plus descriptifs et plus longs et fournir des « réponses détaillées » à des questions portant sur des éléments d’une image. Ces techniques améliorent également la compréhension multilingue d’Imagen 2, précise Google, ce qui permet au modèle de traduire une invite dans une langue en un résultat (par exemple un logo) dans une autre langue.

Imagen 2 s’appuie sur SynthID, une approche développée par DeepMind, pour appliquer des filigranes invisibles aux images qu’il crée. Bien entendu, la détection de ces filigranes – qui, selon Google, résistent aux modifications d’images, y compris la compression, les filtres et les ajustements de couleur – nécessite un outil fourni par Google qui n’est pas à la disposition des tiers. Mais à l’heure où les décideurs politiques s’inquiètent du volume croissant de désinformation générée par l’IA sur le web, cela permettra peut-être d’apaiser certaines craintes.

Google n’a pas révélé les données utilisées pour former Imagen 2, ce qui, bien que décevant, n’est pas vraiment une surprise. La question juridique de savoir si les fournisseurs de GenAI comme Google peuvent entraîner un modèle sur des données accessibles au public – même protégées par des droits d’auteur – et ensuite commercialiser ce modèle, reste ouverte.

Des procès en ce sens sont en cours devant les tribunaux, les fournisseurs faisant valoir qu’ils sont protégés par la doctrine de l’utilisation équitable. Mais il faudra attendre un certain temps avant que la poussière ne retombe.

En attendant, Google joue la carte de la sécurité en gardant le silence sur cette affaire, à l’inverse de la stratégie adoptée pour la première génération d’Imagen, où il avait révélé qu’il utilisait une version de l’ensemble de données public LAION pour entraîner le modèle. LAION est connu pour contenir des contenus problématiques, notamment des images médicales privées, des œuvres d’art protégées par des droits d’auteur et des photoshoppings de célébrités pornographiques – ce qui n’est évidemment pas la meilleure image pour Google.

Certaines entreprises qui développent des générateurs d’images alimentés par l’IA, comme Stability AI et – depuis quelques mois – OpenAI, permettent aux créateurs de se retirer des ensembles de données d’entraînement s’ils le souhaitent. D’autres, dont Adobe et Getty Images, mettent en place des systèmes de rémunération pour les créateurs, même s’ils ne sont pas toujours bien payés ou transparents.

Google – et, pour être juste, plusieurs de ses rivaux, dont Amazon – ne propose pas de mécanisme de retrait ou de rémunération des créateurs. Il semble que cela ne changera pas de sitôt.

Au lieu de cela, Google propose une politique d’indemnisation qui protège les clients éligibles de Vertex AI contre les réclamations en matière de droits d’auteur liées à l’utilisation par Google des données d’entraînement et des résultats d’Imagen 2.

La régurgitation, ou lorsqu’un modèle génératif produit une copie miroir d’un exemple d’entraînement, est à juste titre un sujet de préoccupation pour les entreprises clientes et les développeurs. Une étude universitaire a montré que la première génération d’Imagen n’était pas à l’abri de ce phénomène, produisant des photos identifiables de personnes réelles, des œuvres d’artistes protégées par des droits d’auteur et bien d’autres choses encore lorsqu’elle était sollicitée de manière spécifique.

Il n’est pas surprenant que, dans une enquête récente menée par Acrolinx auprès d’entreprises du classement Fortune 500, près d’un tiers d’entre elles aient déclaré que la propriété intellectuelle était leur principale préoccupation concernant l’utilisation de l’IA générative. Un autre sondage a révélé que neuf développeurs sur dix « prennent fortement en compte » la protection de la propriété intellectuelle lorsqu’ils décident d’utiliser ou non l’IA générative.

Google espère que sa politique, qui vient d’être élargie, répondra à cette préoccupation. (Les conditions d’indemnisation de Google ne couvraient pas auparavant les résultats d’Imagen.) Quant aux préoccupations des créateurs, eh bien… ils n’ont pas de chance cette fois-ci.

IA