Stability AI lance son dernier modèle de génération d’images, Stable Diffusion XL 1.0

Stability AI lance son dernier modèle de génération d’images, Stable Diffusion XL 1.0

La startup Stability AI continue d’affiner ses modèles d’IA générative face à une concurrence croissante – et à des défis éthiques.

Aujourd’hui, Stability AI a annoncé le lancement de Stable Diffusion XL 1.0, un modèle texte-image que l’entreprise décrit comme sa version « la plus avancée » à ce jour. Disponible en open source sur GitHub en plus de l’API de Stability et des applications grand public ClipDrop et DreamStudio, Stable Diffusion XL 1.0 offre des couleurs « plus vibrantes » et « précises » ainsi qu’un meilleur contraste, des ombres et un meilleur éclairage par rapport à son prédécesseur, affirme Stability.

Dans une interview accordée à TechCrunch, Joe Penna, responsable de l’apprentissage automatique appliqué chez Stability AI, a indiqué que Stable Diffusion XL 1.0, qui contient 3,5 milliards de paramètres, peut produire des images complètes d’une résolution de 1 mégapixel « en quelques secondes » dans de multiples rapports d’aspect. Les « paramètres » sont les parties d’un modèle apprises à partir de données d’entraînement et définissent essentiellement les compétences du modèle sur un problème, en l’occurrence la génération d’images.

Le modèle de diffusion stable de la génération précédente, Stable Diffusion XL 0.9, pouvait également produire des images à plus haute résolution, mais nécessitait davantage de puissance de calcul.

« Stable Diffusion XL 1.0 est personnalisable, prêt à être ajusté aux concepts et aux styles », explique M. Penna. « Il est également plus facile à utiliser, capable de réaliser des dessins complexes à l’aide d’un simple traitement du langage naturel.

Stable Diffusion XL 1.0 est également amélioré dans le domaine de la génération de texte. Alors que la plupart des meilleurs modèles de conversion texte-image peinent à générer des images avec des logos lisibles, sans parler de la calligraphie ou des polices de caractères, Stable Diffusion XL 1.0 est capable de générer des textes « avancés » et de les rendre lisibles, selon M. Penna.

Et, comme le rapportent SiliconAngle et VentureBeat, Stable Diffusion XL 1.0 prend en charge l’inpainting (reconstruction des parties manquantes d’une image), l’outpainting (extension d’images existantes) et les invites « image à image » – ce qui signifie que les utilisateurs peuvent saisir une image et ajouter des invites textuelles pour créer des variations plus détaillées de cette image. En outre, le modèle comprend des instructions compliquées, en plusieurs parties, données par des invites courtes, alors que les modèles précédents de diffusion stable nécessitaient des invites textuelles plus longues.

Stable Diffusion XL 1.0

Une image générée par Stable Diffusion XL 1.0. Crédits image : Stabilité AI

« Nous espérons qu’en publiant ce modèle open source beaucoup plus puissant, la résolution des images ne sera pas la seule chose qui quadruplera, mais qu’il y aura aussi des avancées qui bénéficieront grandement à tous les utilisateurs », a-t-il ajouté.

Mais comme pour les versions précédentes de Stable Diffusion, le modèle soulève des questions morales épineuses.

La version open source de Stable Diffusion XL 1.0 peut, en théorie, être utilisée par de mauvais acteurs pour générer du contenu toxique ou nuisible, comme des deepfakes non consensuels. Cela s’explique en partie par les données utilisées pour l’entraîner : des millions d’images provenant du web.

D’innombrables tutoriels montrent comment utiliser les propres outils de Stability AI, y compris DreamStudio, une interface open source pour Stable Diffusion, pour créer des deepfakes. D’innombrables autres montrent comment affiner les modèles de base de Stable Diffusion pour générer du porno.

M. Penna ne nie pas que des abus soient possibles et reconnaît que le modèle contient également certains biais. Mais il ajoute que Stability AI a pris des « mesures supplémentaires » pour atténuer la génération de contenus nuisibles en filtrant les données d’entraînement du modèle pour détecter les images « dangereuses », en publiant de nouveaux avertissements relatifs aux invites problématiques et en bloquant le plus grand nombre possible de termes problématiques individuels dans l’outil.

Le jeu d’entraînement de Stable Diffusion XL 1.0 comprend également des œuvres d’artistes qui ont protesté contre le fait que des entreprises telles que Stability AI utilisent leurs œuvres comme données d’entraînement pour des modèles d’IA générative. Stability AI affirme qu’elle est protégée de toute responsabilité juridique par la doctrine de l’utilisation équitable, du moins aux États-Unis. Mais cela n’a pas empêché plusieurs artistes et la société de photos d’archives Getty Images d’intenter des actions en justice pour mettre un terme à cette pratique.

Stability AI, qui a conclu un partenariat avec la startup Spawning pour respecter les demandes de retrait de ces artistes, affirme qu’elle n’a pas supprimé toutes les œuvres d’art signalées de ses ensembles de données d’apprentissage, mais qu’elle « continue d’intégrer les demandes des artistes ».

« Nous améliorons constamment la fonctionnalité de sécurité de Stable Diffusion. et nous sommes déterminés à continuer d’améliorer ces mesures », a déclaré M. Penna. « En outre, nous nous engageons à respecter les demandes des artistes qui souhaitent être retirés des ensembles de données d’entraînement. »

Pour coïncider avec la sortie de Stable Diffusion XL 1.0, Stability AI lance une fonction de réglage fin en bêta pour son API qui permettra aux utilisateurs d’utiliser seulement cinq images pour « spécialiser » la génération sur des personnes spécifiques, des produits et plus encore. La société apporte également Stable Diffusion XL 1.0 à Bedrock, la plateforme cloud d’Amazon pour l’hébergement de modèles d’IA générative – élargissant ainsi sa collaboration précédemment annoncée avec AWS.

La recherche de partenariats et de nouvelles capacités intervient alors que Stability souffre d’une accalmie dans ses efforts commerciaux – face à la concurrence acharnée d’OpenAI, Midjourney et d’autres. En avril, Semafor a rapporté que Stability AI, qui a levé plus de 100 millions de dollars en capital-risque à ce jour, brûlait ses liquidités, ce qui a entraîné la clôture d’une note convertible de 25 millions de dollars en juin et une chasse aux cadres pour aider à accélérer les ventes.

« Le dernier modèle SDXL représente la prochaine étape de l’héritage d’innovation de Stability AI et de sa capacité à mettre sur le marché les modèles en libre accès les plus avant-gardistes pour la communauté de l’IA », a déclaré Emad Mostaque, PDG de Stability AI, dans un communiqué de presse. « Le dévoilement de la version 1.0 sur Amazon Bedrock démontre notre fort engagement à travailler avec AWS pour fournir les meilleures solutions aux développeurs et à nos clients. »

IA