Les transformateurs de diffusion sont la clé de Sora d’OpenAI – et ils sont prêts à bouleverser GenAI

Les transformateurs de diffusion sont la clé de Sora d’OpenAI – et ils sont prêts à bouleverser GenAI

Sora d’OpenAI, qui peut générer des vidéos et des environnements 3D interactifs à la volée, est une démonstration remarquable de l’avant-garde de GenAI – un véritable jalon.

Mais curieusement, l’une des innovations qui a conduit à ce résultat, une architecture de modèle d’IA connue familièrement sous le nom de transformateur de diffusion, est apparue sur la scène de la recherche en IA il y a des années.

Le transformateur de diffusion, qui équipe également le dernier générateur d’images de la startup Stability AI, Stable Diffusion 3.0, semble prêt à transformer le domaine de la GenAI en permettant aux modèles de GenAI de s’étendre au-delà de ce qui était possible auparavant.

Saining Xie, professeur d’informatique à l’université de New York, a lancé le projet de recherche qui a donné naissance au transformateur de diffusion en juin 2022. Avec William Peebles, son mentoré lorsque Peebles était stagiaire au laboratoire de recherche en IA de Meta et aujourd’hui co-directeur de Sora à l’OpenAI, Xie a combiné deux concepts d’apprentissage automatique : – l’apprentissage de l’intelligence artificielle. la diffusion et la transformateur – pour créer le transformateur de diffusion.

La plupart des générateurs de médias modernes alimentés par l’IA, y compris DALL-E 3 d’OpenAI, s’appuient sur un processus appelé diffusion pour produire des images, des vidéos, de la parole, de la musique, des maillages 3D, des œuvres d’art, etc.

L’idée n’est pas des plus intuitives, mais en gros, du bruit est lentement ajouté à un média – par exemple une image – jusqu’à ce qu’il devienne méconnaissable. Cette opération est répétée pour constituer un ensemble de données de médias bruités. Lorsqu’un modèle de diffusion s’entraîne sur ces données, il apprend à soustraire progressivement le bruit, en se rapprochant, étape par étape, d’un élément de média cible (par exemple, une nouvelle image).

Les modèles de diffusion sont généralement dotés d’une « épine dorsale », ou d’une sorte de moteur, appelée U-Net. L’épine dorsale du réseau en U apprend à estimer le bruit à supprimer – et le fait bien. Mais les U-Nets sont complexes et comportent des modules spécialement conçus qui peuvent ralentir considérablement le pipeline de diffusion.

Heureusement, les transformateurs peuvent remplacer les U-Nets, tout en améliorant l’efficacité et les performances.

OpenAI Sora

Une vidéo générée par Sora.

Les transformateurs constituent l’architecture de choix pour les tâches de raisonnement complexes, alimentant des modèles tels que GPT-4, Gemini et ChatGPT. Ils possèdent plusieurs caractéristiques uniques, mais la caractéristique principale des transformateurs est de loin leur « mécanisme d’attention ». Pour chaque donnée d’entrée (dans le cas de la diffusion, un bruit d’image), les transformateurs peser la pertinence de chaque autre entrée (autre bruit dans une image) et en tirer parti pour générer la sortie (une estimation du bruit de l’image).

Non seulement le mécanisme d’attention rend les transformateurs plus simples que d’autres architectures de modèles, mais il rend l’architecture parallélisable. En d’autres termes, des modèles de transformateurs de plus en plus grands peuvent être formés avec des augmentations significatives mais non irréalisables du calcul.

« Ce que les transformateurs apportent au processus de diffusion s’apparente à une mise à niveau du moteur », a déclaré Xie à TechCrunch lors d’un entretien par courrier électronique. « L’introduction des transformateurs … marque un saut significatif dans l’évolutivité et l’efficacité. Cela est particulièrement évident dans les modèles comme Sora, qui bénéficient d’un entraînement sur de vastes volumes de données vidéo et exploitent des paramètres de modèle étendus pour montrer le potentiel de transformation des transformateurs lorsqu’ils sont appliqués à l’échelle. »

Généré par Stable Diffusion 3.

Étant donné que l’idée des transformateurs de diffusion ne date pas d’hier, pourquoi a-t-il fallu des années avant que des projets comme Sora et Stable Diffusion commencent à les exploiter ? Xie pense que l’importance d’un modèle de réseau fédérateur évolutif n’est apparue que relativement récemment.

« L’équipe de Sora s’est vraiment surpassée pour montrer tout ce qu’il est possible de faire avec cette approche à grande échelle », a-t-il déclaré. « Elle a clairement fait comprendre que les U-Nets étaient dépassés et qu’ils n’avaient pas besoin d’être remplacés. transformateurs sont en place pour diffusion à partir de maintenant ».

Transformateurs de diffusion devrait devrait être un simple échange avec les modèles de diffusion existants, précise M. Xie, que ces modèles génèrent des images, des vidéos, des sons ou d’autres formes de médias. Le processus actuel de formation des transformateurs de diffusion introduit potentiellement des inefficacités et des pertes de performances, mais M. Xie pense que ces problèmes pourront être résolus à long terme.

« La principale conclusion est assez simple : oubliez les U-Nets et passez à des transformateurs de diffusion. transformateurs, parce qu’ils sont plus rapides, fonctionnent mieux et sont plus évolutifs », a-t-il déclaré. « Je m’intéresse à l’intégration des domaines de la compréhension et de la création de contenu dans le cadre des transformateurs de diffusion. Pour l’instant, il s’agit de deux mondes différents, l’un pour la compréhension et l’autre pour la création. J’imagine un avenir où ces aspects seront intégrés, et je pense que cette intégration passe par la normalisation des architectures sous-jacentes, les transformateurs étant un candidat idéal à cette fin. »

Si Sora et Stable Diffusion 3.0 sont un aperçu de ce qui nous attend avec les transformateurs de diffusion, je dirais que nous sommes dans une course folle.

IA