Sora, le nouveau modèle d’OpenAI, peut générer des vidéos – et elles ont l’air décentes

Sora, le nouveau modèle d’OpenAI, peut générer des vidéos – et elles ont l’air décentes

OpenAI, suivant les traces de startups comme Runway et de géants de la technologie comme Google et Meta, se lance dans la génération de vidéos.

OpenAI a dévoilé aujourd’hui Sora, un modèle d’IA générative qui crée des vidéos à partir de textes. À partir d’une description brève – ou détaillée – ou d’une image fixe, Sora peut générer des scènes ressemblant à des films de 1080p avec plusieurs personnages, différents types de mouvements et des détails d’arrière-plan, affirme OpenAI.

Sora peut également « étendre » des clips vidéo existants, en faisant de son mieux pour combler les détails manquants.

« Sora a une compréhension approfondie du langage, ce qui lui permet d’interpréter avec précision les messages et de générer des personnages convaincants qui expriment des émotions vibrantes », écrit OpenAI dans un article de blog. « Le modèle comprend non seulement ce que l’utilisateur a demandé dans l’invite, mais aussi comment ces choses existent dans le monde physique. »

La page de démonstration d’OpenAI pour Sora contient beaucoup de grandiloquence – la déclaration ci-dessus en est un exemple. Mais les échantillons choisis dans le modèle faire semblent assez impressionnantes, du moins par rapport aux autres technologies de conversion de texte en vidéo que nous avons vues.

Pour commencer, Sora peut générer des vidéos de différents styles (photoréaliste, animé, noir et blanc, etc.) d’une durée maximale d’une minute, ce qui est bien plus long que la plupart des modèles de conversion de texte en vidéo. Et ces vidéos conservent une cohérence raisonnable, en ce sens qu’elles ne succombent pas toujours à ce que j’aime appeler les « bizarreries de l’IA », comme les objets qui se déplacent dans des directions physiquement impossibles.

Regardez cette visite d’une galerie d’art, entièrement générée par Sora (ignorez le grain – compression par mon outil de conversion vidéo-GIF) :

OpenAI Sora

Crédits d’image : OpenAI

Ou cette animation d’une fleur en train d’éclore :

OpenAI Sora

Crédits d’image : OpenAI

Je dois dire que certaines des vidéos de Sora avec un sujet humanoïde – un robot se détachant sur un paysage urbain, par exemple, ou une personne marchant sur un sentier enneigé – ont une qualité de jeu vidéo, peut-être parce qu’il ne se passe pas grand-chose en arrière-plan. Par ailleurs, des bizarreries liées à l’IA se glissent dans de nombreux clips, comme des voitures qui roulent dans une direction et font soudainement marche arrière ou des bras qui se fondent dans une housse de couette.

OpenAI Sora

Crédits d’image : OpenAI

OpenAI – malgré tous ses superlatifs – reconnaît que le modèle n’est pas parfait. Elle écrit :

« (Sora) peut avoir du mal à simuler avec précision la physique d’une scène complexe, et peut ne pas comprendre des cas spécifiques de cause et d’effet. Par exemple, une personne peut prendre une bouchée d’un biscuit, mais après, le biscuit peut ne pas avoir de trace de bouchée. Le modèle peut également confondre les détails spatiaux d’une invite, par exemple en confondant la gauche et la droite, et peut éprouver des difficultés à décrire avec précision des événements qui se déroulent dans le temps, par exemple en suivant une trajectoire de caméra spécifique ».

OpenAI positionne Sora comme un aperçu de recherche, révélant peu de choses sur les données utilisées pour former le modèle (moins de 10 000 heures de vidéo « de haute qualité ») et s’abstenant de mettre Sora à la disposition de tous. OpenAI souligne à juste titre que de mauvais acteurs pourraient abuser d’un modèle comme Sora de multiples façons.

OpenAI dit travailler avec des experts pour sonder le modèle à la recherche d’exploits et construire des outils permettant de détecter si une vidéo a été générée par Sora. L’entreprise précise également que si elle choisit d’intégrer le modèle dans un produit public, elle veillera à ce que les métadonnées de provenance soient incluses dans les résultats générés.

« Nous engagerons les décideurs politiques, les éducateurs et les artistes du monde entier à comprendre leurs préoccupations et à identifier des cas d’utilisation positifs pour cette nouvelle technologie », écrit OpenAI. « Malgré des recherches et des tests approfondis, nous ne pouvons pas prédire toutes les façons bénéfiques dont les gens utiliseront notre technologie, ni toutes les façons dont ils en abuseront. C’est pourquoi nous pensons que l’apprentissage par l’utilisation du monde réel est un élément essentiel de la création et de la diffusion de systèmes d’IA de plus en plus sûrs au fil du temps. »

IA