L’IA de stabilité se lance dans la création de vidéos

L’IA de stabilité se lance dans la création de vidéos

Les startups de l’IA qui ne sont pas OpenAI poursuit son travail cette semaine, semble-t-il, en s’en tenant à sa feuille de route, même si la couverture du chaos à OpenAI domine les ondes.

Voir : Stability AI, qui a annoncé cet après-midi Stable Video Diffusion, un modèle d’IA qui génère des vidéos en animant des images existantes. Basé sur le modèle texte-image Stable Diffusion de Stability, Stable Video Diffusion est l’un des rares modèles de génération de vidéos disponibles en open source – ou dans le commerce, d’ailleurs.

Mais pas pour tout le monde.

Stable Video Diffusion est actuellement dans ce que Stability décrit comme un « aperçu de recherche ». Ceux qui souhaitent utiliser le modèle doivent accepter certaines conditions d’utilisation, qui décrivent les applications prévues de Stable Video Diffusion (par exemple, « outils éducatifs ou créatifs », « design et autres processus artistiques », etc.) et celles qui ne le sont pas (« représentations factuelles ou véridiques de personnes ou d’événements »).

Compte tenu de la façon dont d’autres aperçus de recherches sur l’IA – y compris celui de Stability – ont été réalisés, cet auteur ne serait pas surpris de voir le modèle commencer à circuler sur le dark web dans les plus brefs délais. Si c’est le cas, je m’inquiéterais de la manière dont Stable Video pourrait être utilisé à mauvais escient, étant donné qu’il ne semble pas avoir de filtre de contenu intégré. Lorsque Stable Diffusion a été publié, il n’a pas fallu longtemps pour que des acteurs aux intentions douteuses l’utilisent pour créer du deepfake porno non consensuel – et pire encore.

Mais je m’éloigne du sujet.

La diffusion vidéo stable se présente sous la forme de deux modèles – SVD et SVD-XT. Le premier, SVD, transforme les images fixes en vidéos de 576×1024 en 14 images. SVD-XT utilise la même architecture, mais porte le nombre d’images à 24. Les deux modèles peuvent générer des vidéos à une vitesse comprise entre 3 et 30 images par seconde.

Selon un livre blanc publié en même temps que Stable Video Diffusion, SVD et SVD-XT ont d’abord été entraînés sur un ensemble de données de millions de vidéos, puis « affinés » sur un ensemble beaucoup plus petit de centaines de milliers à environ un million de clips. L’origine de ces vidéos n’est pas immédiatement claire – l’article laisse entendre que nombre d’entre elles proviennent d’ensembles de données de recherche publique – et il est donc impossible de dire si certaines d’entre elles sont protégées par des droits d’auteur. Si c’est le cas, les utilisateurs de Stability and Stable Video Diffusion pourraient être confrontés à des problèmes juridiques et éthiques liés aux droits d’utilisation. L’avenir nous le dira.

Stable Video Diffusion

Crédits images : Stabilité AI

Quelle que soit la source des données d’entraînement, les modèles – SVD et SVD-XT – génèrent des clips de quatre secondes d’assez bonne qualité. D’après nos estimations, les échantillons sélectionnés sur le blog de Stability pourraient rivaliser avec les résultats du récent modèle de génération vidéo de Meta, ainsi qu’avec les exemples produits par Google et les startups Runway et Pika Labs, tous deux spécialisés dans l’IA.

Mais la diffusion vidéo stable a ses limites. Stability est transparent à ce sujet, écrivant sur les pages Hugging Face des modèles – les pages à partir desquelles les chercheurs peuvent demander l’accès à Stable Video Diffusion – que les modèles ne peuvent pas générer des vidéos sans mouvement ou des panoramiques de caméra lents, être contrôlés par du texte, rendre du texte (du moins pas de manière lisible) ou générer systématiquement des visages et des personnes « correctement ».

Malgré tout, Stability souligne que les modèles sont assez extensibles et peuvent être adaptés à des cas d’utilisation tels que la génération de vues d’objets à 360 degrés, même s’il s’agit d’une première expérience.

En quoi la diffusion vidéo stable pourrait-elle évoluer ? Stability indique qu’il prévoit « une variété » de modèles qui « s’appuient sur et étendent » SVD et SVD-XT, ainsi qu’un outil « texte-vidéo » qui apportera une assistance textuelle aux modèles sur le Web. L’objectif ultime semble être la commercialisation – Stability note à juste titre que Stable Video Diffusion a des applications potentielles dans « la publicité, l’éducation, le divertissement et au-delà ».

Il ne fait aucun doute que Stability vise un succès, car les investisseurs de la startup font monter la pression.

En avril, Semafor a rapporté que Stability AI brûlait ses liquidités, provoquant une chasse aux cadres pour augmenter les ventes. Selon Forbes, l’entreprise a retardé à plusieurs reprises le paiement des salaires et des charges sociales, voire ne les a pas payés du tout, ce qui a conduit AWS – que Stability utilise pour le calcul afin d’entraîner ses modèles – à menacer de révoquer l’accès de Stability à ses instances GPU.

Diffusion vidéo stable

Crédits images : Stabilité AI

Stability AI a récemment levé 25 millions de dollars par le biais d’une note convertible (c’est-à-dire une dette qui se convertit en actions), ce qui porte le total des fonds levés à plus de 125 millions de dollars. Mais elle n’a pas encore obtenu de nouveau financement à une valeur plus élevée ; la startup a été évaluée pour la dernière fois à 1 milliard de dollars. On dit que Stability cherche à quadrupler ce montant dans les prochains mois, malgré des revenus obstinément faibles et un taux d’épuisement élevé.

Stability a récemment subi un autre coup dur avec le départ d’Ed Newton-Rex, qui était vice-président de l’audio dans la startup depuis un peu plus d’un an et qui a joué un rôle central dans le lancement de l’outil de génération de musique de Stability, Stable Audio. Dans une lettre publique, Newton-Rex a déclaré qu’il avait quitté Stability en raison d’un désaccord sur le droit d’auteur et sur la manière dont les données protégées par le droit d’auteur devraient – ou ne devraient pas – être utilisées pour entraîner les modèles d’intelligence artificielle.

IA