La course à la vidéo générative s’intensifie en Chine

La course à la vidéo générative s’intensifie en Chine

Lundi, Tencent, le géant chinois de l’Internet connu pour son empire du jeu vidéo et son application de chat WeChat, a dévoilé une nouvelle version de son modèle de génération vidéo open source DynamiCrafter sur GitHub. Cela nous rappelle que certaines des plus grandes entreprises technologiques chinoises ont discrètement intensifié leurs efforts pour s’imposer dans le domaine de la conversion de texte et d’image en vidéo.

Comme d’autres outils vidéo génératifs sur le marché, DynamiCrafter utilise la méthode de diffusion pour transformer les légendes et les images fixes en vidéos de quelques secondes. Inspirés par le phénomène naturel de la diffusion en physique, les modèles de diffusion dans l’apprentissage automatique peuvent transformer des données simples en données plus complexes et plus réalistes, de la même manière que les particules se déplacent d’une zone de forte concentration à une autre de faible concentration.

La deuxième génération de DynamiCrafter produit des vidéos d’une résolution de 640×1024 pixels, une amélioration par rapport à la version initiale d’octobre qui proposait des vidéos de 320×512. Un article universitaire publié par l’équipe à l’origine de DynamiCrafter indique que sa technologie diffère de celle de ses concurrents en ce qu’elle élargit l’applicabilité des techniques d’animation d’images à un « contenu visuel plus général ».

« L’idée principale est d’utiliser le mouvement antérieur des modèles de diffusion texte-vidéo en incorporant l’image dans le processus génératif en tant que guide », indique l’article. Les techniques « traditionnelles », en comparaison, « se concentrent principalement sur l’animation de scènes naturelles avec une dynamique stochastique (par exemple, les nuages et les fluides) ou des mouvements spécifiques à un domaine (par exemple, les cheveux humains ou les mouvements du corps) ».

Dans une démo (voir ci-dessous) qui compare DynamiCrafter, Stable Video Diffusion (lancé en novembre) et Pika Labs, qui a récemment fait l’objet d’un battage médiatique, le résultat du modèle de Tencent semble légèrement plus animé que les autres. Inévitablement, les échantillons choisis favorisent DynamiCrafter, et aucun des modèles, après mes premiers essais, ne laisse l’impression que l’IA sera bientôt capable de produire des films à part entière.

Néanmoins, les vidéos génératives sont considérées comme le prochain point focal de la course à l’IA, après l’essor des textes et des images génératifs. On peut donc s’attendre à ce que les startups et les entreprises de technologie injectent des ressources dans ce domaine. Ce n’est pas une exception en Chine. Outre Tencent, ByteDance, la société mère de TikTok, Baidu et Alibaba ont chacun publié leur modèle de diffusion vidéo.

MagicVideo de ByteDance et UniVG de Baidu ont tous deux publié des démonstrations sur GitHub, mais aucune ne semble encore accessible au public. Comme Tencent, Alibaba a rendu son modèle de génération vidéo VGen open source, une stratégie de plus en plus populaire parmi les entreprises technologiques chinoises qui espèrent atteindre la communauté mondiale des développeurs.

IA