Roll veut recréer des travellings et plus encore grâce à l’IA générative

Roll veut recréer des travellings et plus encore grâce à l’IA générative

Ceux qui connaissent Fazian Buzdar, qui était jusqu’à récemment vice-président de la gestion des produits chez Box, associent probablement l’entrepreneur à Convo, la plateforme d’espace de travail numérique populaire dans les salles de rédaction (dont celle-ci). Mais Fazian Buzdar, qui a une formation d’ingénieur en électronique, est depuis longtemps fasciné par la vidéo et les effets visuels.

« Passionné de vidéo et de photographie depuis toujours, je réalisais des vidéos par moi-même depuis des années, mais j’ai remarqué que la production vidéo était restée largement manuelle, avec peu d’innovations au cours des dernières décennies, en particulier pour les tâches fastidieuses comme le montage vidéo », m’a expliqué M. Buzdar par courrier électronique. « Pendant ce temps, j’ai remarqué que la technologie de l’appareil photo et du capteur de l’iPhone s’était améliorée par étapes au cours des dernières années, devenant presque équivalente à celle des reflex numériques en termes de qualité d’image. »

Alors qu’il travaillait chez Box, Faizan dit avoir décidé d’essayer de combiner la vidéo – un média de plus en plus populaire – avec les innovations en matière d’IA et d’apprentissage automatique pour tenter d’améliorer l’expérience de la capture et de l’édition vidéo. Faizan a fait appel à Adeel Abbasun ingénieur vidéo qui, lorsqu’il travaillait pour Twitter, a contribué à l’infrastructure qui alimente les fonctions de diffusion en direct du site, aux côtés de Saj Khan, Fahad Yaqub et son collègue de Box Michelle Oh pour explorer les frontières de la production vidéo accélérée par la technologie.

Roll est le résultat. Une nouvelle application pour iOS, qui offre bokeh, des plans multicam, des graphiques de mouvement et – ce qui m’intrigue le plus – des curseurs, des dollies et des jibs « simulés par l’IA ».

Rouleau

Crédits images : Rouleau

« Notre mission est de bouleverser le monde de la production vidéo de haute qualité et de devenir la nouvelle norme en matière de création de contenu vidéo », poursuit M. Buzdar. « La création de vidéos de qualité nécessite un investissement initial massif dans le matériel, l’équipement, l’apprentissage de l’utilisation de ce matériel, les logiciels de montage – nous nous débarrassons de tout cela.

A lire aussi  Amazon met l'IA conversationnelle à la portée des enfants avec le lancement de "Explore with Alexa" (Explorer avec Alexa)

Roll, qui s’adresse au marché des « prosommateurs » (influenceurs et podcasteurs, mais aussi entreprises créant leur propre matériel de marketing), se compose de deux produits : l’application Roll pour iPhone et l’application web. L’application iPhone capture et enregistre des vidéos, puis les télécharge automatiquement vers le nuage de Roll pour les stocker et les traiter. L’application web, quant à elle, permet à un ou plusieurs créateurs de contenu de prévisualiser, d’accéder, de partager, de télécharger et d’éditer les séquences.

Bien sûr, les applications vidéo sont légion. Qu’est-ce qui différencie Roll ? Tout d’abord, l’application est destinée à des cas d’utilisation que la plupart des applications de caméra n’ont pas, Buzdar dit – comme des interviews vidéo à distance, des podcasts vidéo et des témoignages de clients. Si Zoom, Microsoft Teams et Google Meet répondent dans une certaine mesure à ce besoin, M. Buzdar estime qu’ils ne sont pas conçus pour une production vidéo de « haute qualité ».

Roll utilise également un certain nombre d’effets en temps réel pour (soi-disant) offrir un plus grand choix de post-production que la plupart des applications de capture vidéo. Par exemple, Roll enregistre selon la norme HEVC, ce qui permet d’obtenir un débit deux fois plus élevé et une meilleure qualité d’image pour une taille de fichier identique. Et Roll peut enregistrer et traiter jusqu’à deux plans de caméra – un plan grand angle et un plan rapproché – en même temps, ce qui permet aux utilisateurs de créer des vidéos avec des perspectives réellement « multi-caméras ».

Rouleau

L’interface d’édition de Roll.

Certes, Multi-cam n’est pas particulièrement unique – Roll est loin d’être la première application à le proposer. Mais Buzdar affirme que la magie réside dans le post-traitement. Roll exploite l’IA générative pour recréer des pièces en 3D afin que les créateurs de contenu puissent déplacer une caméra virtuelle semblable à celle d’un jeu vidéo, en simulant des mouvements tels qu’un panoramique d’un côté à l’autre à l’aide d’un travelling ou d’une grue.

« Aujourd’hui, l’IA générative est trop souvent associée à la création de faux contenus à partir de rien. Buzdar. « C’est pas notre philosophie. Nous ne générons pas de faux pixels, de fausses personnes ou de fausses scènes. Nous utilisons l’IA générative uniquement comme un outil de productivité – nous voulons démocratiser l’accès à une production vidéo de meilleure qualité. »

A lire aussi  CES 2024 : La technologie, les gadgets et l'IA les plus étranges de Las Vegas

M. Buzdar a expliqué que l’IA de Roll a été entraînée à comprendre la profondeur 3D d’une scène, en utilisant des données pour mesurer la profondeur et les formes indépendamment de la personne assise dans la pièce. Roll a commencé à former ses algorithmes avec des ensembles de données open source couramment utilisés pour l’analyse comparative dans le monde universitaire, mais a ensuite enregistré en interne plus de 22 000 appels vidéo, créant ainsi sa propre base de données très riche

Les résultats ne sont pas si mauvais, du moins dans la vidéo de démonstration que nous avons pu visionner. Buzdar m’a montré. Certains panoramiques générés par l’IA de Roll frôlent la vallée de l’étrange, en raison d’une déformation non naturelle des objets en arrière-plan. lorsque la caméra virtuelle pivote. Mais dans les scènes courtes, les effets de l’IA sont suffisamment convaincants – et constituent un ajout accrocheur à ce qui serait autrement une interview à distance ennuyeuse.

« Nous avons fait pas mal de recherches dans ce domaine et nous n’avons vu personne utiliser l’IA de la même manière que nous le faisons – en associant les données des capteurs de l’iPhone à de grands modèles d’IA dans le nuage », a déclaré M. Buzdar. « Notre technologie offre des capacités fondamentales pour simuler tous les effets visuels souhaités par l’utilisateur.

Rouler

Appeler l’enregistrement avec Roll.

Tout semble un peu exagéré. Mais Roll a d’autres astuces algorithmiques plus réalistes dans son sac. Lorsque Roll enregistre une vidéo, il recueille des métadonnées qui seront utilisées ultérieurement dans le processus de production vidéo, notamment les conditions d’enregistrement et d’éclairage, la distance entre la caméra et le sujet et la position du visage et du corps de ce dernier. Ces métadonnées sont utilisées pour régler automatiquement les caméras et les capteurs du téléphone, ainsi que pour fournir des informations et des instructions sur la composition et l’éclairage.

A lire aussi  Google I/O 2023 aura lieu la semaine prochaine ; voici ce que nous attendons

À l’instar de quelques autres éditeurs vidéo mobiles « dotés d’IA » sur le marché, Roll exploite également les métadonnées pour créer une bobine multi-caméras entièrement réaliste dans son nuage d’édition – aucun montage manuel n’est nécessaire. (Les utilisateurs peuvent toujours modifier et ajuster les angles de caméra ou ajouter des mouvements de caméra et des effets visuels s’ils le souhaitent). Dans un avenir proche, Roll sera en mesure de publier directement sur les médias sociaux, notamment TikTok, YouTube et Instagram, dans la résolution et le format d’image appropriés.

« Aujourd’hui, la production vidéo nécessite de nombreuses pièces de matériel et de logiciels pour être entièrement achevée, » Buzdar. « À chaque étape, lorsque le fichier vidéo et audio passe d’un logiciel à l’autre, il perd son contexte et devient simplement un fichier « stupide » qui circule. Nous avons fondamentalement reconstruit l’ensemble de la chaîne de production vidéo à partir de zéro. En dépassant les frontières des logiciels traditionnels, nous avons appliqué l’IA pour offrir une expérience transformatrice de la capture à la publication qui intègre verticalement et automatise l’ensemble du flux de production vidéo à distance ».

Comment Roll compte-t-elle gagner de l’argent ? Jusqu’à présent, la société a levé des fonds auprès de sources traditionnelles de capital-risque – Buzdar n’a pas voulu dire où exactement. Mais en termes de génération de revenus, M. Buzdar espère que Roll se développera pour répondre aux besoins des entreprises – en particulier de leurs équipes internes de marketing et de vidéo, qui paieront une certaine forme de redevance pour les services de Roll.

« La production vidéo est prête à être bouleversée par le cloud ». Buzdar. « Les attributs tels que les fichiers de grande taille, le traitement complexe et le besoin d’éditions et de cycles de révision à plusieurs personnes en font le candidat idéal pour bénéficier des avantages exponentiels du cloud computing tels que le stockage évolutif, l’IA, le calcul, ainsi que le partage et la collaboration en temps réel. »

Il y a sûrement du vrai là-dedans. Quant à savoir si Roll sera le perturbateur, l’avenir nous le dira.

IA