Dumme, soutenu par YC, lève 3,4 millions de dollars pour son éditeur vidéo IA qui transforme les vidéos YouTube de longue durée en courts métrages.

Dumme, soutenu par YC, lève 3,4 millions de dollars pour son éditeur vidéo IA qui transforme les vidéos YouTube de longue durée en courts métrages.

Dumme, une startup qui met l’IA au service de l’édition vidéo, génère déjà de la demande avant même d’être ouverte au public. La société soutenue par Y Combinator a des centaines de créateurs de vidéos qui testent son produit, qui utilise l’IA pour créer des vidéos de courte durée à partir du contenu de YouTube, et une liste d’attente de plus de 20 000 personnes avant le lancement. En utilisant une combinaison de modèles propriétaires et de modèles d’IA existants, Dumme promet non seulement d’économiser du temps d’édition, mais aussi – et c’est là son principal argument – de faire un meilleur travail que la main-d’œuvre (humaine) sous contrat qui est souvent chargée de tâches d’édition vidéo plus subalternes, comme la réduction de contenu long format pour la publication sur des plateformes de format court comme YouTube Shorts, TikTok ou Instagram Reels.

Fondée en janvier 2022 et participant au programme Winter 2022 de l’accélérateur de startups Y Combinator, Merwane Drai, cofondateur et PDG de Dumme, a déclaré qu’il se concentrait à l’origine sur la construction d’un moteur de recherche pour la vidéo. Mais il y a environ six mois, l’équipe a réalisé qu’un meilleur produit pourrait être de réutiliser les modèles d’IA qu’elle développait pour éditer des clips vidéo.

Rejoint par les cofondateurs Will Dahlstrom (CPO) et Jordan Brannan (CTO), qui ont tous une formation en IA, M. Drai a réalisé que Dumme avait peut-être trouvé la bonne adéquation produit-marché après que leur application est devenue virale, faisant tomber leurs serveurs.

« Nous ne nous attendions pas vraiment à ce que l’application ait beaucoup de succès, alors nous l’avons simplement mise en ligne », explique Drai. « Ce qui s’est passé ensuite, c’est que du jour au lendemain, nous nous sommes réveillés avec des serveurs surchargés – comme si rien ne fonctionnait. Nous avons donc tout démonté et mis en place une sorte de liste d’attente », poursuit-il. « Le lendemain matin, nous nous sommes probablement réveillés avec 5 000 personnes à l’intérieur, ce qui était intéressant.

L’équipe a ensuite découvert qu’un créateur de TikTok avait publié une courte vidéo sur le produit, ce qui a provoqué un afflux de trafic sur leur site.

« En fait, cela ne s’est jamais calmé », note Drai.

Le produit, qui se prononce « dummy », a séduit les créateurs parce qu’il visait à simplifier et à accélérer le travail d’édition vidéo.

Crédits image : Dumme

L’utilisation de Dumme est aussi simple que son nom l’indique. Pour commencer, l’utilisateur colle le lien d’une vidéo YouTube, puis clique sur « générer » et l’IA produira un certain nombre de courtes vidéos présentant les points forts du contenu ingéré. L’entreprise explique qu’elle utilise YouTube comme source, au lieu de prendre en charge des séquences vidéo brutes, afin d’externaliser la modération du contenu – autrement dit, si c’est autorisé sur YouTube, c’est autorisé dans Dumme.

Le temps de traitement et le nombre de clips résultants dépendront de la longueur de la vidéo originale.

À titre d’exemple, le traitement d’un podcast vidéo d’une heure peut prendre environ 20 minutes et vous commencerez à recevoir des clips au bout de cinq minutes environ, explique M. Drai. Une fois le processus terminé, les créateurs peuvent télécharger les clips vidéo, qui durent moins de 60 secondes par défaut, et les transférer sur n’importe quelle plateforme prenant en charge les contenus courts, comme YouTube Shorts, mais aussi d’autres plateformes, comme Reels ou TikTok.

Crédits images : Dumme

La manière dont tout cela fonctionne en arrière-plan est bien sûr beaucoup plus complexe. La société explique que, dans un premier temps, Dumme apprend tout ce qu’il peut de la vidéo source par le biais des métadonnées. Il transcrit ensuite la vidéo et tente de comprendre la sémantique de ce qui est dit, tout en examinant les images pour essayer de décoder les émotions de la personne qui parle. Ces résultats sont corrélés et transmis à un modèle de langage qui tente de déterminer quelles parties de la vidéo méritent d’être coupées. Ce modèle est ensuite transmis à un autre modèle qui suit les locuteurs actifs et gère le recadrage.

Dumme explique qu’il travaille avec des modèles d’IA existants tels que GPT-4, une version affinée de Whisper, et d’autres qu’il a construits en interne – comme le modèle qui suit les locuteurs actifs dans une image vidéo. L’un de ses modèles est également entraîné sur un ensemble de courts métrages YouTube afin d’apprendre ce qui constitue une bonne accroche pour attirer les téléspectateurs. Enfin, bien qu’elle ne soit pas encore opérationnelle, l’équipe expérimente également un modèle open source, LaViLa de Facebook Research, afin de mieux comprendre le contexte de la vidéo.

Le travail d’IA est effectué sur le fournisseur de GPU Cloud CoreWeave, et non sur AWS, car c’est plus abordable, nous dit la société.

Dumme s’appuie sur l’IA qui traite les mots prononcés, la technologie n’est donc pas appropriée pour les longues vidéos de gameplay ou d’autres vidéos où les gens ne parlent pas. Drai explique que la startup cible initialement les créateurs de YouTube, les podcasteurs et les agences – ces dernières étant, selon eux, les mieux placées pour monétiser le produit.

Crédits image : Dumme

Les agences, explique Drai, externalisent souvent aujourd’hui ce type de travail, avec des résultats aléatoires.

« Elles se contentent de payer des sous-traitants dans des pays bon marché pour qu’ils éditent leur propre contenu. Le problème, c’est que cela reste assez coûteux et que cela prend beaucoup de temps – des semaines, pas des minutes », ajoute-t-il.

Lorsqu’on lui demande ce qu’il pense de la création d’une technologie qui mettrait des gens au chômage, M. Drai n’est pas inquiet.

« Je pense que c’est comme si on me disait que les professeurs de mathématiques allaient être mis au chômage parce qu’il y a quelque chose qui s’appelle une calculatrice… », explique-t-il. « Les gens vont s’adapter. Et il y aura toujours quelqu’un pour vous enseigner ce qu’est une calculatrice, n’est-ce pas ? Je pense donc qu’il s’agit simplement de s’adapter à la situation », conclut M. Drai.

Actuellement, la tarification envisagée comprend des paliers où une entreprise paierait 0,40 dollar par minute de vidéo traitée, tandis que les créateurs plus modestes pourraient opter pour un abonnement mensuel plafonné à 10 heures de contenu par mois (ces chiffres pourraient changer). (Ces chiffres sont susceptibles d’évoluer.) Lors des tests, l’utilisation du produit a été gratuite.

Les premiers utilisateurs ont utilisé Dumme pour divers montages, notamment pour générer des clips à partir de leurs podcasts vidéo afin de les publier sur Shorts, ainsi que pour couper d’autres nouvelles vidéos et parcourir leur catalogue.

Le produit semble être compétitif par rapport à d’autres technologies d’IA sur le marché, notamment celle de la société créatrice Jellysmack, qui utilise l’IA pour transformer des vidéos YouTube plus longues en vidéos plus courtes, en les coupant, en les redimensionnant et en les optimisant pour des plates-formes spécifiques – résultat de l’acquisition de Kamua en 2021. D’autres outils font un travail similaire, comme Opus Clip, Vidyo.ai, Detail, TubeBuddy, Wisecut et d’autres. Le succès ou l’échec de Dumme dépendra de sa capacité à surpasser ses concurrents en termes de qualité du travail et de coût – des paramètres qui restent à déterminer.

Mais certains investisseurs misent sur Dumme. Avant son lancement, la startup a levé 3,4 millions de dollars auprès de Y Combinator, Caffeinated Capital, Max et Nellie Levchin (à travers SciFi VC), Suhail Doshi, Nico Chinot, Protocol Labs, Chris Puscasiu, et d’autres investisseurs providentiels.

Compte tenu de l’intérêt suscité et de la liste d’attente considérable, Dumme dit qu’il vise à embarquer environ 500 personnes par semaine. Les lecteurs de TechCrunch peuvent faire la queue en utilisant le code d’invitation TECHCRUNCH jusqu’à ce que les créneaux soient épuisés.

IA