Twelve Labs construit des modèles capables de comprendre les vidéos en profondeur

Twelve Labs construit des modèles capables de comprendre les vidéos en profondeur

L’IA génératrice de texte est une chose. Mais les modèles d’IA qui comprennent aussi bien les images que le texte peuvent débloquer de nouvelles applications puissantes.

Prenons l’exemple de Twelve Labs. Cette startup basée à San Francisco forme des modèles d’IA pour, comme le dit son cofondateur et PDG Jae Lee, « résoudre des problèmes complexes d’alignement vidéo-langage ».

« Twelve Labs a été fondée … afin de créer une infrastructure pour la compréhension multimodale des vidéos, avec comme premier objectif la recherche sémantique – ou « CTRL+F pour les vidéos ». » a déclaré Lee à TechCrunch lors d’un entretien par courriel. « Le de Twelve Labs est d’aider les développeurs à créer des programmes capables de voir, d’écouter et de comprendre le monde comme nous le faisons. »

Les modèles de Twelve Labs tentent d’associer le langage naturel à ce qui se passe dans une vidéo, y compris les actions, les objets et les bruits de fond, ce qui permet aux développeurs de créer des applications capables d’effectuer des recherches dans les vidéos, de classer les scènes et d’extraire des sujets de ces vidéos, de résumer et de diviser automatiquement les clips vidéo en chapitres, et bien d’autres choses encore.

Selon M. Lee, la technologie de Twelve Labs peut servir à l’insertion de publicités et à la modération de contenu, par exemple en déterminant quelles vidéos montrant des couteaux sont violentes ou instructives. Elle peut également être utilisée pour l’analyse des médias, ajoute M. Lee, et pour générer automatiquement, à partir de vidéos, des  » highlight reels « , c’est-à-dire des titres et des tags pour des articles de blog.

J’ai interrogé M. Lee sur le risque de biais dans ces modèles, étant donné qu’il est bien établi que les modèles amplifient les biais dans les données sur lesquelles ils sont entraînés. Par exemple, l’entraînement d’un modèle de compréhension vidéo sur des séquences d’informations locales – qui consacrent souvent beaucoup de temps à la couverture de la criminalité dans une région donnée. de manière sensationnelle et racialisée – pourrait pourrait amener le modèle à apprendre des schémas racistes et sexistes.

M. Lee indique que Twelve Labs s’efforce de respecter les paramètres internes de partialité et d' »équité » de ses modèles avant de les diffuser, et que l’entreprise prévoit de publier à l’avenir des critères de référence et des ensembles de données liés à l’éthique des modèles. Mais il n’avait rien d’autre à partager.

Maquette de l’API permettant d’affiner le modèle afin qu’il fonctionne mieux avec les contenus liés à la salade.

« En ce qui concerne la différence entre notre produit et les grands modèles de langage (comme ChatGPT), le nôtre est spécifiquement formé et construit pour traiter et comprendre les vidéos, en intégrant de manière holistique les composantes visuelles, audio et vocales dans les vidéos », a déclaré M. Lee. « Nous avons vraiment repoussé les limites techniques de ce qui est possible en matière de compréhension vidéo.

Google développe un modèle multimodal similaire pour la compréhension des vidéos, appelé MUM, que l’entreprise utilise pour alimenter les recommandations vidéo dans Google Search et YouTube. Au-delà de MUM, Google, ainsi que Microsoft et Amazon, proposent au niveau de l’API des services alimentés par l’IA qui reconnaissent les objets, les lieux et les actions dans les vidéos et extraient de riches métadonnées au niveau de l’image.

Mais M. Lee affirme que Twelve Labs se différencie à la fois par la qualité de ses modèles et par les fonctions de réglage fin de la plateforme, qui permettent aux clients d’automatiser les modèles de la plateforme avec leurs propres données pour une analyse vidéo « spécifique à un domaine ».

En ce qui concerne les modèles, Twelve Labs dévoile aujourd’hui Pegasus-1, un nouveau modèle multimodal qui comprend une série d’invites liées à l’analyse de vidéos entières. Par exemple, Pegasus-1 peut être invité à générer un long rapport descriptif sur une vidéo ou seulement quelques moments forts avec des horodatages.

« Cependant, les capacités limitées et simplistes des modèles d’IA vidéo conventionnels sont souvent insuffisantes pour répondre à la compréhension complexe requise pour la plupart des cas d’utilisation professionnels », a déclaré M. Lee. « En s’appuyant sur de puissants modèles de base de compréhension multimodale de la vidéo, les entreprises peuvent atteindre une compréhension de la vidéo de niveau humain sans analyse manuelle.

Depuis le lancement de la version bêta privée début mai, la base d’utilisateurs de Twelve Labs s’est élargie à 17 000 développeurs, selon M. Lee. La société travaille actuellement avec un certain nombre d’entreprises – le nombre n’est pas clair, Lee n’a pas voulu le dire – dans des secteurs tels que le sport, les médias et le divertissement, l’apprentissage en ligne et la sécurité, y compris la NFL.

Twelve Labs continue également à lever des fonds, ce qui est un élément important de toute entreprise en phase de démarrage. Aujourd’hui, la société a annoncé la clôture d’un cycle de financement stratégique de 10 millions de dollars auprès de Nvidia, Intel et Samsung Next, ce qui porte le total des fonds levés à 27 millions de dollars.

« Ce nouvel investissement concerne des partenaires stratégiques qui peuvent accélérer notre entreprise en matière de recherche (calcul), de produits et de distribution », a déclaré M. Lee. « C’est du carburant pour l’innovation continue, basée sur la recherche de notre laboratoire, dans le domaine de la compréhension vidéo afin que nous puissions continuer à apporter les modèles les plus puissants aux clients, quels que soient leurs cas d’utilisation… Nous faisons avancer l’industrie de manière à libérer les entreprises pour qu’elles fassent des choses incroyables.

IA