La plateforme de génération de voix ElevenLabs lève 19 millions de dollars et lance un outil de détection

La plateforme de génération de voix ElevenLabs lève 19 millions de dollars et lance un outil de détection

ElevenLabs, la plateforme virale de création de voix synthétiques alimentée par l’IA, a levé une nouvelle somme d’argent.

Aujourd’hui, la startup a annoncé la clôture d’un tour de table de série A de 19 millions de dollars codirigé par les entrepreneurs Nat Friedman et Daniel Gross aux côtés d’Andreessen Horowitz. Parmi les autres participants figurent les poids lourds Creator Ventures, SV Angel, le cofondateur d’Instagram Mike Krieger, le cofondateur d’Oculus Brendan Iribe, le cofondateur de Deepmind et d’Inflection AI Mustafa Suleyman et le fondateur d’O’Reilly Media Tim O’Reilly.

Une source familière avec le sujet a déclaré à TechCrunch que la tranche valorise ElevenLabs à 99 millions de dollars post-money – un chiffre respectable, surtout si l’on considère que la startup a été lancée il y a un peu plus d’un an.

« Le projet a été mis en œuvre par le ministère de l’Agriculture et de l’Agroalimentaire de la France. ElevenLabet de lancer une gamme de produits supplémentaires pour soutenir des marchés verticaux spécifiques tels que l’édition, les jeux, le divertissement et les applications conversationnelles », a déclaré Mati Staniszewski, cofondateur et PDG, à TechCrunch par courrier électronique.

ElevenLabs, qui a fait la une des journaux ces derniers mois pour des raisons à la fois bonnes et détestables, a été fondée par Staniszewski, qui travaillait auparavant chez Palantir, et son ami d’enfance Piotr Dabkowski, un ancien employé de Google. Inspirés par la médiocrité du doublage des films américains qu’ils regardaient dans leur enfance en Pologne, leur pays d’origine, les deux hommes ont entrepris de concevoir une plateforme capable de faire mieux, en tirant parti de l’IA, bien entendu.

ElevenLabs peut transformer le texte en parole en utilisant des voix synthétiques, des voix clonées ou des voix « artificielles » entièrement nouvelles qui imitent les sons de personnes de sexe, d’âge et d’origine ethnique différents. Les modèles de synthèse vocale de la société sont indépendants de la langue, ce qui permet aux entreprises clientes de les affiner et de créer leurs propres modèles vocaux.

Parallèlement à la levée de fonds de la série A, ElevenLabs, qui emploie 15 personnes, lance Projects, un flux de travail pour l’édition et la création de contenus parlés de longue durée. Avec Projects, les utilisateurs peuvent générer des segments de dialogue et même des livres audio sans avoir à quitter la plateforme.

« Pour les partenaires interentreprises, notre technologie peut être utilisée dans des domaines tels que la création de livres audio évolutifs et multilingues, l’interprétation vocale de personnages dans les jeux vidéo, l’interprétation vocale d’articles numériques, l’aide aux malvoyants pour accéder au contenu écrit en ligne et l’alimentation de la radio IA », a déclaré M. Staniszewski.

ElevenLabs, qui a été lancé en version bêta à la fin du mois de janvier, a rapidement pris de l’ampleur, grâce à la très grande qualité des voix générées, à la rapidité des temps de génération et à la généreuse offre gratuite. Mais comme nous l’avons déjà mentionné, la publicité n’a pas toujours été positive, en particulier lorsque de mauvais acteurs ont commencé à exploiter la plateforme à leurs propres fins.

ElevenLabs

ElevenLabs propose des outils pour cloner – ou générer à partir de zéro – des voix réalistes, en s’appuyant sur l’IA.

4chan, le célèbre forum de discussion connu pour son contenu conspirationniste, a utilisé l’outil d’ElevenLabs pour partager des messages haineux imitant des célébrités telles que l’actrice Emma Watson. Par ailleurs, James Vincent, de The.Verge, a pu utiliser ElevenLabs pour cloner les voix de ses cibles en quelques secondes, générant des échantillons audio contenant toutes sortes de choses, des menaces de violence aux expressions de racisme et de transphobie.

En réponse, ElevenLabs a déclaré qu’elle introduirait une série de nouvelles mesures de protection, comme la limitation du clonage de voix aux comptes payants, le bannissement des utilisateurs qui violent de manière répétée ses conditions d’utilisation et la mise à disposition d’un nouvel outil de détection de l’IA.

L’outil de détection est lancé aujourd’hui. Appelé AI Speech Classifier et disponible sous forme d’API pour des partenaires « sélectionnés », il est conçu pour détecter si un échantillon audio téléchargé contient du contenu généré par l’IA d’ElevenLabs.

« Garantir que les plateformes d’IA générative puissent être adoptées en toute sécurité est un défi majeur pour l’ensemble du secteur généré par l’IA, y compris les plateformes de texte, d’image et de voix », a déclaré M. Staniszewski. « Nous devons veiller à ce que les gens soient informés de la nature du paysage médiatique génératif et sachent que de tels contenus existent – nous nous engageons à créer des outils pour aider les gens à détecter les contenus générés par l’IA, dans l’intérêt de la transparence. »

Un outil de détection volontaire – à supposer qu’il fonctionne comme annoncé – ne dissuadera pas nécessairement les mauvais comportements. Mais il y a un autre éléphant dans la pièce qu’ElevenLabs n’a pas abordé : la menace existentielle que sa technologie pose aux acteurs vocaux.

Motherboard explique comment les acteurs vocaux sont de plus en plus souvent invités à céder les droits de leur voix afin que les clients puissent utiliser l’IA pour générer des versions synthétiques qui pourraient éventuellement les remplacer – parfois sans compensation supplémentaire. Des courriels internes consultés par le New York Times indiquent toutefois qu’Activision Blizzard, l’un des plus grands éditeurs de jeux au monde, travaille sur des outils de « clonage de voix » assistés par l’IA.

Il semblerait qu’ElevenLabs considère qu’il s’agit là d’une évolution naturelle des choses, vantant son travail avec des éditeurs tels que Storytel et des plateformes médiatiques telles que TheSoul Publishing et MNTN pour les livres audio, les jeux vidéo et le contenu radiophonique. (Storytel et TheSoul Publishing sont des investisseurs stratégiques.) La société affirme qu’elle compte plus d’un million d’utilisateurs enregistrés dans les domaines de la création, du divertissement et de l’édition, qui ont créé du contenu audio sur une période de dix ans.

ElevenLabs prévoit d’étendre ses modèles d’IA au doublage vocal, suivant les traces de startups comme Papercup et Deepdub et construisant ce qu’elle appelle « une fondation pour pouvoir transférer les émotions et l’intonation d’une langue à l’autre ».

« Cela permettra de doubler n’importe quelle vidéo dans n’importe quelle langue de manière attrayante, efficace et évolutive, tout en conservant la voix du locuteur d’origine », écrit ElevenLabs dans un communiqué de presse. « Nous menons déjà un certain nombre de tests avec des partenaires de l’industrie pour permettre le doublage par l’IA à grande échelle.

Avec 21 millions de dollars en banque (dont 2 millions proviennent d’un tour de table de pré-amorçage en janvier), ElevenLabs – quelles que soient les conséquences – se concentre sur la lutte contre ses rivaux dans le domaine en plein essor de la voix générative. Il s’agit d’entreprises historiques comme Amazon, Google et Microsoft, ainsi que de startups comme Murf, Tavus, Resemble AI, Respeecher, Play.ht et Lovo.

IA