La start-up ElevenLabs, spécialisée dans le clonage vocal, obtient 80 millions de dollars et accède au statut de licorne

La start-up ElevenLabs, spécialisée dans le clonage vocal, obtient 80 millions de dollars et accède au statut de licorne

Le clonage vocal est très lucratif.

En voici un exemple : ElevenLabs, une startup qui développe des outils alimentés par l’IA pour créer et éditer des voix synthétiques, a annoncé aujourd’hui la clôture d’un tour de table de série B de 80 millions de dollars, co-dirigé par d’éminents investisseurs, dont Andreessen Horowitz, l’ancien PDG de GitHub, Nat Friedman, et l’entrepreneur Daniel Gross.

Ce tour de table, auquel ont également participé Sequoia Capital, Smash Capital, SV Angel, BroadLight Capital et Credo Ventures, porte le total des fonds levés par ElevenLabs à 101 millions de dollars et valorise l’entreprise à plus d’un milliard de dollars (contre environ 100 millions de dollars en juin dernier). Le PDG Mati Staniszewski explique que les nouveaux fonds seront consacrés au développement de produits, à l’expansion de l’infrastructure et de l’équipe d’ElevenLabs, à la recherche sur l’IA et à « l’amélioration des mesures de sécurité pour garantir un développement responsable et éthique de la technologie de l’IA ».

« Nous avons levé cet argent pour consolider la position d’ElevenLabs en tant que leader mondial de la recherche en IA vocale et du déploiement de produits », a déclaré Staniszewski à TechCrunch lors d’une interview par e-mail.

Cofondée en 2022 par Piotr Dabkowski, un ancien ingénieur en apprentissage machine de Google, et Staniszewski, un ancien stratège en déploiement de Palantir, ElevenLabs a été lancée en version bêta il y a environ un an. Staniszewski raconte que lui et Dabkowski, qui ont grandi en Pologne, ont été inspirés pour créer des outils de clonage de voix par des films américains mal doublés. L’IA pourrait faire mieux, ont-ils pensé.

Aujourd’hui, ElevenLabs est peut-être mieux connue pour son application de génération de voix basée sur un navigateur qui permet de créer des voix réalistes avec des boutons réglables pour l’intonation, l’émotion, la cadence et d’autres caractéristiques vocales clés. Gratuitement, les utilisateurs peuvent saisir un texte et obtenir un enregistrement de ce texte lu à haute voix par l’une des voix par défaut. Les clients payants peuvent télécharger des échantillons de voix pour créer de nouveaux styles grâce au clonage de voix d’ElevenLabs.

ElevenLabs investit de plus en plus dans des versions de sa technologie de génération de la parole destinées à la création de livres audio et au doublage de films et d’émissions de télévision, ainsi qu’à la création de voix de personnages pour des jeux et des actions de marketing.

L’année dernière, la société a lancé un outil de synthèse vocale qui tente de préserver la voix, la prosodie et l’intonation d’un locuteur tout en supprimant automatiquement les bruits de fond et, dans le cas des films et des émissions de télévision, de traduire et de synchroniser la parole avec le matériel source. La feuille de route pour les semaines à venir prévoit un nouveau flux de travail pour le studio de doublage avec des outils pour générer et éditer des transcriptions et des traductions, ainsi qu’une application mobile sur abonnement pour la narration de pages web et de textes à l’aide des voix d’ElevenLabs.

Les innovations d’ElevenLabs ont permis à la startup de gagner des clients chez Paradox Interactive, le développeur de jeux dont les projets récents comprennent Cities : Skylines 2 et Stellaris, et le Washington Post, parmi d’autres sociétés d’édition, de médias et de divertissement. Staniszewski affirme que les utilisateurs d’ElevenLab ont généré l’équivalent de plus de 100 ans d’audio et que la plateforme est utilisée par les employés de 41% des entreprises du Fortune 500.

Mais la publicité n’a pas été totalement positive.

Le célèbre forum 4chan, connu pour son contenu conspirationniste, a utilisé les outils d’ElevenLabs pour partager des messages haineux imitant des célébrités telles que l’actrice Emma Watson. James Vincent, de The Verge, a pu utiliser ElevenLabs pour cloner malicieusement des voix en quelques secondes, générant des échantillons contenant tout, des menaces de violence aux remarques racistes et transphobes. Et sur Vox, le journaliste Joseph Cox a documenté la création d’un clone suffisamment convaincant pour tromper le système d’authentification d’une banque.

En réponse, ElevenLabs a tenté d’éliminer les utilisateurs qui violaient de manière répétée ses conditions d’utilisation, qui interdisent les abus, et a mis en place un outil permettant de détecter les discours créés par sa plateforme. Cette année, ElevenLabs prévoit d’améliorer l’outil de détection afin de signaler les données audio provenant d’autres modèles d’IA générateurs de voix et de s’associer à des « acteurs de la distribution » non nommés pour rendre l’outil disponible sur des plates-formes tierces, selon M. Staniszewski.

ElevenLabs

ElevenLabs propose un éventail de voix différentes, certaines synthétiques, d’autres clonées à partir de voix d’acteurs.

ElevenLabs a également fait l’objet de critiques de la part d’acteurs vocaux qui affirment que la société utilise des échantillons de leurs voix sans leur consentement – échantillons qui pourraient être utilisés pour promouvoir des contenus qu’ils n’approuvent pas ou pour diffuser des informations erronées ou désinformantes. Dans un récent article de Vice, des victimes racontent comment ElevenLabs a été utilisée dans des campagnes de harcèlement à leur encontre, par exemple pour partager des informations privées sur un acteur – son adresse personnelle – à l’aide d’une voix clonée.

Et puis il y a l’éléphant dans la pièce : la menace existentielle que des plateformes comme ElevenLabs font peser sur l’industrie de l’interprétation vocale.

Motherboard explique qu’il est de plus en plus souvent demandé aux acteurs de céder les droits de leur voix afin que les clients puissent utiliser l’IA pour générer des versions synthétiques qui pourraient éventuellement les remplacer – parfois sans compensation proportionnelle. La crainte est que le travail vocal – en particulier le travail bon marché et de débutant – finisse par être remplacé par des voix générées par l’IA et que les acteurs n’aient aucun recours.

Certaines plateformes tentent de trouver un équilibre. Au début du mois, Replica Studios, un concurrent d’ElevenLabs, a signé un accord avec SAG-AFTRA pour créer des répliques numériques des voix des membres du syndicat des artistes des médias et en concéder la licence. Dans un communiqué de presse, les organisations ont déclaré que l’accord établissait des conditions « équitables » et « éthiques » pour garantir le consentement des artistes-interprètes – et des conditions de négociation pour l’utilisation de doubles de voix numériques dans de nouvelles œuvres.

Cependant, cela n’a pas plu à certains acteurs vocaux, y compris aux membres de la SAG-AFTRA.

La solution proposée par ElevenLabs est une place de marché pour les voix. Actuellement en phase alpha et devant devenir plus largement disponible dans les prochaines semaines, la place de marché permet aux utilisateurs de créer une voix, de la vérifier et de la partager. Lorsque d’autres personnes utilisent une voix, les créateurs originaux reçoivent une compensation, explique M. Staniszewski.

« Les utilisateurs gardent toujours le contrôle sur la disponibilité de leur voix et sur les conditions de rémunération », ajoute-t-il. « La place de marché est conçue comme une étape vers l’harmonisation des progrès de l’IA avec les pratiques établies de l’industrie, tout en apportant un ensemble diversifié de voix à la plateforme ElevenLabs. »

Les acteurs vocaux pourraient cependant s’opposer au fait qu’ElevenLabs ne paie pas en espèces, du moins pas pour le moment. Dans la configuration actuelle, les créateurs reçoivent des crédits pour les services premium d’ElevenLabs (ce que certains trouvent ironique, je le parierais).

Peut-être cela changera-t-il à l’avenir, car ElevenLabs – qui figure aujourd’hui parmi les start-ups de voix synthétique les mieux financées – tente de battre la concurrence de jeunes pousses comme Papercup, Deepdub, ElevenLabs, Acapela, Respeecher et Voice.ai, ainsi que les grands noms de la technologie tels qu’Amazon, Microsoft et Google. Quoi qu’il en soit, ElevenLabs, qui prévoit de faire passer ses effectifs de 40 à 100 personnes d’ici la fin de l’année, a l’intention de rester sur le marché de la voix synthétique, qui connaît une croissance rapide, et d’y faire des vagues.

IA