Les outils de génération vocale d’ElevenLabs sortent de leur phase bêta

Les outils de génération vocale d’ElevenLabs sortent de leur phase bêta

ElevenLabs, la plateforme virale alimentée par l’IA pour la création de voix synthétiques, a lancé aujourd’hui sa plateforme en version bêta avec la prise en charge de plus de 30 langues.

Grâce à un nouveau modèle d’IA développé en interne, ElevenLabs affirme que ses outils sont désormais capables d’identifier automatiquement les langues, y compris le coréen, le néerlandais et le vietnamien, et de générer un discours « émotionnellement riche » dans ces langues.

En combinaison avec le nouveau modèle, les clients d’ElevenLabs peuvent utiliser l’outil de clonage vocal de la plateforme pour parler dans près de 30 langues sans avoir à taper de texte au préalable.

« ElevenLabs a été créée avec le rêve de rendre tout contenu universellement accessible dans n’importe quelle langue et avec n’importe quelle voix », a déclaré Mati Staniszewski, PDG et cofondateur d’ElevenLabs, dans un communiqué. « Avec cette version, nous nous rapprochons un peu plus de la réalisation de ce rêve et de la mise à disposition de voix d’IA de qualité humaine dans tous les dialectes. Nos outils de génération de synthèse vocale permettent d’uniformiser les règles du jeu et d’offrir des capacités audio vocales de qualité supérieure à tous les créateurs. »

Fondée par Staniszewski, qui travaillait auparavant chez Palantir, et son ami d’enfance Piotr Dabkowski, un ancien employé de Google, ElevenLabs a fait les gros titres au cours des derniers mois pour des raisons à la fois bonnes et détestables. Inspirés par la médiocrité des doublages des films américains que Staniszewski et Dabkowski regardaient dans leur enfance en Pologne, les deux hommes ont entrepris de concevoir une plateforme capable de faire mieux, en recourant bien sûr à l’IA.

ElevenLabs a été lancé en version bêta à la fin du mois de janvier et a rapidement pris de l’ampleur, grâce à la grande qualité des voix générées et à la gratuité généreuse. Mais comme nous l’avons déjà mentionné, la publicité n’a pas toujours été positive, en particulier lorsque des acteurs malveillants ont exploité la plateforme à leurs propres fins.

Le célèbre forum de discussion 4chan, connu pour son contenu conspirationniste, a utilisé les outils d’ElevenLabs pour partager des messages haineux imitant des célébrités telles que l’actrice Emma Watson. Ailleurs, James Vincent, de The Verge, a pu utiliser ElevenLabs pour cloner les voix de ses cibles en quelques secondes, générant des échantillons audio contenant tout, des menaces de violence aux expressions de racisme et de transphobie.

En réponse, ElevenLabs a déclaré qu’elle mettrait en place une série de nouvelles mesures de protection, comme la limitation du clonage de voix aux comptes payants et la mise à disposition d’un nouvel outil de détection de l’IA.

ElevenLabs n’a pas encore abordé l’autre controverse qui entoure sa plateforme et d’autres plateformes similaires : la menace qu’elles représentent pour l’industrie de l’interprétation vocale.

Motherboard explique que les acteurs vocaux sont de plus en plus souvent invités à céder les droits de leur voix afin que les clients puissent utiliser l’IA pour générer des versions synthétiques qui pourraient éventuellement les remplacer. Parallèlement, des courriels internes consultés par le New York Times indiquent qu’Activision Blizzard, l’un des plus grands éditeurs de jeux au monde, travaille sur des outils de « clonage de voix » assistés par l’IA.

Il semblerait qu’ElevenLabs considère qu’il s’agit là d’une évolution naturelle des choses, vantant son travail avec des éditeurs comme Storytel, des plateformes médiatiques comme TheSoul Publishing et MNTN pour les livres audio et le contenu radiophonique, et des éditeurs comme Embark Studios et Paradox Interactive pour les jeux vidéo (Storytel et TheSoul Publishing sont des investisseurs stratégiques). L’entreprise affirme qu’elle compte plus d’un million d’utilisateurs enregistrés dans les domaines de la création, du divertissement et de l’édition, qui ont créé des contenus audio d’une valeur de 10 ans.

ElevenLabs, qui a récemment levé 19 millions de dollars auprès d’investisseurs, dont Andreessen Horowitz et Mustafa Suleyman, cofondateur de DeepMind, à une valeur de 99 dollars, prévoit d’étendre ses modèles d’IA au doublage vocal, en suivant les traces de startups comme Papercup et Deepdub et en construisant ce qu’elle appelle « une fondation pour pouvoir transférer les émotions et l’intonation d’une langue à l’autre ».

En outre, ElevenLabs déclare prévoit d’introduire un mécanisme qui permettra aux utilisateurs de partager des voix sur la plateforme, bien que les détails restent flous.

IA