Stability AI, en quête de succès, lance un générateur de musique alimenté par l’IA

Stability AI, en quête de succès, lance un générateur de musique alimenté par l’IA

Il y a un an, Stability AI, la startup londonienne à l’origine du modèle d’IA génératrice d’images open source Stable Diffusion, a discrètement lancé Dance Diffusion, un modèle capable de générer des chansons et des effets sonores à partir d’une description textuelle des chansons et des effets sonores en question.

Dance Diffusion était la première incursion de Stability AI dans le domaine de l’audio génératif, et elle témoignait d’un investissement significatif – et d’un intérêt marqué, semble-t-il – de la part de l’entreprise dans le domaine naissant des outils de création musicale par l’IA. Mais pendant près d’un an après l’annonce de Dance Diffusion, tout semblait calme sur le front de l’audio génératif – du moins en ce qui concerne les efforts de Stability.

L’organisme de recherche financé par Stability pour créer le modèle, Harmonai, a cessé de mettre à jour Dance Diffusion dans le courant de l’année dernière. (Historiquement, Stability a fourni des ressources et des calculs à des groupes extérieurs plutôt que de construire des modèles entièrement en interne). Dance Diffusion n’a jamais bénéficié d’une version plus aboutie ; même aujourd’hui, pour l’installer, il faut travailler directement avec le code source, car il n’y a pas d’interface utilisateur à proprement parler.

Aujourd’hui, sous la pression des investisseurs, Stability s’engage à transformer plus de 100 millions de dollars de capital en produits générateurs de revenus.

Aujourd’hui est lancé Stable Audio, un outil qui, selon Stability, est le premier capable de créer de la musique de « haute qualité » à 44,1 kHz pour un usage commercial, grâce à une technique appelée diffusion latente. Formé aux métadonnées audio ainsi qu’aux durées des fichiers audio – et aux heures de début – Stability affirme que le modèle sous-jacent d’Audio Diffusion, d’environ 1,2 milliard de paramètres, permet un meilleur contrôle du contenu et de la durée de l’audio synthétisé que les outils de musique générative commercialisés avant lui.

« Stabilité AI a pour mission de libérer le potentiel de l’humanité en construisant des modèles d’IA fondamentaux pour un certain nombre de types de contenu ou de « modalités » », a déclaré Ed Newton-Rex, vice-président de l’audio pour Stability AI, à TechCrunch lors d’une interview par courrier électronique. « Nous avons commencé par Stable Diffusion et se sont développées pour inclure les langues, le code et maintenant la musique. Nous pensons que l’avenir de l’IA générative est la multimodalité ».

Stable Audio n’a pas été développé par Harmonai – ou plutôt, il n’a pas été développé par Harmonai seul. L’équipe audio de Stability, officialisée en avril, a créé un nouveau modèle inspiré de Dance Diffusion pour étayer Stable Audio, qu’Harmonai a ensuite entraîné.

Harmonai est désormais le bras armé de Stability pour la recherche musicale en IA, me dit Newton-Rex, qui a rejoint Stability l’année dernière après avoir travaillé chez TikTok et Snap.

« Dance Diffusion génère des morceaux courts et aléatoires. audio clips from a limited son et l’utilisateur devait lui-même affiner le modèle s’il voulait avoir un quelconque contrôle. Stable Audio peut générer plus longtemps audioet l’utilisateur peut guider la génération à l’aide d’une invite textuelle et en définissant la durée souhaitée », explique Newton-Rex. Certains messages fonctionnent à merveille, comme l’EDM et la musique plus rythmée, ainsi que la musique d’ambiance, tandis que d’autres génèrent des sons un peu plus « extérieurs », comme la musique plus mélodique, la musique classique et le jazz.

Stability a refusé nos demandes répétées d’essayer Stable Audio avant son lancement. Pour l’instant, et peut-être pour toujours, Stable Audio ne peut être utilisé que par le biais d’une application web, qui n’était pas encore en ligne ce matin. Dans une démarche qui ne manquera pas d’irriter les partisans de sa mission de recherche ouverte, Stability n’a pas annoncé son intention de publier en open source le modèle qui sous-tend Stable Audio.

Mais Stability était a accepté d’envoyer des échantillons montrant ce que le modèle peut accomplir dans une gamme de genres, principalement EDM, à l’aide de brèves instructions.

Bien qu’ils puissent très bien avoir été choisis, les échantillons sonnent – du moins aux oreilles de ce journaliste – plus cohérents, mélodiques et, faute d’un meilleur mot, plus faciles à comprendre. musical que de nombreuses « chansons » issues des modèles de génération audio publiés jusqu’à présent. (Voir AudioGen et MusicGen de Meta, Riffusion, Jukebox d’OpenAI, MusicLM de Google, etc.) Sont-ils parfaits ? Certainement pas – ils manquent notamment de créativité. Mais si j’entendais le morceau techno ambiant ci-dessous dans le hall d’un hôtel, je ne penserais probablement pas que l’IA en est l’auteur.


Comme pour les outils génératifs d’image, de parole et de vidéo, pour obtenir le meilleur résultat possible avec Stable Audio, il faut concevoir une invite qui capture les nuances de la chanson que vous essayez de générer – y compris le genre et le tempo, les instruments les plus importants et même les sentiments ou les émotions que la chanson évoque.

Pour la piste techno, Stability me dit qu’ils ont utilisé l’invite « Ambient Techno, meditation, Scandinavian Forest, 808 drum machine, 808 kick, claps, shaker, synthétiseur, synth bass, Synth Drones, beautiful, peaceful, Ethereal, Natural, 122 BPM, Instrumental » ; pour la piste en dessous, « ….Trance, Ibiza, Beach, Sun, 4 AM, Progressive, Synthesizer, 909, Dramatic Chords, Choir, Euphoric, Nostalgic, Dynamic, Flowing. »

Et cet échantillon a été généré avec « Disco, Driving, Drum, Machine, Synthesizer, Bass, Piano, Guitars, Instrumental, Clubby, Euphoric, Chicago, New York, 115 BPM » :

À titre de comparaison, j’ai exécuté l’invite ci-dessus sur MusicLM via l’application AI Test Kitchen de Google sur le web. Le résultat n’était pas forcément mauvais. Mais MusicLM a interprété l’invite d’une manière manifestement répétitive et réductrice :

L’un des aspects les plus frappants des chansons produites par Stable Audio est la longueur jusqu’à laquelle elles sont cohérentes – environ 90 secondes. D’autres modèles d’IA génèrent de longues chansons. Mais souvent, au-delà d’une courte durée – quelques secondes au maximum – elles se transforment en bruits aléatoires et discordants.

Le secret réside dans la diffusion latente susmentionnée, une technique similaire à celle utilisée par Stable Diffusion pour générer des images. Le modèle qui alimente Stable Audio apprend à soustraire progressivement le bruit d’une chanson de départ presque entièrement composée de bruit, en la rapprochant – lentement mais sûrement, pas à pas – de la description du texte.

Stable Audio n’est pas seulement capable de générer des chansons. L’outil peut reproduire le son d’une voiture qui passe ou d’un solo de batterie.

Voici la voiture :

Et le solo de batterie :

Stable Audio est loin d’être le premier modèle à tirer parti de la diffusion latente pour générer de la musique, il convient de le souligner. Mais c’est l’un des plus aboutis en termes de musicalité et de fidélité.

Pour entraîner Stable Audio, Stability AI s’est associé à la bibliothèque musicale commerciale AudioSparx, qui a fourni une collection de chansons – environ 800 000 au total – provenant de son catalogue d’artistes largement indépendants. Selon Newton-Rex, des mesures ont été prises pour filtrer les pistes vocales, probablement en raison des problèmes potentiels d’éthique et de droits d’auteur liés aux voix « deepfaked ».

Il est assez surprenant de constater que Stability ne filtre pas les messages qui pourraient l’amener dans le collimateur de la justice. Alors que des outils comme MusicLM de Google affichent un message d’erreur si vous tapez quelque chose comme « dans la lignée de Barry Manilow », Stable Audio ne le fait pas – du moins pas pour l’instant.

Lorsqu’on lui demande si Stable Audio pourrait être utilisé pour générer des chansons dans le style d’artistes populaires comme Harry Styles ou The Eagles, Newton-Rex répond que l’outil est limité par la musique contenue dans ses données d’apprentissage, qui n’inclut pas la musique des grandes maisons de disques. C’est peut-être vrai. Mais une recherche rapide dans la bibliothèque d’AudioSparx permet de trouver des milliers de chansons qui sont elles-mêmes « dans le style » d’artistes comme les Beatles, AC/DC et ainsi de suite, ce qui me semble être une faille.

« Stable Audio est conçu principalement pour générer de la musique instrumentale, de sorte que la désinformation et les deepfakes vocaux ne sont pas susceptibles de poser problème », a déclaré Newton-Rex. « En général, cependant, nous travaillons activement à la lutte contre les risques émergents en matière d’IA en mettant en œuvre des normes d’authenticité du contenu et des filigranes dans nos modèles d’imagerie afin que les utilisateurs et les plateformes puissent identifier le contenu assisté par l’IA généré par nos services hébergés … Nous prévoyons de mettre en œuvre un étiquetage de cette nature dans nos modèles d’imagerie et de filigrane. audio aussi des modèles ».

De plus en plus, les morceaux faits maison qui utilisent l’IA générative pour évoquer des sons familiers pouvant être considérés comme authentiques, ou du moins assez proches, sont devenus viraux. Le mois dernier, une communauté Discord dédiée à l’audio génératif a publié un album entier en utilisant une copie générée par l’IA de la voix de Travis Scott, s’attirant ainsi les foudres du label qui le représente.

Les labels musicaux se sont empressés de signaler les morceaux générés par l’IA à des partenaires de diffusion en continu comme Spotify et SoundCloud, en invoquant des problèmes de propriété intellectuelle – et ils ont généralement eu gain de cause. Mais il n’est toujours pas clair si la musique « deepfake » viole les droits d’auteur des artistes, des labels et des autres détenteurs de droits.

Un juge fédéral a décidé le mois dernier que l’art généré par l’IA ne pouvait être protégé par le droit d’auteur. Mais l’Office américain du droit d’auteur n’a pas encore pris de position ferme et n’a commencé que récemment à solliciter l’avis du public sur les questions de droit d’auteur liées à l’IA.

Stability considère que les utilisateurs de Stable Audio peuvent monétiser leurs œuvres – mais pas nécessairement les protéger par des droits d’auteur – ce qui est un pas en avant par rapport à ce qu’ont proposé d’autres fournisseurs d’IA générative. La semaine dernière, Microsoft a annoncé qu’elle étendrait l’indemnisation pour protéger les clients commerciaux de ses outils d’IA lorsqu’ils sont poursuivis pour violation du droit d’auteur sur la base des résultats de ces outils.

Les clients de Stability AI qui paient 11,99 dollars par mois pour le niveau Pro de Stable Audio peuvent générer 500 pistes commercialisables d’une durée maximale de 90 secondes par mois. Les utilisateurs du niveau gratuit sont limités à 20 pistes non commercialisables d’une durée de 20 secondes par mois. Les utilisateurs qui souhaitent utiliser la musique générée par l’IA de Stable Audio dans des applications, des logiciels ou des sites web comptant plus de 100 000 utilisateurs actifs mensuels doivent souscrire à un plan d’entreprise.

Dans les conditions d’utilisation de Stable Audio, Stability précise qu’elle se réserve le droit d’utiliser les messages et les chansons des clients, ainsi que les données relatives à leur activité sur l’outil, à des fins diverses, y compris pour développer de futurs modèles et services. Les clients acceptent d’indemniser Stability en cas de réclamation sur la propriété intellectuelle des chansons créées avec Stable Audio.

Mais, vous vous demandez peut-être si les créateurs des fichiers audio sur lesquels Stable Audio a été formé percevront ne serait-ce qu’une petite partie de cette redevance mensuelle ? Après tout, Stable, comme plusieurs de ses concurrents en matière d’IA générative, s’est retrouvé dans l’eau chaude pour avoir entraîné des modèles sur le travail d’artistes sans les dédommager ou les informer.

Comme pour les modèles de génération d’images plus récents de Stability, Stable Audio dispose d’un mécanisme de retrait – bien que la responsabilité incombe en grande partie à AudioSparx. Les artistes avaient la possibilité de retirer leurs œuvres de l’ensemble des données d’entraînement pour la version initiale de Stable Audio, et environ 10 % d’entre eux ont choisi de le faire, selon Lee Johnson, vice-président exécutif d’AudioSparx.

« Nous soutenons la décision de nos artistes de participer ou non, et nous sommes heureux de leur offrir cette flexibilité », a déclaré M. Johnson par courrier électronique.

L’accord entre Stability et AudioSparx couvre le partage des revenus entre les deux sociétés, AudioSparx permettant aux musiciens de la plateforme de partager les bénéfices générés par Stable Audio s’ils ont choisi de participer à la formation initiale ou s’ils décident d’aider à la formation des futures versions de Stable Audio. Il s’agit d’un modèle similaire à celui poursuivi par Adobe et Shutterstock avec leurs outils d’IA générative, mais Stability n’a pas donné de détails sur l’accord et n’a pas précisé combien les artistes pouvaient s’attendre à être payés pour leurs contributions.

Les artistes ont des raisons de se méfier, étant donné la propension du PDG de Stability, Emad Mostaque, à l’exagération, aux affirmations douteuses et à la mauvaise gestion pure et simple.

En avril, Semafor a rapporté que Stability AI était en train de brûler ses liquidités, ce qui a entraîné une chasse aux cadres pour augmenter les ventes. Selon Forbes, l’entreprise a retardé à plusieurs reprises le paiement des salaires et des charges sociales, voire ne les a pas payés, ce qui a conduit AWS – que Stability utilise pour le calcul afin d’entraîner ses modèles – à menacer de révoquer l’accès de Stability à ses instances GPU.

Stability AI récemment soulevée 25 millions de dollars par le biais d’une note convertible (c’est-à-dire une dette qui se convertit en actions), ce qui porte le total des fonds levés à plus de 125 millions de dollars. Mais elle n’a pas obtenu de nouveau financement à une valeur plus élevée ; la startup a été évaluée pour la dernière fois à 1 milliard de dollars. On dit que Stability cherche à quadrupler ce montant dans les prochains mois, malgré des revenus obstinément faibles et un taux d’épuisement élevé.

Stable Audio va-t-il redresser la situation de l’entreprise ? Peut-être. Mais compte tenu des obstacles que Stable doit franchir, on peut dire que c’est loin d’être gagné.

IA