Meta open sources framework pour générer des sons et de la musique

Meta open sources framework pour générer des sons et de la musique

Le jour approche rapidement où l’IA générative ne se contentera pas d’écrire et de créer des images dans un style humain convaincant, mais composera également de la musique et des sons qui passeront pour du travail de professionnel.

Ce matin, Meta a annoncé Audiocraft, un cadre permettant de générer ce qu’il décrit comme un son et une musique de « haute qualité » et « réalistes » à partir de courtes descriptions textuelles, ou messages-guides. Ce n’est pas la première incursion de Meta dans la génération audio – le géant de la technologie a ouvert un générateur de musique basé sur l’IA, MusicGen, en juin – mais Meta affirme avoir fait des progrès qui améliorent considérablement la qualité des sons générés par l’IA, tels que les aboiements de chiens, les klaxons de voitures et les bruits de pas sur un plancher en bois.

Dans un billet de blog partagé avec TechCrunch, Meta explique que le cadre AudioCraft a été conçu pour simplifier l’utilisation de modèles génératifs pour l’audio par rapport aux travaux antérieurs dans ce domaine (par exemple Riffusion, Dance Diffusion et Jukebox d’OpenAI). AudioCraft, dont le code est disponible en source ouverte, fournit une collection de générateurs de sons et de musique ainsi que des algorithmes de compression qui peuvent être utilisés pour créer et encoder des chansons et des fichiers audio sans avoir à passer d’une base de code à l’autre.

AudioCraft contient trois modèles d’IA générative : MusicGen, AudioGen et EnCodec.

MusicGen n’est pas nouveau. Mais Meta a publié son code d’entraînement, ce qui permet aux utilisateurs d’entraîner le modèle sur leurs propres données musicales.

Cela pourrait soulever des problèmes éthiques et juridiques majeurs, étant donné que MusicGen « apprend » à partir de la musique existante à produire des effets similaires – un fait avec lequel tous les artistes ou utilisateurs d’IA générative ne sont pas à l’aise.

De plus en plus souvent, des morceaux faits maison qui utilisent l’IA générative pour évoquer des sons familiers pouvant être considérés comme authentiques, ou du moins assez proches, sont devenus viraux. Les labels musicaux se sont empressés de les signaler à leurs partenaires de diffusion en continu, en invoquant des problèmes de propriété intellectuelle – et ils ont généralement eu gain de cause. Mais il n’est toujours pas clair si la musique « deepfake » viole les droits d’auteur des artistes, des labels et des autres détenteurs de droits.

Meta précise que la version prête à l’emploi de MusicGen a été entraînée avec de la « musique appartenant à Meta et faisant l’objet d’une licence spécifique », à savoir 20 000 heures d’audio – 400 000 enregistrements accompagnés de descriptions textuelles et de métadonnées – provenant de la collection sonore de Meta Music Initiative, de la bibliothèque musicale de Shutterstock et de Pond5, une grande bibliothèque de médias d’archives. Meta a également supprimé les voix des données d’apprentissage afin d’éviter que le modèle ne reproduise les voix des artistes. Mais si les conditions d’utilisation de MusicGen découragent l’utilisation du modèle pour des cas d’utilisation « hors du champ d’application » au-delà de la recherche, Meta ne le fait pas pour autant. expressément interdisent toute application commerciale.

AudioGen, l’autre modèle de génération audio contenu dans AudioCraft, se concentre sur la génération de sons environnementaux et d’effets sonores, par opposition à la musique et aux mélodies.

AudioGen est un modèle basé sur la diffusion, comme la plupart des générateurs d’images modernes (voir DALL-E 2 d’OpenAI, Imagen de Google et Stable Diffusion). Dans la diffusion, un modèle apprend à soustraire progressivement le bruit de données initiales entièrement composées de bruit – par exemple, de l’audio ou des images – en se rapprochant pas à pas de l’invite cible.

À partir d’une description textuelle d’une scène acoustique, AudioGen peut générer des sons environnementaux avec des « conditions d’enregistrement réalistes » et un « contenu de scène complexe ». C’est du moins ce qu’affirme Meta – nous n’avons pas eu l’occasion de tester AudioGen ou d’écouter ses échantillons avant la sortie du modèle. Selon un livre blanc publié ce matin en même temps qu’AudioGen, ce dernier peut également générer de la parole à partir d’invites en plus de la musique, reflétant ainsi la composition de ses diverses données d’entraînement.

Dans son livre blanc, Meta reconnaît qu’AudioCraft pourrait être utilisé à mauvais escient pour imiter la voix d’une personne. Et, compte tenu des capacités de génération musicale d’AudioCraft, le modèle soulève les mêmes questions éthiques que MusicGen. Mais, comme pour MusicGen, Meta n’impose pas beaucoup de restrictions sur la manière dont AudioCraft – et son code d’entraînement – peut être utilisé, pour le meilleur ou pour le pire.

Le dernier des trois modèles d’AudioCraft, EnCodec, est une amélioration par rapport à un modèle précédent de Meta pour générer de la musique avec moins d’artefacts. Meta affirme qu’il modélise plus efficacement les séquences audio, en capturant différents niveaux d’information dans les données d’apprentissage des formes d’onde audio pour aider à créer de nouveaux sons.

« EnCodec est un codec neuronal avec perte qui a été entraîné spécifiquement pour compresser n’importe quel type d’audio et reconstruire le signal original avec une grande fidélité », explique Meta dans son billet de blog. « Les différents flux capturent différents niveaux d’information de la forme d’onde audio, ce qui nous permet de reconstruire l’audio avec une grande fidélité à partir de tous les flux.

Que penser d’AudioCraft ? Meta met l’accent sur les avantages potentiels, sans surprise, comme l’inspiration pour les musiciens et l’aide à l’itération de leurs compositions « d’une nouvelle manière ». Mais comme l’a montré l’avènement des générateurs d’images et de textes, il y a des inconvénients – et probablement des poursuites – qui se cachent dans l’ombre.

Malgré les conséquences, Meta déclare qu’il prévoit de continuer à rechercher une meilleure contrôlabilité et des moyens d’améliorer les performances des modèles audio génératifs, ainsi que des moyens d’atténuer les limites et les biais de ces modèles. En ce qui concerne les biais, Meta note que MusicGen n’obtient pas de bons résultats pour les descriptions dans des langues autres que l’anglais et pour les styles musicaux et les cultures qui ne sont pas occidentales, en raison de biais très évidents dans ses données d’apprentissage.

« Plutôt que de garder le travail comme une boîte noire impénétrable, être ouvert sur la façon dont nous développons ces modèles et s’assurer qu’ils sont faciles à utiliser pour les gens – qu’il s’agisse de chercheurs ou de la communauté musicale dans son ensemble – aide les gens à comprendre ce que ces modèles peuvent faire, à comprendre ce qu’ils ne peuvent pas faire et à être habilités à les utiliser réellement », écrit Meta dans le billet de blog. « Grâce au développement de contrôles plus avancés, nous espérons que ces modèles deviendront utiles aux amateurs et aux professionnels de la musique.

IA