Vous m’entendez maintenant ? L’IA-coustique pour lutter contre les sons bruyants grâce à l’IA générative

Vous m’entendez maintenant ? L’IA-coustique pour lutter contre les sons bruyants grâce à l’IA générative

Les enregistrements bruyants d’interviews et de discours sont la bête noire des ingénieurs du son. Mais une start-up allemande espère y remédier grâce à une approche technique unique qui utilise l’IA générative pour améliorer la clarté des voix dans les vidéos.

Aujourd’hui, AI-coustics sort de la clandestinité en obtenant un financement de 1,9 million d’euros. Selon Fabian Seipel, cofondateur et PDG, la technologie d’AI-coustics va au-delà de la suppression standard du bruit et fonctionne sur – et avec – n’importe quel appareil et n’importe quel haut-parleur.

« Notre mission principale est de rendre chaque interaction numérique, qu’il s’agisse d’une conférence téléphonique, d’un appareil grand public ou d’une vidéo occasionnelle sur les médias sociaux, aussi claire qu’une émission diffusée par un studio professionnel », a déclaré M. Seipel lors d’une interview accordée à TechCrunch.

Seipel, ingénieur du son de formation, a cofondé AI-coustics avec Corvin Jaedicke, maître de conférences en apprentissage automatique à l’Université technique de Berlin, en 2021. Seipel et Jaedicke se sont rencontrés alors qu’ils étudiaient l’audiotechnologie à l’Université technique de Berlin, où ils étaient souvent confrontés à une mauvaise qualité audio dans les cours en ligne et les tutoriels qu’ils devaient suivre.

« Nous avons été motivés par une mission personnelle visant à surmonter le problème omniprésent de la mauvaise qualité audio dans les communications numériques », a déclaré M. Seipel. « Bien que mon audition soit légèrement altérée en raison de la production musicale que j’ai effectuée au début de la vingtaine, j’ai toujours eu du mal avec les contenus et les cours en ligne, ce qui nous a amenés à travailler sur le thème de la qualité et de l’intelligibilité de la parole en premier lieu.

Le marché des logiciels de suppression du bruit et d’amélioration de la voix alimentés par l’IA est déjà très solide. Les rivaux d’AI-coustics comprennent Insoundz, qui utilise l’IA générative pour améliorer les clips vocaux diffusés en continu et préenregistrés, et Veed.io, une suite d’édition vidéo dotée d’outils permettant d’éliminer les bruits de fond des clips.

Selon M. Seipel, AI-coustics a une approche unique pour développer les mécanismes d’IA qui effectuent le travail de réduction du bruit proprement dit.

La société utilise un modèle formé à partir d’échantillons de parole enregistrés dans son studio de Berlin, la ville d’origine d’AI-coustics. Des personnes sont payées pour enregistrer des échantillons – M. Seipel n’a pas voulu dire combien – qui sont ensuite ajoutés à un ensemble de données pour entraîner le modèle de réduction du bruit d’AI-coustics.

« Nous avons mis au point une approche unique pour simuler des artefacts et des problèmes audio (bruit, réverbération, compression, microphones à bande limitée, distorsion, écrêtage, etc.

Je parierais que certains ne seront pas d’accord avec le système de rémunération unique des créateurs d’AI-coustics, étant donné que le modèle que la startup est en train de former pourrait s’avérer très lucratif sur le long terme. (Il existe un débat sain sur la question de savoir si les créateurs de données d’entraînement pour les modèles d’IA méritent une rémunération résiduelle pour leurs contributions). Mais le problème le plus important et le plus immédiat est peut-être celui de la partialité.

Il est bien établi que les algorithmes de reconnaissance vocale peuvent développer des biais – des biais qui finissent par nuire aux utilisateurs. Une étude publiée dans The Proceedings of the National Academy of Sciences a montré que les algorithmes de reconnaissance vocale des grandes entreprises étaient deux fois plus susceptibles de transcrire de manière incorrecte les données audio des locuteurs noirs que celles des locuteurs blancs.

Pour tenter de remédier à cette situation, M. Seipel explique que AI-coustics s’efforce de recruter des contributeurs d’échantillons vocaux « diversifiés ». Il ajoute : « La taille et la diversité sont essentielles pour éliminer les préjugés et faire en sorte que la technologie fonctionne pour toutes les langues, identités de locuteurs, âges, accents et sexes ».

Ce n’était pas le test le plus scientifique, mais j’ai téléchargé trois clips vidéo – une interview d’un agriculteur du XVIIIe siècle, une démonstration de conduite automobile et une manifestation contre le conflit israélo-palestinien – sur la plateforme d’AI-coustics pour voir comment elle se comportait avec chacun d’entre eux. AI-coustics a effectivement tenu sa promesse d’améliorer la clarté ; à mes oreilles, les clips traités avaient beaucoup moins de bruits de fond ambiants qui noyaient les haut-parleurs.

Voici le clip de l’agriculteur du XVIIIe siècle :


Et après :

Selon M. Seipel, la technologie de l’IA-coustique sera utilisée pour l’amélioration de la parole en temps réel et en différé, et peut-être même intégrée dans des appareils tels que les barres de son, les smartphones et les casques pour améliorer automatiquement la clarté de la voix. Actuellement, AI-coustics propose une application web et une API pour le post-traitement des enregistrements audio et vidéo, ainsi qu’un SDK qui permet d’intégrer la plateforme AI-coustics dans les flux de travail, les applications et le matériel existants.

M. Seipel indique que AI-coustics – qui gagne de l’argent grâce à une combinaison d’abonnements, de prix à la demande et de licences – compte actuellement cinq entreprises clientes et 20 000 utilisateurs (bien que tous ne soient pas payants). La feuille de route pour les prochains mois prévoit d’agrandir l’équipe de quatre personnes de l’entreprise et d’améliorer le modèle sous-jacent d’amélioration de la parole.

« Avant notre investissement initial, AI-coustics fonctionnait de manière relativement légère, avec un faible taux d’absorption, afin de survivre aux difficultés du marché de l’investissement en capital-risque », a déclaré M. Seipel. « AI-coustics dispose aujourd’hui d’un important réseau d’investisseurs et de mentors en Allemagne et au Royaume-Uni. Une base technologique solide et la possibilité de s’adresser à différents marchés avec la même base de données et la même technologie de base confèrent à l’entreprise une certaine souplesse et lui permettent d’effectuer de petites rotations.

À la question de savoir si les technologies de masterisation audio telles que l’IA-coustique risquent de supprimer des emplois, comme le craignent certains experts, M. Seipel répond que l’IA-coustique peut accélérer les tâches fastidieuses qui incombent actuellement aux ingénieurs du son.

« Un studio de création de contenu ou un responsable de diffusion peut gagner du temps et de l’argent en automatisant certaines parties du processus de production audio grâce à l’IA-coustique, tout en conservant une qualité vocale optimale », a-t-il déclaré. « La qualité et l’intelligibilité de la parole restent un problème gênant dans presque tous les appareils grand public ou professionnels, ainsi que dans la production ou la consommation de contenu. Toutes les applications où la parole est enregistrée, traitée ou transmise peuvent potentiellement bénéficier de notre technologie. »

Le financement a pris la forme d’une tranche d’actions et de dettes provenant de Connect Ventures, Inovia Capital, FOV Ventures et du directeur financier d’Ableton, Jan Bohl.

IA