Gladia transforme n’importe quel fichier audio en texte en temps quasi réel

Gladia transforme n’importe quel fichier audio en texte en temps quasi réel

Voici Gladia, une startup française spécialisée dans l’IA qui veut changer la façon dont les entreprises interagissent avec les données audio. La société développe une interface de programmation d’applications (API) de transcription audio que vous pouvez intégrer à d’autres produits et qui est censée fonctionner beaucoup mieux que ce qui est disponible sur le marché. Cette base technologique ouvre la voie à de nouveaux cas d’utilisation autour de l’audio.

Si vous connaissez les API de transcription audio, vous savez que les grands fournisseurs de cloud ont déjà leurs propres API. Il y a l’API de synthèse vocale de Google, Amazon Transcribe, Speech to Text de Microsoft, etc. Ces API fonctionnent bien, mais elles sont chères, lentes et ne disposent pas d’un grand nombre de fonctionnalités.

Jean-Louis Quéguiner, cofondateur et PDG de Gladia, ancien responsable de l’IA chez OVHcloud et cofondateur de la société avec Jonathan Soto, m’a parlé de certaines des limites des API existantes. Selon lui, il y a trois points de douleur avec les produits existants. Premièrement, en ce qui concerne les prix, la transcription d’une heure d’audio coûte généralement entre 1,50 et 2 dollars de l’heure.

Deuxièmement, le résultat n’est pas toujours très fiable, certaines langues fonctionnant bien tandis que d’autres sont à peine prises en charge. En ce qui concerne les fonctions avancées, si les gens parlent plusieurs langues, il y a de fortes chances que l’API ne soit pas en mesure de remarquer le changement de langue et de transcrire l’audio dans plus d’une langue.

Troisièmement, les API de transcription sont lentes. La transcription d’une heure d’audio peut prendre plus de 15 minutes. C’est une bonne chose si vous n’avez pas besoin de transcriptions immédiatement, mais cela signifie que vous ne pourrez pas utiliser ces API dans certains secteurs.

Le chuchoteur du chuchoteur

Gladia est basé sur Whisper, le modèle de transcription open-source d’OpenAI. « Nous sommes partis de Whisper. Nous n’avons pas réinventé la roue, mais nous avons écouté nos clients et ils nous ont dit : ‘Ce que je veux, c’est quelque chose qui fonctionne aussi bien que Whisper' », m’a dit Jean-Louis Quéguiner.

Mais Whisper n’est pas parfait. La version vanille est encore assez lente, et Gladia a passé beaucoup de temps à transformer Whisper en un modèle de transcription rapide et réactif. Ce n’est pas le seul problème.

« La moitié de Whisper est GPT-2. Vous avez vu les LLM et ChatGPT, ils ont tendance à halluciner. Nous avons beaucoup travaillé pour éviter les problèmes d’hallucination », a déclaré M. Quéguiner.

Il m’a notamment expliqué que Whisper avait été entraîné sur les sous-titres codés que l’on peut trouver sur Internet, comme sur YouTube. Le modèle d’OpenAI a tendance à entendre des phrases courantes que l’on peut entendre dans les vidéos en ligne, telles que « si vous avez aimé cette vidéo, veuillez l’aimer et vous abonner ». Il existe une surreprésentation mathématique de certaines phrases comme celle-ci, et Gladia tente de remédier à ces lacunes.

Outre ces modifications apportées à Whisper et à son implémentation, Gladia dispose également d’algorithmes de prétraitement et de post-traitement qui améliorent les résultats finaux.

Gladia promet de pouvoir transcrire une heure d’audio pour 0,61 $. Le processus de transcription prend environ 60 secondes. Son API peut détecter s’il y a plusieurs locuteurs, ajouter des horodatages, détecter les langues et passer d’une langue à l’autre si nécessaire. Gladia ajoute également automatiquement la ponctuation et la casse.

Comme la plupart des API, le résultat final est au format JSON. Mais Gladia prend également en charge les fichiers SRT et VTT pour les entreprises qui souhaitent générer des sous-titres.

J’ai créé un compte et téléchargé l’enregistrement audio d’une interview pour voir comment fonctionne Gladia. Cela a pris un peu plus de temps que prévu, mais c’était nettement plus rapide que les API de synthèse vocale de Google ou d’Azure.

Le résultat n’était pas parfait, mais il était extrêmement bon – il comprenait les acronymes et les termes techniques. J’ai ouvert le même fichier audio dans Aiko, une application Mac développée par Sindre Sorhus et qui permet de transcrire localement un fichier audio à l’aide de Whisper. Comme prévu, le résultat était proche de celui de Gladia – mais Gladia était beaucoup plus rapide qu’Aiko sur mon MacBook Pro.

Globalement, Gladia est la meilleure API de transcription que j’ai jamais utilisée.

Devenir une API d’intelligence audio

La société travaille actuellement avec des entreprises de centres d’appels, des services de réunions virtuelles et des éditeurs de vidéos, dont Claap, Livestorm et Selectra.

Gladia a levé un capital d’amorçage de 4 millions de dollars lors d’un tour de table mené par New Wave. Parmi les autres investisseurs figurent Sequoia, Cocoa et des business angels tels que Solomon Hykes, Pierre Betouin, Miroslaw Klaba et Alexandre Berriche.

Pour Gladia, disposer d’une API de transcription solide comme le roc n’est qu’une première étape. L’entreprise espère pouvoir ensuite développer des fonctionnalités sur cette base technique solide.

Par exemple, après la transcription d’un fichier audio, Gladia peut traduire le texte dans une autre langue. Grâce à l’horodatage au niveau des mots, une entreprise peut télécharger un fichier audio et obtenir des sous-titres dans des dizaines de langues en quelques minutes seulement.

À l’avenir, l’entreprise espère pouvoir résumer le contenu d’un fichier audio, classer le contenu en plusieurs catégories thématiques, créer des chapitres automatiquement, effectuer une analyse des sentiments, etc.

« Notre vision à long terme est de passer des données 2D aux données 3D. L’audio est assez plat, et l’idée est de l’enrichir avec de l’intelligence », a déclaré M. Quéguiner. « Nous pensons que la transcription deviendra un produit de base. Mais nous pensons que ce qui comptera le plus, ce sont les options que nous ajouterons.

IA