Meta lance un modèle d’IA capable de transcrire et de traduire près de 100 langues

Meta lance un modèle d’IA capable de transcrire et de traduire près de 100 langues

Dans sa quête de développement d’une IA capable de comprendre une gamme de dialectes différents, Meta a créé un modèle d’IA, SeamlessM4T, capable de traduire et de transcrire près de 100 langues dans le texte et la parole.

Disponible en open source avec SeamlessAlign, un nouvel ensemble de données de traduction, Meta affirme que SeamlessM4T représente une « percée significative » dans le domaine de la synthèse vocale et de la synthèse de la parole au texte alimentées par l’IA.

« Notre modèle unique fournit des traductions à la demande qui permettent aux personnes parlant des langues différentes de communiquer plus efficacement », écrit Meta dans un billet de blog partagé avec TechCrunch. « SeamlessM4T reconnaît implicitement les langues sources sans qu’il soit nécessaire d’utiliser un modèle d’identification de la langue distinct.

SeamlessM4T est en quelque sorte le successeur spirituel de No Language Left Behind de Meta, un modèle de traduction automatique texte à texte, et d’Universal Speech Translator, l’un des rares systèmes de traduction directe de la parole à la parole à prendre en charge la langue hokkien. Il s’appuie sur Massively Multilingual Speech, le cadre de Meta qui fournit des technologies de reconnaissance vocale, d’identification de la langue et de synthèse vocale dans plus de 1 100 langues.

Meta n’est pas le seul à investir des ressources dans le développement d’outils de traduction et de transcription sophistiqués.

Au-delà de la multitude de services commerciaux et de modèles open source déjà disponibles auprès d’Amazon, de Microsoft, d’OpenAI et d’un certain nombre de start-ups, Google est en train de créer ce qu’il appelle le modèle universel de la parole, dans le cadre d’un effort plus large du géant de la technologie pour construire un modèle capable de comprendre les 1 000 langues les plus parlées au monde. Mozilla, quant à lui, est à l’origine de Common Voice, l’une des plus grandes collections de voix multilingues pour l’entraînement des algorithmes de reconnaissance automatique de la parole.

Mais SeamlessM4T est l’une des initiatives les plus ambitieuses à ce jour pour combiner les capacités de traduction et de transcription dans un modèle unique.

Pour le mettre au point, Meta affirme avoir récupéré sur le web des textes (de l’ordre de « dizaines de milliards » de phrases) et des discours (4 millions d’heures) accessibles au public. Dans une interview accordée à TechCrunch, Juan Pino, chercheur à la division de recherche en IA de Meta et collaborateur au projet, n’a pas voulu révéler les sources exactes des données, se contentant de dire qu’il y en avait « une variété ».

Tous les créateurs de contenu ne sont pas d’accord avec la pratique consistant à exploiter des données publiques pour former des modèles susceptibles d’être utilisés à des fins commerciales. Certains ont intenté des actions en justice contre des entreprises construisant des outils d’intelligence artificielle à partir de données accessibles au public, estimant que les fournisseurs devraient être contraints de fournir des crédits, voire des compensations, et des moyens clairs de se désengager.

Mais Meta affirme que les données qu’elle a extraites – qui pourraient contenir des informations personnellement identifiables, admet l’entreprise – n’étaient pas protégées par des droits d’auteur et provenaient principalement de sources ouvertes ou sous licence.

Quoi qu’il en soit, Meta a utilisé le texte et la parole récupérés pour créer l’ensemble de données d’entraînement de SeamlessM4T, appelé SeamlessAlign. Les chercheurs ont aligné 443 000 heures de discours avec des textes et créé 29 000 heures d’alignements « parole à parole », qui ont « enseigné » à SeamlessM4T comment transcrire la parole en texte, traduire du texte, générer de la parole à partir de texte et même traduire des mots prononcés dans une langue en mots dans une autre langue.

Meta affirme que sur un benchmark interne, SeamlessM4T a obtenu de meilleurs résultats contre les bruits de fond et les « variations du locuteur » dans les tâches de transcription de la parole en texte que le modèle de transcription de la parole actuellement le plus avancé. Il attribue ce résultat à la riche combinaison de données vocales et textuelles dans l’ensemble de données d’entraînement, qui, selon Meta, donne à SeamlessM4T une longueur d’avance sur les modèles uniquement vocaux et textuels.

« Avec des résultats de pointe, nous pensons que SeamlessM4T constitue une avancée importante dans la quête de la communauté de l’IA vers la création de systèmes multitâches universels », écrit Meta dans son billet de blog.

Mais on peut se demander quels sont les biais que le modèle peut contenir.

Un article récent de The Conversation souligne les nombreux défauts de la traduction assistée par l’IA, y compris les différentes formes de préjugés sexistes. Par exemple, Google Translate a présupposé que les médecins étaient des hommes et les infirmières des femmes dans certaines langues, tandis que le traducteur de Bing a traduit des phrases comme « la table est douce » par le féminin « die Tabelle » en allemand, qui fait référence à une table de chiffres.

Les algorithmes de reconnaissance vocale contiennent eux aussi souvent des biais. Une étude publiée dans The Proceedings of the National Academy of Sciences a montré que les systèmes de reconnaissance vocale de grandes entreprises étaient deux fois plus susceptibles de transcrire de manière incorrecte des données audio provenant de locuteurs noirs que de locuteurs blancs.

Sans surprise, SeamlessM4T n’est pas le seul dans ce cas.

Dans un livre blanc publié parallèlement à l’article de blog, Meta révèle que le modèle « surgénéralise les formes masculines lors de la traduction à partir de termes neutres » et obtient de meilleurs résultats lors de la traduction à partir de la référence masculine (par exemple, des noms comme « he » en anglais) dans la plupart des langues.

En outre, en l’absence d’informations sur le genre, SeamlessM4T préfère traduire la forme masculine dans environ 10 % des cas – peut-être en raison d’une « surreprésentation de lexiques masculins » dans les données d’apprentissage, spécule Meta.

Meta affirme que SeamlessM4T n’ajoute pas une quantité excessive de texte toxique dans ses traductions, un problème courant avec la traduction et les modèles de texte d’IA générative en général. Mais ce n’est pas parfait. Dans certaines langues, comme le bengali et le kirghize, SeamlessM4T produit davantage de traductions toxiques – c’est-à-dire des traductions haineuses ou blasphématoires – sur le statut socio-économique et la culture. Et en général, SeamlessM4T est plus toxique dans les traductions traitant de l’orientation sexuelle et de la religion.

Meta note que la démo publique de SeamlessM4T contient un filtre pour la toxicité du discours en entrée ainsi qu’un filtre pour le discours potentiellement toxique en sortie. Ce filtre n’est cependant pas présent par défaut dans la version open source du modèle.

Le problème plus important des traducteurs d’IA qui n’est pas abordé dans le livre blanc est la perte de richesse lexicale qui peut résulter de leur utilisation excessive. Contrairement à l’IA, les interprètes humains font des choix qui leur sont propres lorsqu’ils traduisent une langue dans une autre. Ils peuvent expliciter, normaliser ou condenser et résumer, créant ainsi des empreintes digitales connues sous le nom informel de « traductions ». Les systèmes d’IA peuvent générer des traductions plus « précises », mais ces traductions pourraient se faire au détriment de la variété et de la diversité des traductions.

C’est probablement la raison pour laquelle Meta déconseille l’utilisation de SeamlessM4T pour les traductions longues et les traductions certifiées, comme celles reconnues par les agences gouvernementales et les autorités de traduction. Meta déconseille également le déploiement de SeamlessM4T à des fins médicales ou juridiques, sans doute pour se prémunir en cas d’erreur de traduction.

C’est judicieux ; il y a eu au moins quelques cas où des erreurs de traduction de l’IA ont entraîné des erreurs de la part des forces de l’ordre. En septembre 2012, la police a confronté par erreur un homme kurde au financement du terrorisme à cause d’un message texte mal traduit. Et en 2017, un policier du Kansas a utilisé Google Translate pour demander à un hispanophone s’il pouvait fouiller sa voiture à la recherche de drogues, mais la traduction étant inexacte, le conducteur n’a pas bien compris ce qu’il avait accepté et l’affaire a finalement été rejetée.

« Cette approche de système unique réduit les erreurs et les retards, accroît l’efficacité et la qualité du processus de traduction et nous rapproche de la possibilité d’une traduction sans faille », a déclaré M. Pino. « À l’avenir, nous voulons explorer comment ce modèle fondamental peut permettre de nouvelles capacités de communication, nous rapprochant ainsi d’un monde où tout le monde peut se faire comprendre.

Espérons que les humains ne seront pas complètement exclus de ce futur.

IA