Cette organisation à but non lucratif allemande construit un assistant vocal ouvert que tout le monde peut utiliser

Cette organisation à but non lucratif allemande construit un assistant vocal ouvert que tout le monde peut utiliser

Il y a eu de nombreuses tentatives d’assistants vocaux à IA open source (voir Rhasspy, Mycroft et Jasper, pour n’en citer que quelques-uns), toutes établies dans le but de créer des expériences hors ligne préservant la vie privée et ne compromettant pas les fonctionnalités. Mais le développement s’est avéré extraordinairement lent. En effet, outre les difficultés habituelles liées aux projets open source, la programmation d’un assistant est une tâche très complexe. difficile. Des technologies comme Google Assistant, Siri et Alexa ont des années, voire des décennies, de recherche et développement derrière elles – et une énorme infrastructure en plus.

Mais cela ne décourage pas les gens du Large-scale Artificial Intelligence Open Network (LAION), l’association allemande à but non lucratif responsable de l’entretien de certains des ensembles de données d’entraînement à l’IA les plus populaires au monde. Ce mois-ci, LAION a annoncé une nouvelle initiative, BUD-E, qui vise à créer un assistant vocal « entièrement ouvert » capable de fonctionner sur du matériel grand public.

Pourquoi lancer un tout nouveau projet d’assistant vocal alors qu’il en existe d’innombrables autres à divers stades d’abandon ? Wieland Brendel, membre de l’Institut Ellis et collaborateur de BUD-E, estime qu’il n’existe pas d’assistant ouvert doté d’une architecture suffisamment extensible pour tirer pleinement parti des technologies émergentes de la GenAI, en particulier les grands modèles de langage (LLM) tels que le ChatGPT d’OpenAI.

« La plupart des interactions avec les (assistants) reposent sur des interfaces de chat qui sont plutôt lourdes à utiliser, (et) les dialogues avec ces systèmes semblent guindés et peu naturels », a déclaré Brendel à TechCrunch lors d’une interview par e-mail. « Ces systèmes permettent de transmettre des commandes pour contrôler votre musique ou allumer la lumière, mais ils ne constituent pas une base pour des conversations longues et engageantes. L’objectif de BUD-E est de fournir la base d’un assistant vocal qui semble beaucoup plus naturel pour les humains et qui imite les modèles de discours naturels des dialogues humains et se souvient des conversations antérieures ».

M. Brendel a ajouté que LAION souhaitait également s’assurer que chaque composant de BUD-E puisse à terme être intégré à des applications et des services sans licence, même à des fins commerciales, ce qui n’est pas nécessairement le cas pour d’autres projets d’assistants ouverts.

Fruit d’une collaboration avec l’institut Ellis de Tübingen, la société de conseil technologique Collabora et le Tübingen AI Center, BUD-E – abréviation récursive de « Buddy for Understanding and Digital Empathy » – dispose d’une feuille de route ambitieuse. Dans un billet de blog, l’équipe de LAION expose ce qu’elle espère accomplir au cours des prochains mois, principalement en intégrant une « intelligence émotionnelle » à BUD-E et en veillant à ce qu’il puisse gérer des conversations impliquant plusieurs interlocuteurs à la fois.

« Il y a un grand besoin d’un assistant vocal naturel qui fonctionne bien », a déclaré M. Brendel. « LAION a montré par le passé qu’il savait créer des communautés, et l’Institut ELLIS de Tübingen ainsi que le Centre d’IA de Tübingen se sont engagés à fournir les ressources nécessaires au développement de l’assistant. »

BUD-E est opérationnel – vous pouvez le télécharger et l’installer dès aujourd’hui sur GitHub sur Ubuntu ou Windows PC (macOS est à venir) – mais il en est clairement à ses débuts.

LAION a rassemblé plusieurs modèles ouverts pour assembler un MVP, notamment le Phi-2 LLM de Microsoft, la synthèse vocale StyleTTS2 de Columbia et le FastConformer de Nvidia pour la synthèse vocale. En tant que telle, l’expérience n’est pas très optimisée. Pour que BUD-E réponde aux commandes dans un délai d’environ 500 millisecondes – dans la gamme des assistants vocaux commerciaux tels que Google Assistant et Alexa – il faut un GPU puissant tel que le GPU RTX 4090.

Collabora travaille bénévolement à l’adaptation de ses modèles de reconnaissance vocale et de synthèse vocale open source, WhisperLive et WhisperSpeech, pour BUD-E.

« Construire nous-mêmes les solutions de reconnaissance vocale et de synthèse vocale signifie que nous pouvons les personnaliser à un degré qui n’est pas possible avec des modèles fermés exposés par le biais d’API », a déclaré Jakub Piotr Cłapa, chercheur en IA chez Collabora et membre de l’équipe BUD-E, dans un courriel. « Collabora a commencé à travailler sur les assistants ouverts en partie parce que nous avions du mal à trouver une bonne solution de synthèse vocale pour un agent vocal basé sur LLM pour l’un de nos clients. Nous avons décidé d’unir nos forces à celles de la communauté des logiciels libres afin de rendre nos modèles plus largement accessibles et utiles.

À court terme, LAION indique qu’elle s’efforcera de rendre les exigences matérielles de BUD-E moins onéreuses et de réduire le temps de latence de l’assistant. À plus long terme, il s’agira de constituer un ensemble de données de dialogues pour affiner BUD-E, ainsi qu’un mécanisme de mémoire permettant à BUD-E de stocker les informations des conversations précédentes et un pipeline de traitement de la parole capable de suivre plusieurs personnes qui parlent en même temps.

J’ai demandé à l’équipe si l’accessibilité était une priorité, étant donné que les systèmes de reconnaissance vocale n’ont jamais bien fonctionné avec des langues qui ne sont pas l’anglais et des accents qui ne sont pas transatlantiques. Une étude de Stanford a révélé que les systèmes de reconnaissance vocale d’Amazon, d’IBM, de Google, de Microsoft et d’Apple étaient presque deux fois plus susceptibles de mal entendre les locuteurs noirs que les locuteurs blancs du même âge et du même sexe.

Brendel a déclaré que LAION n’ignore pas l’accessibilité – mais qu’il ne s’agit pas d’une « priorité immédiate » pour l’Union européenne. BUD-E.

« Le premier objectif est de redéfinir la manière dont nous interagissons avec les assistants vocaux avant de généraliser cette expérience à des accents et des langues plus diversifiés », a déclaré M. Brendel.

À cette fin, LAION a des idées assez originales pour BUD-E, allant d’un avatar animé à la personnification de l’assistant, en passant par l’analyse des visages des utilisateurs à travers les webcams pour rendre compte de leur état émotionnel.

L’éthique de cette dernière partie – l’analyse faciale – est un peu délicate, il va sans dire. Mais Robert Kaczmarczyk, cofondateur de LAION, a souligné que l’entreprise resterait attachée à la sécurité.

« Nous adhérons strictement aux directives de sécurité et d’éthique formulées par la loi européenne sur l’IA », a-t-il déclaré à TechCrunch par courriel, en référence au cadre juridique régissant la vente et l’utilisation de l’IA dans l’UE. La loi européenne sur l’IA permet aux pays membres de l’Union européenne d’adopter des règles et des mesures de protection plus restrictives pour l’IA « à haut risque », y compris les classificateurs d’émotions.

« Cet engagement en faveur de la transparence facilite non seulement l’identification précoce et la correction des biais potentiels, mais contribue également à la cause de l’intégrité scientifique », a ajouté M. Kaczmarczyk. « En rendant nos ensembles de données accessibles, nous permettons à l’ensemble de la communauté scientifique de s’engager dans des recherches qui respectent les normes les plus strictes en matière de reproductibilité.

Les travaux antérieurs de LAION n’ont pas été irréprochables sur le plan éthique, et l’entreprise poursuit actuellement un projet distinct quelque peu controversé sur la détection des émotions. Mais BUD-E sera peut-être différent ; nous devrons attendre et voir.

IA