Microsoft lance un créateur de deepfakes

Microsoft lance un créateur de deepfakes

L’un des produits les plus inattendus de la conférence Microsoft Ignite de cette année est un outil qui permet de créer un avatar photoréaliste d’une personne et d’animer cet avatar pour qu’il dise des choses que la personne n’a pas nécessairement dites.

Baptisée Azure AI Speech text to speech avatar, la nouvelle fonctionnalité, disponible en avant-première publique dès aujourd’hui, permet aux utilisateurs de générer des vidéos d’un avatar parlant en téléchargeant des images d’une personne à laquelle ils souhaitent que l’avatar ressemble et en écrivant un script. L’outil de Microsoft entraîne un modèle pour piloter l’animation, tandis qu’un autre modèle de synthèse vocale – soit préconstruit, soit entraîné à partir de la voix de la personne – « lit » le script à haute voix.

« Avec l’avatar de synthèse vocale, les utilisateurs peuvent créer plus efficacement des vidéos[…]pour créer des vidéos de formation, des présentations de produits, des témoignages de clients (et ainsi de suite) simplement en saisissant du texte », écrit Microsoft dans un billet de blog. « Vous pouvez utiliser l’avatar pour créer des agents conversationnels, des assistants virtuels, des chatbots, etc.

Les avatars peuvent parler plusieurs langues. Et, pour les scénarios de chatbot, ils peuvent utiliser des modèles d’IA comme le GPT-3.5 d’OpenAI pour répondre aux questions non scénarisées des clients.

Il existe d’innombrables façons d’abuser d’un tel outil, ce dont Microsoft se rend compte, et c’est tout à son honneur. (Une technologie similaire de génération d’avatars de la startup d’IA Synthesia a été utilisée à mauvais escient pour produire de la propagande au Venezuela et de faux rapports d’information promus par des comptes de médias sociaux pro-Chine). La plupart des abonnés Azure ne pourront accéder qu’à des avatars préconstruits – et non personnalisés – au moment du lancement ; les avatars personnalisés sont actuellement une capacité à « accès limité » disponible uniquement sur inscription et « seulement pour certains cas d’utilisation », précise Microsoft.

Mais cette fonctionnalité soulève une série de questions éthiques embarrassantes.

L’un des principaux points d’achoppement de la récente grève de la SAG-AFTRA était l’utilisation de l’IA pour créer des portraits numériques. Les studios ont finalement accepté de payer les acteurs pour leurs portraits générés par l’IA. Mais qu’en est-il de Microsoft et de ses clients ?

J’ai demandé à Microsoft quelle était sa position sur les entreprises qui utilisent les portraits d’acteurs sans les rémunérer correctement, ni même les en informer. La société n’a pas répondu, pas plus qu’elle n’a dit si elle exigerait des entreprises qu’elles étiquettent les avatars comme étant générés par l’IA, à l’instar de YouTube et d’un nombre croissant d’autres plateformes.

Voix personnelle

Microsoft semble avoir davantage de garde-fous autour d’un outil d’IA générative connexe, la voix personnelle, qui sera également lancé à l’occasion d’Ignite.

La voix personnelle, une nouvelle fonctionnalité du service de voix neuronale personnalisé de Microsoft, peut reproduire la voix d’un utilisateur en quelques secondes à partir d’un échantillon de discours d’une minute. Microsoft présente cette fonctionnalité comme un moyen de créer des assistants vocaux personnalisés, de doubler des contenus dans différentes langues et de générer des narrations sur mesure pour des histoires, des livres audio et des podcasts.

Pour éviter d’éventuels problèmes juridiques, Microsoft exige que les utilisateurs donnent leur « consentement explicite » sous la forme d’une déclaration enregistrée avant qu’un client puisse utiliser leur voix personnelle pour synthétiser leur voix. Pour l’instant, l’accès à cette fonctionnalité est protégé par un formulaire d’enregistrement, et les clients doivent accepter d’utiliser la voix personnelle uniquement dans des applications « où la voix ne lit pas de contenu généré par l’utilisateur ou ouvert ».

« L’utilisation du modèle vocal doit rester au sein d’une application et les résultats ne doivent pas être publiables ou partageables à partir de l’application », écrit Microsoft dans un billet de blog. « Les clients qui répondent aux critères d’éligibilité d’accès limité conservent le contrôle exclusif de la création, de l’accès et de l’utilisation des modèles vocaux et de leurs résultats (lorsqu’ils concernent le doublage de films, de programmes télévisés, de vidéos et d’enregistrements audio pour des scénarios de divertissement uniquement).

Microsoft n’a pas répondu aux questions de TechCrunch sur la manière dont les acteurs pourraient être rémunérés pour leurs contributions vocales personnelles – ou si elle prévoit de mettre en œuvre une technologie de filigrane afin que les voix générées par l’IA puissent être plus facilement identifiées.

IA