Microsoft lance la recherche vectorielle en avant-première et le clonage vocal en disponibilité générale

Microsoft lance la recherche vectorielle en avant-première et le clonage vocal en disponibilité générale

Lors de sa conférence annuelle Inspire, Microsoft a annoncé un certain nombre de nouvelles fonctionnalités d’IA destinées à Azure, dont la plus remarquable est sans doute Vector Search. Disponible en avant-première via Azure Cognitive search, Vector Search utilise l’apprentissage automatique pour capturer le sens et le contexte des données non structurées, y compris les images et le texte, afin de rendre la recherche plus rapide.

La vectorisation, une technique de plus en plus populaire dans le domaine de la recherche, consiste à convertir des mots ou des images en vecteurs, ou séries de nombres, qui codent leur signification – ce qui permet de les traiter mathématiquement. Les vecteurs permettent aux machines de structurer et de donner un sens aux données, en leur permettant de comprendre, par exemple, que des mots proches les uns des autres dans « l’espace vectoriel » – comme « roi » et « reine » – sont liés et de les faire apparaître rapidement dans une base de données de millions de mots.

Des entreprises comme Qdrant et SeMI Technologies utilisent la recherche vectorielle pour alimenter leurs services de base de données, tout comme des géants de la technologie tels qu’Amazon et Google.

La recherche vectorielle de Microsoft offre une recherche vectorielle « pure », une recherche hybride et un reranking « sophistiqué ». La société indique qu’elle peut être utilisée dans les applications et les services pour générer des réponses personnalisées en langage naturel, fournir des recommandations de produits et identifier des modèles de données.

« La recherche vectorielle est intégrée à Azure AI, ce qui permet aux clients de créer des applications basées sur la recherche et le chat, de convertir des images en représentations vectorielles à l’aide d’Azure AI Vision (et) de récupérer des informations pertinentes à partir de grands ensembles de données pour aider à automatiser les processus et les flux de travail », écrit l’entreprise dans un billet de blog. « L’intégration de la recherche vectorielle s’étend de manière transparente à d’autres capacités d’Azure Cognitive Search, notamment la navigation à facettes, les filtres et plus encore. »

Ailleurs dans Azure, Microsoft lance ce qu’elle appelle la solution Document Generative AI, qui intègre les services existants de traitement de documents alimentés par l’IA de Microsoft, y compris Azure Form Recognizer, avec le service Azure OpenAI. (Rappelons que le service Azure OpenAI est l’offre entièrement gérée de Microsoft, axée sur l’entreprise et conçue pour donner aux entreprises un accès à la technologie d’IA d’OpenAI – avec laquelle Microsoft a conclu un partenariat commercial étroit – avec des contrôles et des fonctions de gouvernance supplémentaires).

La solution Document Generative AI – qui s’appuie sur les derniers modèles de langage d’OpenAI – ingère des fichiers pour des tâches telles que le résumé de rapports, l’extraction de valeur, l’exploration de connaissances et la génération de nouveaux types de documents. Elle permet essentiellement à une entreprise de créer une application comme ChatGPT d’OpenAI qui peut lire des documents et les utiliser comme base pour ses réponses.

Par exemple, en utilisant Document Generative AI, un client pourrait télécharger des factures et des contrats pour permettre aux employés de poser des questions sur les garanties de service et les postes spécifiques. La solution Document Generative AI répond aux questions sous forme de texte, d’images et de tableaux, en fournissant des citations avec un lien vers le contenu source.

Microsoft explique :

« (En utilisant la solution Document Generative AI, vous pouvez) interagir avec des documents en utilisant le langage naturel et générer du nouveau contenu à partir de vos documents existants, y compris des articles de blog, des bulletins d’information, des résumés et des légendes… Que vous ayez besoin de capacités de chat intelligent sur les documents, d’une assistance à la rédaction, d’un support de requête, d’une fonctionnalité de recherche complète ou même de la traduction de documents, Document Generative AI peut gérer des tâches documentaires complexes et diverses grâce à des modèles d’OpenAI. »

Dans une annonce connexe, Microsoft a révélé que le modèle Whisper d’OpenAI, un modèle de reconnaissance automatique de la parole, sera bientôt intégré au service Azure OpenAI ainsi qu’à la gamme de services d’IA vocale de Microsoft. Les entreprises clientes pourront utiliser Whisper pour transcrire et traduire des contenus audio, ainsi que pour produire des transcriptions par lots « à grande échelle », selon Microsoft.

Pour compléter les dévoilements sur l’IA à Inspire, Microsoft a annoncé la prévisualisation publique de Real-time Diarization, un service vocal basé sur l’IA capable d’identifier qui parle parmi plusieurs personnes en temps réel. La société a également annoncé la disponibilité de Custom Neural Voice, qui fait appel à l’IA pour reproduire fidèlement la voix d’un acteur ou créer une voix synthétique originale.

Auparavant, l’accès à Custom Neural Voice était plus limité. Les clients doivent toujours faire une demande et être approuvés par Microsoft pour pouvoir l’utiliser.

Pour éviter que les gens ne s’inquiètent du risque de « deepfakes », Microsoft indique que Custom Neural Voice comprend des contrôles pour éviter toute utilisation abusive du service. Lorsqu’un client soumet un enregistrement, l’acteur vocal – s’il y en a un – doit faire une déclaration reconnaissant qu’il comprend la technologie et qu’il sait que le client se fait faire une voix. L’enregistrement est ensuite comparé par le biais d’une vérification du locuteur afin de s’assurer que les voix correspondent avant que le client ne puisse commencer à créer une voix.

Microsoft exige aussi contractuellement de ses clients qu’ils obtiennent le consentement des artistes de la voix. les clients doivent accepter un code de conduite avant de pouvoir commencer à utiliser la voix neuronale personnalisée. En outre, Microsoft propose des outils de détection et de filigrane destinés à faciliter l’identification d’un clip audio donné créé à l’aide de la voix neuronale personnalisée.

Ces contrôles, en supposant qu’ils fonctionnent comme annoncé, ne résoudront pas nécessairement les controverses sur les licences et le consentement autour de la technologie du clonage vocal. Mais Microsoft a manifestement décidé que ce n’était pas à elle de se battre.

IA