Microsoft met l’accent sur l’IA avec de nouvelles fonctionnalités de Bing

Microsoft met l’accent sur l’IA avec de nouvelles fonctionnalités de Bing

Microsoft se lance dans la prochaine phase d’expansion de Bing. Et – sans surprise – elle tourne fortement autour de l’IA.

Lors d’un événement organisé cette semaine à New York, des responsables de Microsoft, dont Yusuf Mehdi, CVP et responsable marketing pour les consommateurs, ont donné aux membres de la presse, dont ce journaliste, un aperçu de la gamme de fonctionnalités qui seront intégrées à Bing dans les jours, les semaines et les mois à venir.

Elles ne réinventent pas tant la roue qu’elles ne s’appuient sur ce que Microsoft a injecté dans l’expérience Bing au cours des trois derniers mois environ. Depuis le lancement de Bing Chat, son chatbot alimenté par les modèles GPT-4 et DALL-E 2 d’OpenAI, Microsoft affirme que les visiteurs de Bing – qui a dépassé les 100 millions d’utilisateurs actifs quotidiens – ont participé à plus d’un demi-milliard de chats et créé plus de 200 millions d’images.

À l’avenir, Bing deviendra plus visuel, grâce à des réponses plus axées sur les images et les graphiques dans Bing Chat. Il deviendra également plus personnalisé, grâce à des fonctionnalités qui permettront aux utilisateurs d’exporter leur historique Bing Chat et d’intégrer du contenu provenant de plugins tiers (nous y reviendrons plus tard). Enfin, il adoptera la multimodalité, du moins dans le sens où Bing Chat sera capable de répondre à des questions dans le contexte d’images.

« Je pense que l’on peut dire sans risque que nous sommes en train de transformer la recherche », a déclaré Mehdi dans un discours préparé à l’avance. Dans notre esprit, nous pensons qu’aujourd’hui marque le début de la prochaine génération de cette « mission de recherche ».

Ouvert et visuel

À partir d’aujourd’hui, le nouveau Bing – celui avec Bing Chat – est disponible sans liste d’attente. Tout le monde peut l’essayer en se connectant avec un compte Microsoft.

Il s’agit plus ou moins de l’expérience lancée il y a plusieurs mois. Mais comme nous l’avons déjà mentionné, Bing Chat répondra bientôt par des images, du moins là où c’est logique. Les réponses aux questions (par exemple, « Où se trouve le Machu Picchu ? ») seront accompagnées d’images pertinentes s’il en existe, un peu comme le flux de recherche standard de Bing, mais condensées dans une interface de type carte.

Microsoft Bing Chat

Des réponses avec des images, une nouveauté dans Bing Chat. Crédits images : Microsoft

Lors d’une démonstration, un porte-parole a tapé la question « Le cactus saguaro fait-il pousser des fleurs ? » et Bing Chat a affiché un paragraphe de réponse accompagné d’une image du cactus en question. Pour moi, cela évoquait les « panneaux de connaissances » de Google Search.

Microsoft ne précise pas quelles catégories de contenu peuvent déclencher l’affichage d’une image. Mais elle a mis en place un système de filtrage pour empêcher l’apparition d’images explicites – c’est du moins ce qu’elle affirme.

Sarah Bird, responsable de l’IA chez Microsoft, m’a expliqué que Bing Chat bénéficiait du filtrage et de la modération déjà en place dans le cadre de la recherche Bing. En outre, Bing Chat utilise une combinaison de « classificateurs de toxicité », c’est-à-dire des modèles d’IA formés pour détecter les messages potentiellement dangereux, et de listes noires pour maintenir le chat relativement propre.

Ces mesures n’ont pas empêché Bing Chat de dérailler lorsqu’il a été lancé en avant-première au début du mois de février. Lors de notre reportage, le chatbot a diffusé des informations erronées sur les vaccins et a écrit un article haineux du point de vue d’Adolf Hitler. D’autres journalistes l’ont vu proférer des menaces, revendiquer des identités multiples et même faire honte à ceux qui l’avaient réprimandé.

Autre coup dur pour Microsoft : il y a quelques mois, la société a licencié l’équipe chargée de l’éthique et de la société au sein de sa grande organisation chargée de l’IA. Cette décision a privé Microsoft d’une équipe spécialisée chargée de veiller à ce que ses principes en matière d’IA soient étroitement liés à la conception des produits.

Bird affirme cependant que des progrès significatifs ont été réalisés et que ce type de problèmes d’IA ne se résout pas du jour au lendemain, même si Bing Chat est très populaire. Entre autres mesures, une équipe de modérateurs humains est en place pour surveiller les abus, comme les utilisateurs qui tentent d’utiliser Bing Chat pour générer des courriels d’hameçonnage.

Mais comme les membres de la presse n’ont pas eu l’occasion d’interagir avec la dernière version de Bing au-delà des démonstrations, je ne peux pas dire dans quelle mesure tout cela a fait une différence. Cela deviendra sans doute plus clair une fois que plus de gens auront mis la main dessus.

Un aspect de Bing Chat qui est est la transparence de ses réponses, en particulier les réponses basées sur des faits. Bientôt, lorsqu’on lui demandera de résumer un document ou son contenu (par exemple, « que dit cette page sur le pont de Brooklyn ? »), qu’il s’agisse d’un PDF de 20 pages ou d’un article de Wikipedia, Bing Chat inclura des citations indiquant l’endroit du texte d’où proviennent les informations. En cliquant sur ces citations, le passage correspondant est mis en surbrillance.

Productivité émergente

Autre nouveauté sur le plan visuel, Bing Chat sera en mesure de créer des tableaux et des graphiques lorsqu’on lui fournira la bonne question et les bonnes données. Auparavant, une question du type « Quelles sont les villes les plus peuplées du Brésil ? » donnait lieu à une liste de résultats de base. Mais dans un futur proche, Bing Chat présentera ces résultats visuellement et dans le type de graphique choisi par l’utilisateur.

Cela semble représenter un pas en avant pour Bing vers une plateforme de productivité à part entière, en particulier lorsqu’elle est associée aux capacités améliorées de génération de texte à partir d’images qui sont en cours de développement.

Microsoft Bing Chat

Le créateur d’images dans Bing Chat. Crédits de l’image : Microsoft

Dans les semaines à venir, Bing Image Creator – l’outil de Microsoft qui permet de générer des images à partir d’invites textuelles, alimenté par DALL-E 2 – comprendra davantage de langues autres que l’anglais (plus de 100 au total). Comme pour l’anglais, les utilisateurs pourront affiner les images qu’ils génèrent à l’aide d’invites complémentaires (par exemple, « Créez une image d’un lapin », suivie de « Maintenant, rendez la fourrure rose »).

L’IA artistique générative fait souvent la une des journaux ces derniers temps, et pas forcément pour les raisons les plus optimistes.

Des plaignants ont intenté plusieurs actions en justice contre OpenAI et ses fournisseurs rivaux, alléguant que des données protégées par le droit d’auteur – essentiellement des œuvres d’art – avaient été utilisées sans leur autorisation pour entraîner des modèles génératifs tels que DALL-E 2. Les modèles génératifs « apprennent » à créer des œuvres d’art et autres en « s’entraînant » sur des échantillons d’images et de textes, généralement récupérés sans discernement sur le web public.

J’ai demandé à M. Bird si Microsoft envisageait de dédommager les créateurs dont les œuvres ont été intégrées dans les données d’entraînement, même si la position officielle de l’entreprise est qu’il s’agit d’une question d’utilisation équitable. Plusieurs plateformes lançant des outils d’IA générative, dont Shutterstock, ont lancé des fonds de créateurs dans ce sens. D’autres, comme Spawning, créent des mécanismes permettant aux artistes de ne pas participer à l’entraînement des modèles d’IA.

Mme Bird a laissé entendre qu’il faudrait un jour faire face à ces problèmes et que les créateurs de contenu méritaient une certaine forme de compensation. Mais elle n’a pas voulu s’engager sur quoi que ce soit de concret cette semaine.

Recherche multimodale

Dans le domaine de l’image, Bing Chat devient capable de comprendre les images aussi bien que le texte. Les utilisateurs pourront télécharger des images et rechercher sur le web des contenus connexes, par exemple en copiant un lien vers l’image d’une pieuvre crochetée et en posant à Bing Chat la question « comment faire ça ? » pour obtenir des instructions étape par étape.

La multimodalité est également à l’origine de la nouvelle fonction de contexte de page dans l’application Edge pour mobile. Les utilisateurs pourront poser des questions dans Bing Chat en rapport avec la page mobile qu’ils consultent.

Microsoft n’a pas voulu se prononcer, mais il semble probable que ces nouvelles capacités multimodales proviennent de GPT-4, qui peut comprendre les images en plus du texte. Lorsque OpenAI a annoncé GPT-4, elle n’a pas mis les capacités de compréhension des images du modèle à la disposition de tous les clients – et ne l’a toujours pas fait. Je parierais que Microsoft, en tant qu’investisseur majeur et collaborateur étroit d’OpenAI, dispose d’une sorte d’accès privilégié.

Tout outil de téléchargement d’images peut être utilisé à mauvais escient, bien sûr, et c’est pourquoi Microsoft utilise le filtrage automatisé et le hachage pour bloquer les téléchargements illicites, selon Bird. Nous n’avons pas eu l’occasion de tester nous-mêmes les téléchargements d’images.

Nouvelles fonctions de chat

La multimodalité et les nouvelles fonctionnalités visuelles ne sont pas les seules nouveautés de Bing Chat.

Bientôt, Bing Chat conservera l’historique des conversations des utilisateurs, ce qui leur permettra de reprendre là où ils se sont arrêtés et de revenir aux conversations précédentes lorsqu’ils le souhaitent. Cette expérience s’apparente à la fonction d’historique de chat qu’OpenAI a récemment apportée à ChatGPT, en affichant une liste de chats et les réponses du bot à chacun d’entre eux.

Les spécificités de la fonction d’historique des chats n’ont pas encore été définies, comme la durée exacte de stockage des chats. Mais les utilisateurs pourront supprimer leur historique à tout moment, selon Microsoft, ce qui répond aux critiques formulées par plusieurs gouvernements de l’Union européenne à l’encontre de ChatGPT.

Microsoft Bing Chat

Exportation et partage des chats de Bing Chat. Crédits d’image :Microsoft

Bing Chat sera également doté de fonctionnalités d’exportation et de partage, permettant aux utilisateurs de partager des conversations sur les médias sociaux ou dans un document Word. Dena Saunders, partenaire GM au sein de l’équipe des expériences web de Microsoft, a déclaré à TechCrunch qu’un système de copier-coller plus robuste est en préparation – mais pas encore en avant-première – pour les graphiques et les images créés par le biais de Bing Chat.

L’ajout le plus transformateur à Bing Chat est sans doute celui des plugins. Proposés par des partenaires comme OpenTable et Wolfram Alpha, les plugins étendent considérablement les possibilités de Bing Chat, par exemple en aidant les utilisateurs à effectuer une réservation ou à créer des visualisations et à obtenir des réponses à des questions scientifiques et mathématiques difficiles.

À l’instar de l’historique des chats, la fonctionnalité des plugins, qui n’est pas encore opérationnelle, en est au stade préliminaire. Il n’y a pas de marché de plugins à proprement parler ; les plugins peuvent être activés ou désactivés à partir de l’interface web de Bing Chat.

Saunders a laissé entendre, sans toutefois le confirmer, que le système de plugins de Bing Chat était associé – ou peut-être identique – aux plugins récemment introduits par OpenAI pour ChatGPT. Cela aurait certainement du sens, étant donné les similitudes entre les deux.

Edge, rafraîchi

Bing Chat est disponible sur Edge et sur le Web, bien sûr. Et Edge reçoit une nouvelle couche de peinture en même temps que Bing Chat.

Présenté pour la première fois en février, le nouveau navigateur Edge amélioré présente des coins arrondis, conformément à la philosophie de conception de Windows 11 de Microsoft. Les éléments du navigateur sont désormais plus « conteneurisés », comme l’a dit un porte-parole de Microsoft, et des modifications subtiles ont été apportées, comme le déplacement de l’image du compte Microsoft vers la gauche.

Dans Compose, l’outil de Edge alimenté par Bing Chat qui permet de rédiger des courriels et d’autres documents à partir d’une invite de base (par exemple, « écrire une invitation à l’anniversaire de mon chien »), une nouvelle option permet aux utilisateurs d’ajuster la longueur, la formulation et le ton du texte généré à presque tout ce qu’ils souhaitent. Bird précise que des filtres sont en place pour empêcher l’utilisation de tons clairement problématiques, tels que « haineux » ou « raciste ».

Les actions dans Edge, qui traduisent certaines invites de Bing Chat en automatismes, sont bien plus intrigantes que Compose, du moins à mes yeux.

La saisie d’une commande telle que « apporter mes mots de passe d’un autre navigateur » dans Bing Chat dans la barre latérale d’Edge ouvre la page des paramètres des données de navigation d’Edge, tandis que l’invite « jouer ‘Le Diable s’habille en Prada' » affiche une liste d’options de streaming, y compris Vudu et (comme on peut s’y attendre) le Microsoft Store. Il existe même une action qui organise automatiquement – et coordonne les couleurs – les onglets de navigation.

Microsoft Bing Chat

Actions de l’Edge dans… action. Crédits images : Microsoft

Les actions sont pour l’instant à un stade primitif. Mais l’objectif de Microsoft est clair. On peut imaginer que les actions s’étendent au-delà d’Edge pour atteindre d’autres produits Microsoft, comme Office 365, et peut-être un jour l’ensemble du bureau Windows.

Saunders n’a pas voulu confirmer ou infirmer qu’il s’agit de la finalité. « Restez à l’écoute de Microsoft Build », m’a-t-elle dit, en référence à la prochaine conférence des développeurs de Microsoft. Nous le ferons.

IA