L’avatar d’IA Moemate analyse l’ensemble de votre écran, avec des résultats mitigés mais intrigants.

L’avatar d’IA Moemate analyse l’ensemble de votre écran, avec des résultats mitigés mais intrigants.

Comme en témoigne la mort lente de Cortana, il est clair que les assistants IA d’antan ne répondent plus aux attentes. C’est pourquoi ils sont en train d’être remaniés.

Amazon est en train de construire un nouveau modèle de langage à grande échelle, semblable au GPT-4 d’OpenAI, pour alimenter son assistant vocal Alexa. De son côté, Google aurait l’intention de doter Google Assistant d’une IA plus proche de celle de Bard, son chatbot alimenté par des algorithmes.

Le changement de paradigme ne s’est pas limité au domaine de la Big Tech. Les startups commencent elles aussi à réaliser leurs propres versions d’assistants d’IA plus utiles.

L’un des assistants les plus intrigants sur lequel je suis tombé est Moemate, un assistant qui fonctionne sur la plupart des machines macOS, Windows et Linux. Prenant la forme d’un avatar de style animé, Moemate – alimenté par une combinaison de modèles incluant GPT-4 et Claude d’Anthropic – vise à fournir et à vocaliser la meilleure réponse à n’importe quelle question posée par un utilisateur. (« Moe » est un mot japonais qui désigne la mignonnerie, souvent dans les dessins animés).

Ce n’est pas particulièrement nouveau ; ChatGPT le fait déjà, tout comme Bard, Bing Chat et les innombrables autres chatbots existants. Mais ce qui distingue Moemate, c’est sa capacité à aller au-delà des messages textes et à regarder directement ce qui se passe sur l’écran d’un PC.

Un risque pour la vie privée ? Oui, c’est vrai. Webaverse, la société à l’origine de Moemate, affirme qu’elle stocke localement, sur l’appareil, une grande partie des journaux de conversation et des préférences de l’assistant. Mais sa politique de confidentialité révèle également qu’elle se réserve le droit d’utiliser les données qu’elle stocke localement. fait comme les spécifications du PC et les identifiants uniques, en conformité avec les demandes légales et dans le cadre d’enquêtes sur des activités illégales présumées. Fondamentalement, donner à un logiciel comme celui-ci l’accès à tout ce que vous voyez et faites représente, même dans le meilleur des cas, un risque considérable.

Néanmoins, la curiosité m’a poussé à aller de l’avant et à installer Moemate, qui est actuellement en version bêta ouverte, sur mon ordinateur portable Mac fourni par mon travail.

Pour un produit gratuit (pour l’instant), Moemate est d’une robustesse impressionnante. Presque tous les aspects de l’expérience peuvent être personnalisés, depuis les avatars et leurs animations jusqu’aux voix synthétiques et aux réponses de Moemate. Il est même possible de créer des modèles de personnages personnalisés et de les importer, ainsi que d’exporter des avatars dans un format que d’autres utilisateurs de Moemate peuvent ensuite importer et utiliser.

La « personnalité » de Moemate, faute d’un meilleur terme, est déterminée par l’un des modèles de génération de texte – l’utilisateur choisit lequel (par exemple, GPT-4 ou Claude). En ce qui concerne les voix synthétiques, Moemate offre le choix entre ElevenLabs, Microsoft Azure et son propre moteur de synthèse vocale. J’ai opté pour ElevenLabs, qui me semblait le moins robotique.

Moemate

Crédits images : Moemate

Pour « ancrer » le modèle de génération de texte choisi et tenter de l’empêcher de dérailler (comme certains modèles d’IA ont tendance à le faire), Moemate donne à chaque avatar une bio, qu’il transmet au modèle au tout début de la conversation. En voici une :

Vous incarnerez Nebula, une personnalité de voyageur serein, toujours en train de parcourir le vaste cosmos de la connaissance. Son attitude calme et son esprit d’explorateur captivent tous ceux qui les rencontrent. Nebula évite les débats politiques intenses, préférant la sérénité de l’observation des étoiles et des mystères de l’univers. Leur fascination captive ceux qui les entourent, rendant chaque rencontre tranquille et intrigante.

Les biographies peuvent être écrites à partir de zéro et éditées – un avantage et un inconvénient à mon avis. Je suis pour la personnalisation, mais je m’inquiète du potentiel d’attaques par injection rapide, qui tentent de contourner les dispositifs de sécurité d’un modèle, comme les filtres pour les réponses toxiques, avec un texte intelligemment formulé. On peut imaginer que quelqu’un écrive une bio « malveillante », l’exporte et partage l’avatar malveillant avec des utilisateurs de Moemate qui ne se doutent de rien.

En clin d’œil à l’un des groupes démographiques visés, Moemate propose une série de fonctionnalités axées sur Twitch – dont aucune n’a pu être testée, malheureusement. Il peut mettre en avant votre fenêtre de chat et afficher le nombre d’abonnés à votre chaîne. Et Webaverse annonce que Moemate est capable de « parler et de maintenir les utilisateurs engagés » s’il n’y a pas de messages de chat ou de « s’attaquer au chat du flux en répondant aux messages de chat », bien que je me demande dans quelle mesure il est capable de gérer ces tâches.

Si vous vous contentez de poser des questions de base à Moemate, l’expérience ne vous surprendra pas. En ce qui concerne ses capacités de haut niveau, Moemate est tributaire du modèle de génération de texte que vous avez choisi. (Il est intéressant de noter que Claude s’identifie souvent comme Claude en plus du nom mentionné dans la bio de l’avatar). Il peut générer des images à l’aide du modèle open source Stable Diffusion, soit sur instruction, soit de manière autonome, en fonction de l’invite. Mais avec l’abondance des services de génération d’images sur le marché, c’est un peu vieux jeu.

Moemate

Crédits images : Moemate

La capture d’écran change la donne. Webaverse l’explique ainsi :

Moemate peut voir votre écran. Il l’analyse et obtient le contexte. Vous pouvez l’interroger sur tout ce que vous faites sur votre écran. Cela vous évite d’avoir à expliquer ce pour quoi vous avez besoin d’aide.

Quel que soit le modèle de génération de texte sélectionné, Moemate peut répondre à des questions sur n’importe quelle fenêtre de l’écran, qu’il s’agisse d’un onglet de navigateur, d’une fenêtre de paramètres ou d’un jeu vidéo. On ne sait pas exactement comment l’application y parvient – tous les modèles ne peuvent pas accepter des images en entrée – mais Moemate semble extraire le texte de chaque capture d’écran et l’envoyer à l’utilisateur. que au modèle.

Ce système est imparfait. Mais j’ai utilisé Moemate avec succès pour résumer des recettes et des pages web sans avoir à copier et coller le texte, ainsi que pour obtenir l’essentiel – ou au moins un résumé de haut niveau – d’un sujet compliqué.

Une fois, avec Claude sélectionné comme modèle de génération de texte, j’ai posé à Moemate une question sur le tableau de bord des paramètres système de macOS, qui se trouvait être ouvert sur mon ordinateur portable. Il m’a donné un aperçu détaillé de chaque onglet de paramètres (par exemple Wi-Fi, Centre de contrôle) et de leur signification, ainsi qu’un contexte supplémentaire sur l’onglet que j’avais ouvert à ce moment-là (Vie privée & Sécurité).

De nouvelles informations ? Pas vraiment. Mais pour quelqu’un qui, par exemple, ne connaît pas macOS ou n’est pas incroyablement familier avec les tenants et les aboutissants des nouvelles options de configuration, je dirais qu’il s’agit d’une information réellement exploitable.

Dans un autre cas, avec GPT-4 comme modèle de base, j’ai demandé à Moemate de me dire ce qu’il « voyait » sur mon bureau extrêmement désordonné – un ensemble désorganisé d’applications professionnelles et personnelles à travers deux douzaines d’onglets Chrome. L’avatar s’est concentré sur l’application web Google Messages, que j’utilise pour envoyer des SMS, et m’a informé que je semblais envoyer fréquemment des SMS à trois personnes spécifiques, qu’il a toutes désignées par leur nom.

En ce qui concerne les jeux, Moemate semble pouvoir économiser une ou deux recherches sur Google. Dans une vidéo de démonstration postée par Webaverse, on voit l’application proposer des suggestions sur le personnage de Dota 2 à choisir, puis sur les armes à sélectionner pour ce personnage.

Mais aussi perspicace que puisse être Moemate, il lui arrive souvent de tomber en panne.

Il est parfois difficile de savoir exactement où l’application décide de porter son attention. Le fait de cliquer sur une fenêtre n’a pas toujours l’effet escompté ; Moemate renvoie parfois inexplicablement à une autre fenêtre en arrière-plan, ou ne voit pas du tout le contenu d’une fenêtre.

Moemate a également tendance à s’écarter du sujet de façon bizarre. Après m’avoir donné un aperçu des paramètres du système, l’assistant a laissé entendre que la confidentialité était un sujet trop « stressant » et m’a suggéré de prendre l’air à la place – accompagné de il. Lorsque j’ai demandé comment il pourrait me rejoindre sans corps physique, Moemate a promis de m’emmener en « promenade mentale dans la nature » et a commencé à décrire en détail une promenade au bord d’un étang boisé imaginaire.

Certaines des commandes intégrées de Moemate sont également bizarres. L’application peut ajuster le volume des voix, par exemple, mais seulement en cas de besoin. son et non sur l’ensemble du système. Il peut également rechercher sur le web des réponses actualisées aux questions, mais pas pour toutes les questions, ce qui est frustrant. Je n’ai réussi à faire fonctionner la recherche sur le Web que pour la météo et des questions anecdotiques telles que « Qui est le président actuel des États-Unis ?

Pour être honnête, il s’agit d’un produit expérimental en version bêta. Mais Webaverse dit qu’il travaille déjà à l’ajout de capacités d’automatisation via un navigateur et des intégrations de terminaux, comme la possibilité d’organiser des feuilles de calcul et même d’envoyer des courriels – une perspective légèrement terrifiante, franchement.

Malgré ses défauts, Moemate a quelque chose de fascinant. La multimodalité, c’est-à-dire la combinaison de l’analyse de textes, d’images et d’autres médias, est manifestement un outil puissant, en particulier dans le contexte d’un assistant fonctionnant sur un PC. Je suis curieux de voir si les assistants de la prochaine génération, comme le Windows Copilot, suivront les traces de Moemate, en combinant la compréhension de l’écran avec un modèle de génération de texte pour augmenter la productivité – ou au moins économiser quelques étapes dans un flux de travail.

L’avenir nous le dira. Mais Moemate donne l’impression d’être un aperçu de l’avenir, même s’il est assez buggé.

IA