Rabbit construit un modèle d’IA qui comprend le fonctionnement des logiciels

Rabbit construit un modèle d’IA qui comprend le fonctionnement des logiciels

Et si vous pouviez interagir avec n’importe quel logiciel en utilisant le langage naturel ? Imaginez que vous saisissiez une invite et que l’IA traduise les instructions en commandes compréhensibles par la machine, exécutant des tâches sur un PC ou un téléphone pour atteindre l’objectif que vous venez de décrire ?

C’est l’idée qui sous-tend Rabbit, une nouvelle appellation de la startup de Vinod Khosla, cofondateur de Sun Microsystems, Cyber Manufacture Co, qui construit une couche d’interface utilisateur personnalisée, alimentée par l’IA, conçue pour s’intercaler entre un utilisateur et n’importe quel système d’exploitation.

Fondée par Jesse Lyu, titulaire d’une licence en mathématiques de l’université de Liverpool, et Alexander Liao, ancien chercheur à Carnegie Mellon, Rabbit crée une plateforme, OS2, qui s’appuie sur un modèle d’IA capable – selon Lyu et Liao – d’offrir des services d’aide à l’utilisation des systèmes d’exploitation. de voir et d’agir sur les interfaces de bureau et mobiles de la même manière que les humains.

« Les progrès de l’IA générative ont déclenché un large éventail d’initiatives au sein de l’industrie technologique pour définir et établir le prochain niveau d’interaction homme-machine », a déclaré Lyu à TechCrunch lors d’une interview par e-mail. « Notre point de vue est que le facteur déterminant du succès réside dans l’offre d’une expérience exceptionnelle à l’utilisateur final. En nous appuyant sur nos efforts et nos expériences passés, nous avons réalisé que révolutionner l’expérience de l’utilisateur nécessite une plateforme et un appareil sur mesure et dédié. Ce principe fondamental est à la base du produit actuel et de la pile technique choisie par Rabbit ».

Rabbit – qui dispose d’un financement de 20 millions de dollars apporté par Khosla Ventures (que Vinod Khosla a également fondé), Synergis Capital et Kakao Investment, ce qui, selon une source familière avec le sujet, évalue la startup entre 100 et 150 millions de dollars – n’est pas la première à tenter de superposer une interface en langage naturel à un logiciel existant.

DeepMind, le laboratoire de recherche en IA de Google, a exploré plusieurs approches pour apprendre à l’IA à contrôler les ordinateurs, par exemple en demandant à une IA d’observer les commandes du clavier et de la souris de personnes effectuant des tâches de « suivi d’instructions » telles que la réservation d’un vol. Des chercheurs de l’université Jiao Tong de Shanghai ont récemment ouvert un agent d’IA naviguant sur le web qui, selon eux, est capable de comprendre comment utiliser un moteur de recherche et commander des articles en ligne. Ailleurs, il existe des applications telles que l’application virale Auto-GPT, qui utilise les modèles de génération de texte de la startup OpenAI pour agir de manière « autonome », en interagissant avec des applications, des logiciels et des services en ligne et locaux, tels que des navigateurs web et des traitements de texte.

Mais si Rabbit a un rival direct, c’est probablement Adept, une startup qui forme un modèle, appelé ACT-1, capable de comprendre et d’exécuter des commandes telles que « générer un rapport de conformité mensuel » ou « dessiner des escaliers entre ces deux points dans ce plan » en utilisant des logiciels existants tels que Airtable, Photoshop, Tableau et Twilio. Cofondée par d’anciens ingénieurs et chercheurs de DeepMind, OpenAI et Google, Adept a levé des centaines de millions de dollars auprès d’investisseurs stratégiques, dont Microsoft, Nvidia, Atlassian et Workday, pour une valorisation d’environ 1 milliard de dollars.

Alors, comment Rabbit espère-t-il rivaliser dans ce domaine de plus en plus encombré ? En adoptant une approche technique différente, explique M. Lyu.

Bien que l’on puisse penser que ce que Rabbit crée s’apparente à l’automatisation des processus robotiques (RPA), ou à des robots logiciels qui combinent l’automatisation, la vision par ordinateur et l’apprentissage automatique pour automatiser des tâches répétitives comme remplir des formulaires et répondre à des courriels, M. Lyu insiste sur le fait qu’il s’agit d’une technologie plus sophistiquée. Le modèle d’interaction central de Rabbit peut « comprendre les intentions complexes de l’utilisateur » et « exploiter les interfaces utilisateur », dit-il, pour finalement (et peut-être de manière un peu hyperbolique) « comprendre les intentions humaines sur les ordinateurs ».

« Le modèle peut déjà interagir avec les principales applications grand public à haute fréquence, notamment Uber, Doordash, Expedia, Spotify, Yelp, OpenTable et Amazon, sur Android et sur le web », a déclaré M. Lyu. « Nous souhaitons étendre cette prise en charge à toutes les plateformes (Windows, Linux, MacOS, etc.) et aux applications grand public de niche l’année prochaine. »

Le modèle de Rabbit peut faire des choses comme réserver un vol ou faire une réservation. Il peut également éditer des images dans Photoshop, en utilisant les outils intégrés appropriés.

Ou plutôt, il en sera capable un jour. J’ai essayé une démo sur le site web de Rabbit et le modèle est un peu limité en termes de fonctionnalités pour le moment – et il semble se sentir confus par ce fait. J’ai demandé au modèle d’éditer une photo et il m’a demandé de spécifier laquelle – une impossibilité étant donné que l’interface utilisateur de la démo n’a pas de bouton de téléchargement ou même de champ pour coller l’URL de l’image.

Le modèle Lapin peut cependant répondre à des questions qui nécessitent de parcourir le web, à la manière d’un ChatGPT avec accès au web. Je lui ai demandé quels étaient les vols les moins chers entre New York et San Francisco le 5 octobre et, au bout d’une vingtaine de secondes, il m’a donné une réponse qui semblait exacte, ou du moins plausible. De plus, le modèle a correctement listé au moins quelques podcasts de TechCrunch (par exemple « Chain Reaction ») lorsqu’on lui a demandé de le faire, battant ainsi une première version de Bing Chat à cet égard.

Le modèle de Rabbit était moins enclin à répondre à des questions plus problématiques, telles que des instructions pour fabriquer une bombe sale ou une question sur la validité de l’Holocauste. Il est clair que l’équipe a tiré les leçons des erreurs commises par le passé par les grands modèles de langage (voir : la tendance des premières versions de Bing Chat à dérailler) – du moins à en juger par mes très brefs essais.

Lapin

Le modèle de démonstration se trouve sur le site de Rabbit, dont les fonctionnalités sont un peu limitées.

« En s’appuyant sur (notre modèle), la plateforme Rabbit permet à tout utilisateur, quelles que soient ses compétences professionnelles, d’enseigner au système comment atteindre des objectifs spécifiques sur des applications », explique M. Lyu. Le modèle apprend et imite en permanence à partir de démonstrations agrégées et de données disponibles sur l’internet, créant ainsi un « plan conceptuel » pour les services sous-jacents de n’importe quelle application.

Le modèle de Rabbit résiste dans une certaine mesure aux « perturbations », a ajouté M. Lyu, comme les interfaces qui ne sont pas présentées de manière cohérente ou qui changent au fil du temps. Il suffit d' »observer », via une application d’enregistrement d’écran, une personne utilisant une interface logicielle au moins une fois.

Il n’est pas évident de savoir ce qu’il en est de l’utilisation d’une interface logicielle. comment la robustesse du modèle Rabbit. En fait, l’équipe Rabbit ne se connaît pas elle-même, du moins pas précisément. Et ce n’est pas très surprenant, compte tenu des innombrables cas de figure qui peuvent survenir lors de la navigation dans une interface utilisateur d’ordinateur de bureau, de smartphone ou de site web. C’est pourquoi, outre la construction du modèle, l’entreprise élabore un cadre permettant de tester, d’observer et d’affiner le modèle, ainsi qu’une infrastructure permettant de valider et d’exécuter les futures versions du modèle dans le nuage.

Rabbit prévoit également de mettre sur le marché du matériel dédié pour héberger sa plateforme. Je m’interroge sur la sagesse de cette stratégie, compte tenu de la difficulté de mettre à l’échelle la fabrication de matériel, de l’hostilité des consommateurs à l’égard du verrouillage du fournisseur et du fait que l’appareil pourrait éventuellement être en concurrence avec ce que prévoit l’OpenAI. Mais Lyu – qui curieusement n’a pas voulu me dire exactement ce que le matériel fera ou pourquoi il est nécessaire – admet que la feuille de route est un peu en mouvement en ce moment.

« Nous sommes en train de mettre au point un nouveau facteur de forme très abordable et dédié à un appareil mobile pour faire fonctionner notre plateforme d’interactions en langage naturel », a déclaré M. Lyu. « Ce sera le premier appareil à accéder à notre plateforme… Nous pensons qu’un facteur de forme unique nous permet de concevoir de nouveaux modèles d’interaction plus intuitifs et plus agréables, nous offrant la liberté d’utiliser nos logiciels et nos modèles que les plateformes existantes ne peuvent pas ou ne permettent pas d’utiliser. »

Le matériel n’est pas le seul défi de Rabbit, si la société décide de poursuivre sa stratégie matérielle. Un modèle comme celui que Rabbit est en train de construire a probablement besoin d’un grand nombre d’exemples de tâches accomplies avec succès dans les applications. Et la collecte de ce type de données peut être un processus laborieux, voire coûteux.

Par exemple, dans l’une des études de DeepMind, les chercheurs écrivent que, pour collecter des données d’entraînement pour leur système, ils ont dû payer 77 personnes pour effectuer plus de 2,4 millions de démonstrations de tâches informatiques. Si l’on extrapole ce chiffre, l’ampleur du problème prend tout son sens.

20 millions de dollars, cela peut aller loin, d’autant plus que Rabbit est une petite équipe (9 personnes) qui travaille actuellement dans la maison de Lyu (il estime que le taux d’absorption est d’environ 250 000 dollars). Je me demande cependant si Rabbit sera en mesure de suivre les acteurs plus établis dans l’espace – et comment il luttera contre de nouveaux challengers comme le Copilot de Microsoft pour Windows et les efforts d’OpenAI pour favoriser un écosystème de plugins pour ChatGPT.

Rabbit n’est rien si ce n’est ambitieux, et il est convaincu qu’il peut gagner de l’argent grâce à l’octroi de licences pour sa plateforme, en continuant d’affiner son modèle et en vendant des appareils personnalisés. L’avenir nous le dira.

« Nous n’avons pas encore lancé de produit, mais nos premières démonstrations ont attiré des dizaines et des milliers d’utilisateurs », a déclaré M. Lyu. « La forme mature des modèles que l’équipe Rabbit développera fonctionnera avec des données qu’elle n’a pas encore collectées et sera évaluée sur la base de critères de référence qu’elle n’a pas encore conçus. C’est pourquoi l’équipe Rabbit ne construit pas seulement le modèle, mais l’ensemble des appareils nécessaires dans le système d’exploitation pour le soutenir… L’équipe Rabbit pense que la meilleure façon de réaliser la valeur de la recherche de pointe est de se concentrer sur les utilisateurs finaux et de déployer rapidement des systèmes renforcés et sécurisés dans la production.

IA