Covariant construit ChatGPT pour les robots

Covariant construit ChatGPT pour les robots

Covariant cette semaine a annoncé le lancement de RFM-1 (Robotics Foundation Model 1). Peter Chen, cofondateur et PDG de l’entreprise dérivée de l’intelligence artificielle de l’université de Berkeley, explique à TechCrunch que la plateforme « est essentiellement un grand modèle de langage (LLM), mais pour le langage des robots ».

RFM-1 est le résultat, entre autres, d’une masse de données collectées lors du déploiement de la plateforme Brain AI de Covariant. Avec l’accord de ses clients, la startup a construit l’équivalent robotique d’une base de données LLM.

« La vision de RFM-1 est d’alimenter les milliards de robots à venir », explique Chen. « Chez Covariant, nous avons déjà déployé avec succès de nombreux robots dans des entrepôts. Mais ce n’est pas la limite de ce que nous voulons atteindre. Nous voulons vraiment alimenter des robots dans les secteurs de la fabrication, de la transformation des aliments, du recyclage, de l’agriculture, de l’industrie des services et même dans les foyers.

La plateforme est lancée alors que de plus en plus d’entreprises de robotique discutent de l’avenir des systèmes « à usage général ». L’arrivée soudaine d’entreprises de robotique humanoïde comme Agility, Figure, 1X et Apptronik a joué un rôle essentiel dans ce débat. Le facteur de forme est particulièrement adapté à l’adaptabilité (tout comme les humains sur lesquels il est modelé), bien que la robustesse des systèmes d’IA/logiciels embarqués soit une toute autre question.

Pour l’instant, le logiciel de Covariant est largement déployé sur des bras robotisés industriels effectuant une variété de tâches familières dans les entrepôts, y compris des travaux tels que la collecte de bacs. Il n’est pas encore déployé sur des humanoïdes, bien que la société promette un certain degré d’agnosticisme en matière de matériel.

« Nous apprécions beaucoup le travail réalisé dans le domaine du matériel robotique à usage plus général », déclare M. Chen. « C’est en couplant le point d’inflexion de l’intelligence à celui du matériel que nous assisterons à une explosion des applications robotiques. Mais beaucoup d’entre elles ne sont pas encore tout à fait au point, en particulier du côté du matériel. Il est très difficile d’aller au-delà de la vidéo mise en scène. Combien de personnes ont interagi avec un humanoïde en personne ? Cela vous indique le degré de maturité ».

Crédits d’image : Covariant

Covariant n’hésite cependant pas à faire des comparaisons avec les humains lorsqu’il s’agit du rôle que joue RFM-1 dans les processus de prise de décision des robots. Selon ses documents de presse, la plateforme « offre aux robots une capacité de raisonnement semblable à celle des humains, ce qui représente la première fois que l’IA générative a réussi à donner à des robots commerciaux une compréhension plus profonde du langage et du monde physique ».

C’est l’un des domaines où il faut être prudent avec les affirmations, à la fois en termes de comparaisons avec des concepts abstraits – ou même philosophiques – et d’efficacité réelle dans le temps. La « capacité de raisonnement semblable à celle d’un être humain » est un concept très large qui signifie beaucoup de choses différentes pour beaucoup de personnes différentes. Dans le cas présent, cette notion s’applique à la capacité du système à traiter les données du monde réel et à déterminer le meilleur plan d’action pour exécuter la tâche à accomplir.

Il s’agit d’une rupture par rapport aux systèmes robotiques traditionnels qui sont programmés pour effectuer une tâche de manière répétée, à l’infini. Ces robots à vocation unique ont prospéré dans des environnements très structurés, à commencer par les chaînes de montage automobile. Tant que les changements apportés à la tâche à accomplir sont minimes, un bras robotisé peut faire son travail encore et encore, sans entrave, jusqu’à ce qu’il soit temps d’en finir et de récupérer la montre de poche en or pour ses années de bons et loyaux services.

Les choses peuvent toutefois se gâter rapidement, même avec les plus petites déviations. Supposons que l’objet ne soit pas placé exactement au bon endroit sur le tapis roulant, ou que l’éclairage ait été modifié, ce qui a un impact sur les caméras embarquées. Ce type de différences peut avoir un impact considérable sur la capacité d’exécution du robot. Imaginez maintenant que vous essayez de faire travailler ce robot avec une nouvelle pièce, un nouveau matériau ou même une tâche totalement différente. C’est encore plus difficile.

C’est à ce stade que les programmeurs interviennent traditionnellement. Le robot doit être reprogrammé. Le plus souvent, c’est une personne extérieure à l’usine qui intervient. Il s’agit là d’une perte de temps et de ressources considérable. Si vous voulez éviter cela, deux choses doivent se produire : 1) les personnes travaillant dans l’atelier doivent apprendre le code ou 2) vous devez trouver une nouvelle méthode, plus naturelle, pour interagir avec le robot.

Bien qu’il serait formidable de faire la première chose, il semble peu probable que les entreprises soient prêtes à investir l’argent et à attendre le temps nécessaire. C’est précisément ce que Covariant tente de faire avec RFM-1. « ChatGPT pour les robots » n’est pas une analogie parfaite, mais c’est un raccourci raisonnable (en particulier à la lumière du lien des fondateurs avec OpenAI).

Du point de vue du client, la plateforme se présente comme un champ de texte, un peu comme l’itération actuelle de l’IA générative orientée vers le consommateur. Saisissez une commande textuelle telle que « ramassez la pomme » en tapant ou en parlant, et le système utilise ses données d’apprentissage (forme, couleur, taille, etc.) pour identifier l’objet en face de lui qui correspond le mieux à cette description.

RFM-1 génère ensuite des résultats vidéo – en fait des simulations – afin de déterminer le meilleur plan d’action en fonction de l’entraînement passé. Ce dernier point est similaire à la manière dont notre cerveau étudie les résultats potentiels d’une action avant de l’exécuter.

Lors d’une démonstration en direct, le système a réagi à des commandes telles que « ramassez l’objet rouge » et même à une commande sémantiquement plus complexe, « ramassez ce que vous mettez à vos pieds avant de mettre vos chaussures », ce qui a amené le robot à ramasser correctement la pomme et une paire de chaussettes, respectivement.

Beaucoup de grandes idées sont lancées lorsqu’il s’agit de discuter des promesses du système. À tout le moins, Covariant a un pedigree impressionnant parmi ses fondateurs. M. Chen a étudié l’IA à Berkeley sous la direction de Pieter Abbeel, cofondateur et responsable scientifique de Covariant. Abbeel est également devenu l’un des premiers employés d’OpenAI en 2016, un mois après que Chen a rejoint la société ChatGPT. Covariant a été fondée l’année suivante.

Chen dit que la société s’attend à ce que la nouvelle plateforme RFM-1 fonctionne avec une « majorité » du matériel sur lequel le logiciel Covariant est déjà déployé.

IA