Suivre l’évolution d’un secteur aussi rapide que l’IA n’est pas une mince affaire. En attendant qu’une IA puisse le faire à votre place, voici un récapitulatif pratique des événements de la semaine dernière dans le monde de l’apprentissage automatique, ainsi que des recherches et des expériences notables que nous n’avons pas couvertes en tant que telles.
Cette semaine, Amazon a annoncé qu’elle commencerait à utiliser l’IA générative pour « améliorer » les commentaires sur les produits. Une fois déployée, cette fonctionnalité fournira un court paragraphe de texte sur la page de détail du produit qui mettra en évidence les capacités du produit et les sentiments des clients mentionnés dans les commentaires.
Cette fonctionnalité semble utile, non ? Peut-être pour les acheteurs et les vendeurs. Mais qu’en est-il des évaluateurs ?
Je ne vais pas prétendre que les commentaires d’Amazon sont une forme de grand art. Au contraire, un grand nombre d’entre eux sur la plateforme ne sont pas réels – ou sont eux-mêmes générés par l’intelligence artificielle.
Mais certains auteurs d’avis, que ce soit par souci sincère pour leurs collègues acheteurs ou par souci de créativité, consacrent du temps à la rédaction d’avis qui ne se contentent pas d’informer, mais qui divertissent. En résumant ces commentaires, on ne leur rendrait pas justice et on passerait complètement à côté de l’essentiel.
Peut-être êtes-vous déjà tombé sur ces joyaux. On les trouve souvent dans les sections consacrées aux critiques de livres et de films, où, d’après mon expérience anecdotique, les critiques d’Amazon ont tendance à être plus… verbeux.
Prenons l’exemple de la critique de « Sweet Home », utilisateur d’Amazon, sur « L’attrape-cœurs » de J. D. Salinger, qui compte plus de 2 000 mots. Faisant référence aux œuvres de William S. Burroughs et de Jack Kerouac, ainsi qu’à celles de George Bernard Shaw, Gary Snyder et Dorothy Parker, la critique de Sweet Home est moins une critique qu’une analyse approfondie, reprenant et contextualisant les fils du roman pour tenter d’expliquer sa persistance.
Et puis il y a la critique de Bryan Desmond sur « L’arc-en-ciel de Gravity », le roman de Thomas Pynchon dont la densité est tristement célèbre. Tout aussi verbeuse – 1 120 mots – elle souligne non seulement les points forts (prose éblouissante) et les points faibles (attitudes dépassées, en particulier à l’égard des femmes) du livre, comme on peut l’attendre d’une critique, mais elle relate en détail l’expérience de lecture de Bryan Desmond.
L’IA pourrait-elle les résumer ? Bien sûr, mais au détriment de la nuance et de la perspicacité.
Bien sûr, Amazon n’a pas l’intention de masquer les critiques au profit de résumés générés par l’IA. Mais je crains que les évaluateurs ne soient moins enclins à consacrer autant de temps et d’attention si leur travail est de moins en moins lu par l’acheteur moyen. Il s’agit d’une grande expérience, et je suppose que, comme pour la plupart des choses que l’IA générative touche, seul l’avenir nous le dira.
Voici d’autres articles sur l’IA parus ces derniers jours :
- Mon IA se fait la malle : La fonction Mon IA de Snapchat, un chatbot IA in-app lancé au début de l’année avec sa part de controverse, a brièvement semblé avoir son propre esprit. Mardi, l’IA a publié sa propre histoire dans l’application, puis a cessé de répondre aux messages des utilisateurs, ce que certains utilisateurs de Snapchat ont trouvé déconcertant. La société mère de Snapchat, Snap, a confirmé par la suite qu’il s’agissait d’un bug.
- OpenAI propose une nouvelle technique de modération : OpenAI affirme avoir développé un moyen d’utiliser GPT-4, son modèle d’IA générative phare, pour la modération de contenu, allégeant ainsi le fardeau des équipes humaines.
- OpenAI acquiert une société : OpenAI a fait l’acquisition de Global Illumination, une startup new-yorkaise qui utilise l’IA pour créer des outils créatifs, des infrastructures et des expériences numériques. Il s’agit de la première acquisition publique d’OpenAI depuis sa création il y a environ sept ans.
- Un nouvel ensemble de données d’entraînement LLM : L’Allen Institute for AI a publié un énorme ensemble de données textuelles pour les grands modèles de langage (LLM), sur le modèle du ChatGPT d’OpenAI, dont l’utilisation est gratuite et ouverte à l’inspection. Dolma, comme l’ensemble de données est appelé, est destiné à servir de base au modèle de langage ouvert prévu par le groupe de recherche, ou OLMo (Dolma est l’abréviation de « Data to feed OLMo’s Appetite », soit « Données pour nourrir l’appétit d’OLMo »).
- Robots lave-vaisselle, robots ouvreurs de portes : Des chercheurs de l’ETH Zurich ont mis au point une méthode pour apprendre aux robots à effectuer des tâches telles que l’ouverture et le franchissement de portes – et plus encore. L’équipe affirme que le système peut être adapté à différents facteurs de forme, mais par souci de simplicité, ils ont effectué des démonstrations sur un quadrupède – que l’on peut voir ici.
- Opera se dote d’un assistant IA : L’application du navigateur web d’Opera pour iOS se dote d’un assistant IA. La société a annoncé cette semaine qu’Opera sur iOS inclura désormais Aria, son produit d’intelligence artificielle pour navigateur construit en collaboration avec OpenAI, intégré directement dans le navigateur web et gratuit pour tous les utilisateurs.
- Google adopte les résumés d’IA : Google a déployé cette semaine quelques nouvelles mises à jour de sa Search Generative Experience (SGE), créée il y a près de trois mois., le mode conversationnel de l’entreprise basé sur l’IA dans la recherche, dans le but d’aider les utilisateurs à mieux apprendre et à donner un sens aux informations qu’ils découvrent sur le Web. Les fonctionnalités comprennent des outils permettant de voir les définitions de termes peu familiers, des outils permettant d’améliorer la compréhension et le codage des informations dans plusieurs langues, ainsi qu’une fonctionnalité intéressante qui vous permet d’exploiter la puissance de l’IA de SGE pendant que vous naviguez.
- Google Photos se dote de l’IA : Google Photos a ajouté une nouvelle façon de revivre et de partager vos moments les plus mémorables avec l’introduction d’une nouvelle vue Souvenirs, qui vous permet de sauvegarder vos souvenirs préférés ou de créer vos propres souvenirs. Avec la vue Souvenirs, vous pouvez créer une chronologie semblable à un album de coupures de presse qui inclut vos voyages les plus mémorables, vos célébrations et vos moments quotidiens avec vos proches.
- Anthropic lève plus de fonds : AnthropiqueAnthropic, une startup spécialisée dans l’IA et cofondée par d’anciens dirigeants d’OpenAI, recevra un financement de 100 millions de dollars de la part de l’un des plus grands opérateurs de téléphonie mobile de Corée du Sud, SK Telecom, a annoncé la société de télécommunications dimanche. Ce financement intervient trois mois après qu’Anthropic a levé 450 millions de dollars lors de son tour de table de série C mené par Spark Capital en mai.
Plus d’informations sur l’apprentissage automatique
J’étais (c’est-à-dire ton co-auteur Devin) au SIGGRAPH la semaine dernière, où l’IA, bien qu’elle soit actuellement un épouvantail dans l’industrie du cinéma et de la télévision, était en pleine vigueur à la fois comme outil et comme sujet de recherche. J’aurai bientôt un article plus long sur la façon dont elle est utilisée par les artistes VFX de manière innovante et totalement incontrôlée, mais les documents présentés étaient également très intéressants. Cette session en particulier a présenté plusieurs nouvelles idées intéressantes.
Les modèles de génération d’images ont ceci d’étrange que si vous leur demandez de dessiner « un chat blanc et un chien noir », ils mélangent souvent les deux, en ignorent un, ou font un chat-chien ou des animaux qui sont à la fois noirs et blancs. Une approche de l’université de Tel Aviv, appelée « attention et excitation », permet de trier le message en ses éléments constitutifs grâce à l’attention, puis de s’assurer que l’image résultante contient des représentations correctes de chacun d’entre eux. Le résultat est un modèle beaucoup plus performant pour analyser les questions portant sur plusieurs sujets. Je m’attends à ce qu’un tel modèle soit bientôt intégré aux générateurs d’œuvres d’art !
Une autre faiblesse des modèles d’art génératif est que si vous souhaitez apporter de petites modifications, comme un sujet un peu plus sur le côté, vous devez tout refaire, en perdant parfois ce que vous aimiez dans l’image au départ. « Drag Your GAN » est un outil assez étonnant qui permet à l’utilisateur de définir et de déplacer des points un par un ou plusieurs à la fois. Comme vous pouvez le voir sur l’image, la tête d’un lion peut être tournée, ou sa gueule ouverte, en régénérant juste cette partie de l’image pour qu’elle corresponde aux nouvelles proportions. Google figure dans la liste des auteurs, il y a donc fort à parier qu’ils étudient les possibilités d’utilisation de ce logiciel.
Ce document sur la « typographie sémantique » est plus amusant, mais aussi extrêmement intelligent. En traitant chaque lettre comme une image vectorielle et en orientant cette image vers une image vectorielle de l’objet auquel le mot fait référence, il crée des logotypes assez impressionnants. Si vous ne savez pas comment transformer le nom de votre entreprise en un jeu de mots visuel, c’est une excellente façon de commencer.
Ailleurs, nous avons une intéressante pollinisation croisée entre la science du cerveau et l’IA.
Ces chercheurs de Berkeley ont utilisé un modèle d’apprentissage automatique pour interpréter l’activité cérébrale pendant l’écoute de la musique et reconstruire certains des groupes qui se concentraient sur le rythme, la mélodie ou les voix. Je suis toujours sceptique à l’égard de ce type d’études « nous lisons dans le cerveau », alors prenez tout cela avec un grain de sel, mais l’apprentissage automatique est excellent pour isoler un signal dans le bruit, et l’activité cérébrale est très, très bruyante.
Le MIT et Harvard se sont associés pour tenter de mieux comprendre les astrocytes, des cellules du cerveau qui remplissent une fonction encore inconnue. Ils proposent que ces cellules agissent comme un transformateur ou un mécanisme d’attention – un concept d’apprentissage automatique étant transposé dans le cerveau plutôt que l’inverse ! L’auteur principal de l’article, Dmitry Krotov, du MIT, résume bien la situation :
Le cerveau est bien supérieur aux meilleurs réseaux neuronaux artificiels que nous avons développés, mais nous ne savons pas exactement comment il fonctionne. La réflexion sur les connexions entre le matériel biologique et les réseaux d’intelligence artificielle à grande échelle présente un intérêt scientifique. Il s’agit des neurosciences pour l’IA et de l’IA pour les neurosciences.
Dans le domaine de l’IA médicale, les données provenant d’appareils grand public sont souvent considérées comme bruyantes ou peu fiables. Mais là encore, les systèmes d’intelligence artificielle peuvent s’adapter, comme le montre ce nouvel article de Yale. Cette recherche devrait nous rapprocher des dispositifs portables qui nous avertissent des problèmes cardiaques avant qu’ils ne deviennent graves.
L’une des premières applications pratiques du GPT-4 a été utilisée dans Be My Eyes, une application qui aide les aveugles à naviguer avec l’aide d’un partenaire à distance. Les étudiants de l’EPFL ont développé deux autres applications qui pourraient être très utiles à toute personne souffrant d’un handicap visuel. L’une dirige simplement l’utilisateur vers un siège vide dans une pièce, et l’autre lit uniquement les informations pertinentes sur les flacons de médicaments : l’ingrédient actif, la posologie, etc. Des tâches aussi simples que nécessaires !
Enfin, nous avons le « RoboAgent » développé par CMU et Meta, qui vise à apprendre des compétences quotidiennes comme ramasser des objets ou comprendre les interactions entre les objets simplement en regardant et en touchant les choses – comme le fait un enfant.
« Un agent capable de ce type d’apprentissage nous rapproche d’un robot général capable d’accomplir une variété de tâches dans divers environnements invisibles et d’évoluer continuellement au fur et à mesure qu’il acquiert de l’expérience », a déclaré Shubham Tulsiani, de la CMU. Pour en savoir plus sur le projet, voir ci-dessous :