Cette semaine dans l’IA : les grandes entreprises technologiques misent des milliards sur les outils d’apprentissage automatique

Cette semaine dans l’IA : les grandes entreprises technologiques misent des milliards sur les outils d’apprentissage automatique

Suivre l’évolution d’un secteur aussi rapide que l’IA n’est pas une mince affaire. En attendant qu’une IA puisse le faire à votre place, voici un récapitulatif pratique des événements de la semaine dernière dans le monde de l’apprentissage automatique, ainsi que des recherches et des expériences notables que nous n’avons pas couvertes en tant que telles.

Si ce n’était pas déjà évident, le paysage concurrentiel de l’IA – en particulier le sous-domaine connu sous le nom d’IA générative – est en pleine effervescence. Et la situation ne cesse de s’aggraver. Cette semaine, Dropbox a lancé son premier fonds de capital-risque, Dropbox Ventures, qui, selon la société, se concentrera sur les startups qui construisent des produits alimentés par l’IA et qui « façonnent l’avenir du travail ». Pour ne pas être en reste, AWS a lancé un programme de 100 millions de dollars pour financer des initiatives d’IA générative menées par ses partenaires et ses clients.

Il est certain que beaucoup d’argent est jeté dans l’espace de l’IA. Salesforce Ventures, la division de capital-risque de Salesforce, prévoit de verser 500 millions de dollars à des startups développant des technologies d’IA générative. Workday a récemment ajouté 250 millions de dollars à son fonds de capital-risque existant, spécifiquement pour soutenir les startups spécialisées dans l’IA et l’apprentissage automatique. Enfin, Accenture et PwC ont annoncé qu’ils prévoyaient d’investir respectivement 3 milliards et 1 milliard de dollars dans l’IA.

Mais on peut se demander si l’argent est la solution aux défis majeurs de l’IA.

Lors d’une table ronde éclairante organisée dans le cadre d’une conférence de Bloomberg à San Francisco cette semaine, Meredith Whittaker, présidente de l’application de messagerie sécurisée Signal, a expliqué que la technologie qui sous-tend certaines des applications d’IA les plus en vogue aujourd’hui devient dangereusement opaque. Elle a donné l’exemple d’une personne qui entre dans une banque et demande un prêt.

Cette personne peut se voir refuser le prêt et n’avoir « aucune idée qu’il y a un système à l’arrière, probablement alimenté par une API de Microsoft, qui a déterminé, sur la base des médias sociaux, que je n’étais pas solvable », a déclaré Mme Whittaker. « Je ne le saurai jamais (car) il n’existe aucun mécanisme me permettant de le savoir ».

Ce n’est pas le capital qui est en cause. C’est plutôt la hiérarchie actuelle du pouvoir qui est en cause, selon M. Whittaker.

« Je suis à la table des négociations depuis 15 ou 20 ans. J’ai été à la table. Être à la table sans pouvoir, ce n’est rien », a-t-elle poursuivi.

Bien entendu, il est beaucoup plus difficile d’obtenir des changements structurels que de chercher de l’argent, en particulier lorsque ces changements ne favorisent pas nécessairement les pouvoirs en place. Et Mme Whittaker met en garde contre ce qui pourrait se produire si les réactions ne sont pas suffisantes.

À mesure que les progrès de l’IA s’accélèrent, les impacts sociétaux s’accélèrent également, et nous continuerons à nous diriger vers une « voie hype vers l’IA », a-t-elle déclaré, « où ce pouvoir est ancré et naturalisé sous le couvert de l’intelligence et où nous sommes surveillés au point (d’avoir) très, très peu d’influence sur nos vies individuelles et collectives ».

Cette devrait faire réfléchir l’industrie. Qu’il s’agisse ou non d’une sera est une autre affaire. C’est probablement un sujet dont nous entendrons parler lorsqu’elle montera sur scène à Disrupt en septembre.

Voici les autres titres de l’actualité de l’IA de ces derniers jours :

  • L’IA de DeepMind contrôle les robots : DeepMind affirme avoir mis au point un modèle d’IA, appelé RoboCat, capable d’effectuer une série de tâches sur différents modèles de bras robotiques. En soi, ce n’est pas très nouveau. Mais DeepMind affirme que ce modèle est le premier à pouvoir résoudre et s’adapter à des tâches multiples et à le faire en utilisant différents robots du monde réel.
  • Les robots apprennent de YouTube : En parlant de robots, Deepak Pathak, professeur adjoint au CMU Robotics Institute, a présenté cette semaine le VRB (Vision-Robotics Bridge), un système d’intelligence artificielle conçu pour former des systèmes robotiques en regardant l’enregistrement d’un être humain. Le robot recherche quelques informations clés, notamment les points de contact et la trajectoire, puis tente d’exécuter la tâche.
  • Otter se lance dans le jeu des chatbots : Le service de transcription automatique Otter a annoncé cette semaine un nouveau chatbot doté d’une intelligence artificielle qui permettra aux participants de poser des questions pendant et après une réunion et les aidera à collaborer avec leurs coéquipiers.
  • L’UE appelle à une réglementation de l’IA : Les régulateurs européens sont à la croisée des chemins quant à la manière dont l’IA sera réglementée – et finalement utilisée commercialement et non commercialement – dans la région. Cette semaine, le plus grand groupe de consommateurs de l’UE, le Bureau européen des unions de consommateurs (BEUC), a présenté sa propre position : Cessez de traîner les pieds et « lancez des enquêtes urgentes sur les risques de l’IA générative » dès maintenant, a-t-il déclaré.
  • Vimeo lance des fonctionnalités alimentées par l’IA : Cette semaine, Vimeo a annoncé une série d’outils alimentés par l’IA conçus pour aider les utilisateurs à créer des scripts, à enregistrer des séquences à l’aide d’un téléprompteur intégré et à supprimer les longues pauses et les disfluences indésirables telles que les « ahs » et les « ums » des enregistrements.
  • Capital pour les voix synthétiques : ElevenLabs, la plateforme virale alimentée par l’IA pour la création de voix synthétiques, a levé 19 millions de dollars lors d’un nouveau tour de table. ElevenLabs a rapidement pris de l’ampleur après son lancement fin janvier. Mais la publicité n’a pas toujours été positive, en particulier lorsque de mauvais acteurs ont commencé à exploiter la plateforme à leurs propres fins.
  • Transformer l’audio en texte : Gladia, une startup française spécialisée dans l’IA, a lancé une plateforme qui s’appuie sur le modèle de transcription Whisper d’OpenAI pour transformer, via une API, n’importe quel fichier audio en texte quasiment en temps réel. Gladia promet de pouvoir transcrire une heure d’audio pour 0,61 $, le processus de transcription prenant environ 60 secondes.
  • Harness adopte l’IA générative : Harness, une startup qui crée une boîte à outils pour aider les développeurs à travailler plus efficacement, a injecté cette semaine un peu d’IA dans sa plateforme. Désormais, Harness peut automatiquement résoudre les échecs de construction et de déploiement, trouver et corriger les vulnérabilités de sécurité et faire des suggestions pour maîtriser les coûts de l’informatique en nuage.

Autres apprentissages automatiques

Cette semaine s’est tenue la CVPR à Vancouver, au Canada, et j’aurais aimé pouvoir y aller parce que les conférences et les articles ont l’air super intéressants. Si vous ne pouvez en regarder qu’une, allez voir la conférence de Yejin Choi sur les possibilités, les impossibilités et les paradoxes de l’IA.

Crédits images : CVPR/YouTube

Le professeur de l’UW et bénéficiaire de la bourse MacArthur Genius s’est d’abord penché sur quelques limites inattendues des modèles les plus performants d’aujourd’hui. En particulier, le GPT-4 est vraiment mauvais en multiplication. Il ne parvient pas à trouver correctement le produit de deux nombres à trois chiffres dans des proportions surprenantes, même si, avec un peu de persuasion, il y parvient dans 95 % des cas. Pourquoi est-ce important qu’un modèle de langage ne puisse pas faire de maths, me direz-vous ? Parce que l’ensemble du marché de l’IA repose aujourd’hui sur l’idée que les modèles de langage se prêtent bien à de nombreuses tâches intéressantes, y compris des tâches telles que le calcul des impôts ou la comptabilité. Le point de vue de M. Choi est que nous devrions rechercher les limites de l’IA et travailler en interne, et non l’inverse, car cela nous en apprend davantage sur ses capacités.

Les autres parties de son intervention étaient tout aussi intéressantes et stimulantes. Vous pouvez visionner l’intégralité de l’intervention ici.

Rod Brooks, présenté comme un « pourfendeur du battage médiatique », a fait un historique intéressant de certains des concepts fondamentaux de l’apprentissage automatique – des concepts qui ne semblent nouveaux que parce que la plupart des personnes qui les appliquent n’étaient pas là lorsqu’ils ont été inventés ! En remontant les décennies, il évoque McCulloch, Minsky et même Hebb, et montre comment les idées sont restées pertinentes bien au-delà de leur époque. C’est un rappel utile que l’apprentissage automatique est un domaine qui repose sur les épaules de géants remontant à l’après-guerre.

De très nombreux articles ont été soumis et présentés à la CVPR, et il est réducteur de ne s’intéresser qu’aux lauréats, mais il s’agit ici d’un tour d’horizon de l’actualité, et non d’une revue exhaustive de la littérature. Voici donc ce que les juges de la conférence ont jugé le plus intéressant :

Crédits images : AI2

VISPROG, créé par des chercheurs de l’AI2, est une sorte de méta-modèle qui exécute des tâches de manipulation visuelle complexes à l’aide d’une boîte à outils de code polyvalente. Supposons que vous ayez une photo d’un grizzly sur de l’herbe (comme sur l’image) – vous pouvez lui dire de « remplacer l’ours par un ours polaire sur de la neige » et il commence à travailler. Il identifie les parties de l’image, les sépare visuellement, recherche et trouve ou génère un remplacement adéquat, et recoud le tout intelligemment, sans que l’utilisateur n’ait besoin de demander quoi que ce soit. L’interface « améliorée » de Blade Runner commence à avoir l’air d’un véritable piéton. Et ce n’est là qu’une de ses nombreuses capacités.

La « conduite autonome orientée vers la planification », proposée par un groupe de recherche chinois multi-institutionnel, tente d’unifier les différents éléments de l’approche plutôt fragmentaire que nous avons adoptée en matière de voitures autonomes. En règle générale, il existe une sorte de processus progressif de « perception, prédiction et planification », dont chacune peut comporter un certain nombre de tâches secondaires (comme la segmentation des personnes, l’identification des obstacles, etc.) Leur modèle tente de regrouper toutes ces tâches dans un seul modèle, un peu comme les modèles multimodaux que nous voyons et qui peuvent utiliser du texte, de l’audio ou des images comme entrée et sortie. De même, ce modèle simplifie d’une certaine manière les interdépendances complexes d’une pile de conduite autonome moderne.

DynIBaR présente une méthode robuste et de haute qualité pour interagir avec la vidéo à l’aide de « champs de rayonnement neuronaux dynamiques » ou NeRF. Une compréhension approfondie des objets dans la vidéo permet des choses comme la stabilisation, les mouvements de travelling et d’autres choses que l’on ne s’attend généralement pas à voir possibles une fois que la vidéo a déjà été enregistrée. Encore une fois… « améliorer ». C’est certainement le genre de choses pour lesquelles Apple vous embauche et s’en attribue la paternité lors de la prochaine WWDC.

Vous vous souvenez peut-être de DreamBooth, dont la page a été mise en ligne un peu plus tôt cette année. C’est le meilleur système à ce jour pour, il n’y a pas d’autre moyen de le dire, faire des deepfakes. Bien sûr, il est utile et puissant de faire ce genre d’opérations sur les images, sans parler de l’amusement, et des chercheurs comme ceux de Google s’efforcent de rendre ces opérations plus transparentes et plus réalistes. Les conséquences… plus tard, peut-être.

Le prix du meilleur article étudiant est décerné à une méthode permettant de comparer et de faire correspondre des maillages, ou des nuages de points 3D – franchement, c’est trop technique pour que j’essaie de l’expliquer, mais il s’agit d’une capacité importante pour la perception dans le monde réel et les améliorations sont les bienvenues. Consultez l’article ici pour des exemples et plus d’informations.

Encore deux petites choses : Intel a présenté ce modèle intéressant, LDM3D, pour générer des images 3D à 360° comme des environnements virtuels. Ainsi, lorsque vous êtes dans le métavers et que vous dites « mettez-nous dans une ruine envahie par la végétation dans la jungle », un nouvel environnement est créé à la demande.

Meta a sorti un outil de synthèse vocale appelé Voicebox qui est très performant pour extraire les caractéristiques des voix et les reproduire, même lorsque l’entrée n’est pas nette. En général, pour reproduire une voix, il faut une bonne quantité et une bonne variété d’enregistrements de voix propres, mais Voicebox le fait mieux que beaucoup d’autres, avec moins de données (2 secondes par exemple). Heureusement, ils gardent ce génie dans la bouteille pour le moment. Pour ceux qui pensent avoir besoin de cloner leur voix, consultez Acapela.

IA