Cette semaine dans l’IA : OpenAI joue la carte de la pérennité avec les GPT

Cette semaine dans l’IA : OpenAI joue la carte de la pérennité avec les GPT

Suivre l’évolution d’un secteur aussi rapide que l’IA n’est pas une mince affaire. En attendant qu’une IA puisse le faire à votre place, voici un récapitulatif pratique des événements récents dans le monde de l’apprentissage automatique, ainsi que des recherches et expériences notables que nous n’avons pas couvertes par elles-mêmes.

Cette semaine dans le domaine de l’IA, OpenAI a tenu la première de ce qui devrait être de nombreuses conférences de développeurs à venir. Au cours de la conférence, l’entreprise a présenté une série de nouveaux produits, notamment une version améliorée de GPT-4, de nouveaux modèles de synthèse vocale et une API pour le générateur d’images DALL-E 3, entre autres.

Mais l’annonce la plus importante a sans aucun doute été celle des GPT.

Les GPT d’OpenAI permettent aux développeurs de créer leurs propres systèmes d’IA conversationnelle basés sur les modèles d’OpenAI et de les publier sur une place de marché hébergée par OpenAI, appelée GPT Store. Bientôt, les développeurs pourront même monétiser les GPT en fonction du nombre de personnes qui les utilisent, a déclaré le PDG d’OpenAI, Sam Altman, sur scène lors de la conférence.

« Nous pensons que si vous donnez aux gens de meilleurs outils, ils feront des choses extraordinaires », a déclaré M. Altman. « Vous pouvez construire un GPT (…) et le publier pour que d’autres puissent l’utiliser, et parce qu’ils combinent des instructions, des connaissances élargies et des actions, ils peuvent vous être d’une plus grande utilité.

Le passage d’OpenAI du statut de fournisseur de modèles d’IA à celui de plateforme a été intéressant, certes, mais pas vraiment inattendu. La startup a dévoilé ses ambitions en mars avec le lancement de plugins pour ChatGPT, son chatbot alimenté par l’IA, qui a permis à des tiers d’accéder pour la première fois à l’écosystème de modèles d’OpenAI.

Mais ce qui a pris cet auteur au dépourvu, c’est l’ampleur et la profondeur des outils de construction – et de commercialisation – de GPT d’OpenAI dès le départ.

Mon collègue Devin Coldewey, qui a assisté en personne à la conférence d’OpenAI, m’a dit que l’expérience GPT était « un peu bancale » dans les démonstrations – mais qu’elle fonctionnait plus ou moins comme annoncé. Les TPG ne nécessitent pas d’expérience en matière de codage et peuvent être aussi simples ou complexes que le souhaite le développeur. Par exemple, un GPT peut être formé sur une collection de livres de cuisine afin de pouvoir répondre à des questions sur les ingrédients d’une recette spécifique. Il peut aussi ingérer les bases de code propriétaires d’une entreprise afin que les développeurs puissent vérifier leur style ou générer du code conforme aux meilleures pratiques.

Les TPG démocratisent effectivement la création d’applications d’IA générative – du moins pour les applications qui utilisent la famille de modèles d’OpenAI. Et si j’étais un rival d’OpenAI – du moins un rival qui n’est pas soutenu par Big Tech – je me précipiterais dans la salle de guerre figurative pour préparer une réponse.

Le GPT pourrait tuer les sociétés de conseil dont les modèles économiques tournent autour de la construction de ce qui est essentiellement un GPT pour les clients. Et pour les clients qui ont des développeurs talentueux, il pourrait faire des fournisseurs de modèles qui ne Les fournisseurs d’accès à Internet ne proposent aucune forme d’outils de création d’applications, ce qui les rend moins attrayants compte tenu de la complexité de l’intégration des API d’un fournisseur dans les applications et les services existants.

Est-ce une bonne chose ? Je dirais que pas nécessairement – et je m’inquiète du potentiel de monopole. Mais OpenAI a l’avantage d’être le premier sur le marché, et il l’exploite – pour le meilleur ou pour le pire.

Voici d’autres articles sur l’IA parus ces derniers jours :

  • Samsung dévoile l’IA générative : Quelques jours seulement après l’événement de développement de l’OpenAI, Samsung a dévoilé sa propre famille d’IA générative, Samsung Gauss, lors du Samsung AI Forum 2023. Composée de trois modèles – un modèle de langage large similaire à ChatGPT, un modèle de génération de code et un modèle de génération et d’édition d’images – Samsung Gauss est actuellement utilisé en interne par le personnel de Samsung, a déclaré l’entreprise technologique, et sera disponible pour les utilisateurs publics « dans un avenir proche ».
  • Microsoft offre aux startups des capacités de calcul gratuites pour l’IA : Microsoft a annoncé cette semaine qu’elle mettait à jour son programme pour les startups, Microsoft for Startups Founders Hub, pour inclure une option d’infrastructure Azure AI gratuite pour des clusters de machines virtuelles GPU « haut de gamme » basées sur Nvidia pour former et exécuter des modèles génératifs. Y Combinator et sa communauté de fondateurs de startups seront les premiers à avoir accès aux clusters en avant-première privée, suivis par M12, le fonds de capital-risque de Microsoft, et les startups du portefeuille de M12 – et potentiellement d’autres investisseurs et accélérateurs de startups par la suite.
  • YouTube teste des fonctions d’IA générative : YouTube commencera bientôt à expérimenter de nouvelles fonctions d’IA générative, la société a annoncé cette semaine. Dans le cadre de l’offre premium proposée aux abonnés payants de YouTube, les utilisateurs pourront tester un outil conversationnel qui utilise l’IA pour répondre à des questions sur le contenu de YouTube et faire des recommandations, ainsi qu’une fonction qui résume les sujets abordés dans les commentaires d’une vidéo.
  • Entretien avec le responsable de la robotique de DeepMind : Brian s’est entretenu avec Vincent Vanhoucke, responsable de la robotique chez Google DeepMind, au sujet des grandes ambitions de Google en matière de robotique. L’entretien a abordé une série de sujets, notamment les robots à usage général, l’IA générative et, entre autres, le Wi-Fi au bureau.
  • La startup de Kai-Fu Lee spécialisée dans l’IA dévoile son modèle : Kai-Fu Lee, l’informaticien connu en Occident pour son best-seller « AI Superpowers » et en Chine pour ses paris sur les licornes de l’IA, gagne un terrain impressionnant avec sa propre startup d’IA, 01.AI. Sept mois après sa création, 01.AI – évaluée à 1 milliard de dollars – a lancé son premier modèle, le Yi-34B open source.
  • GitHub annonce un plan Copilot personnalisable : GitHub a annoncé cette semaine des plans pour un abonnement d’entreprise qui permettra aux sociétés d’affiner son pair-programmeur Copilot en fonction de leur base de code interne. La nouvelle fait partie d’un certain nombre d’informations notables que la société détenue par Microsoft a révélées lors de sa conférence annuelle des développeurs GitHub Universe mercredi, y compris un nouveau programme de partenariat ainsi que des précisions sur la date à laquelle Copilot Chat – la capacité de Copilot à ressembler à un chatbot, récemment dévoilée – sera officiellement disponible.
  • L’équipe de mannequins de Hugging Face est composée de deux personnes : La startup d’IA Hugging Face propose une large gamme d’outils d’hébergement et de développement pour la science des données. Mais certains des outils les plus impressionnants – et les plus performants – de l’entreprise proviennent aujourd’hui d’une équipe de deux personnes formée en janvier, appelée H4.
  • Mozilla lance un chatbot d’IA : En début d’année, Mozilla a acquis Fakespot, une startup qui s’appuie sur l’IA et l’apprentissage automatique pour identifier les fausses critiques de produits et les critiques trompeuses. Aujourd’hui, Mozilla lance son premier grand modèle linguistique avec l’arrivée de Fakespot Chat, un agent d’intelligence artificielle qui aide les consommateurs lors de leurs achats en ligne en répondant aux questions sur les produits et même en suggérant des questions qui pourraient être utiles pour la recherche de produits.

Plus d’informations sur l’apprentissage automatique

Dans de nombreuses disciplines, nous avons vu que les modèles d’apprentissage automatique sont capables de faire de très bonnes prédictions à court terme pour des structures de données complexes après avoir examiné de nombreux exemples antérieurs. Par exemple, ils pourraient prolonger la période d’alerte pour les tremblements de terre à venir, en donnant aux gens 20 à 30 secondes supplémentaires cruciales pour se mettre à l’abri. Google a également montré qu’il était très doué pour prédire les conditions météorologiques.

Plusieurs images tirées de l’article montrent comment MetNet intègre les données dans ses prédictions basées sur la modélisation ML. Crédits images : Google

MetNet-3 est le dernier né d’une série de modèles météorologiques fondés sur la physique qui prennent en compte diverses variables, telles que les précipitations, la température, le vent et la couverture nuageuse, et qui produisent des prévisions à haute résolution (temporelle et spatiale) sur ce qui va probablement se produire. Ce type de prévisions repose en grande partie sur des modèles assez anciens, qui sont parfois exacts mais pas toujours, ou qui peuvent être rendus plus précis en combinant leurs données avec d’autres sources – ce que fait MetNet-3. Je n’entrerai pas dans les détails, mais le site a publié la semaine dernière un article très intéressant sur le sujet, qui donne une bonne idée du fonctionnement des moteurs de prévision météorologique modernes.

Dans le domaine des sciences très spécifiques, des chercheurs de l’université du Kansas ont mis au point un détecteur de texte généré par l’IA… pour des articles de revues sur la chimie. Bien sûr, ce n’est pas utile pour la plupart des gens, mais après qu’OpenAI et d’autres ont freiné les modèles de détecteurs, il est utile de montrer qu’au moins, quelque chose de plus limité est possible. « La plupart des spécialistes de l’analyse de texte veulent un détecteur très général qui fonctionnerait sur n’importe quoi », explique Heather Desaire, coauteur du projet. « Nous recherchions vraiment la précision.

Leur modèle a été entraîné sur des articles du journal de l’American Chemical Society, apprenant à rédiger des sections d’introduction à partir du seul titre et du seul résumé. Il a ensuite été capable d’identifier les introductions écrites par ChatGPT-3.5 avec une précision quasi parfaite. Il s’agit évidemment d’un cas d’utilisation extrêmement restreint, mais l’équipe souligne qu’elle a pu le mettre en place assez rapidement et facilement, ce qui signifie qu’un détecteur pourrait être mis en place pour différentes sciences, revues et langues.

Il n’existe pas encore de détecteur pour les essais d’admission à l’université, mais l’IA pourrait bientôt se trouver de l’autre côté du processus, non pas pour décider qui est admis, mais pour aider les responsables des admissions à identifier les diamants à l’état brut. Des chercheurs de l’Université du Colorado et de l’Université de Pennsylvanie ont montré qu’un modèle d’intelligence artificielle était capable d’identifier des passages dans les essais des étudiants qui indiquaient des intérêts et des qualités, comme le leadership ou un « but prosocial ».

Les étudiants ne seront pas notés de cette manière (encore une fois, pour l’instant), mais il s’agit d’un outil indispensable dans la boîte à outils des administrateurs, qui doivent examiner des milliers de candidatures et pourraient avoir besoin d’un coup de main de temps en temps. Ils pourraient utiliser une couche d’analyse comme celle-ci pour regrouper les essais ou même mieux les randomiser afin que tous ceux qui parlent de camping ne se retrouvent pas dans une rangée. La recherche a révélé que le langage utilisé par les étudiants était étonnamment prédictif de certains facteurs scolaires, comme le taux d’obtention d’un diplôme. Les chercheurs vont bien sûr approfondir cette question, mais il est clair que la stylistique basée sur les ML va rester importante.

Il ne faut cependant pas perdre de vue les limites de l’IA, comme l’a souligné un groupe de chercheurs de l’université de Washington qui ont testé la compatibilité des outils d’IA avec leurs propres besoins en matière d’accessibilité. Leurs expériences ont été résolument mitigées, les systèmes de résumé ajoutant des biais ou hallucinant des détails (ce qui les rend inappropriés pour les personnes incapables de lire le document source) et appliquant de manière incohérente les règles d’accessibilité du contenu.

Employee people with disabilities and inclusion work together in office (Les employés handicapés et l'inclusion travaillent ensemble au bureau).

Parallèlement, une personne autiste a constaté que l’utilisation d’un modèle de langage pour générer des messages sur Slack l’a aidée à surmonter son manque de confiance dans sa capacité à communiquer normalement. Même si ses collègues ont trouvé les messages quelque peu « robotiques », l’utilisateur en a tiré un bénéfice net, ce qui est déjà un bon début. Pour en savoir plus sur cette étude, cliquez ici.

Il n’est donc pas surprenant que certains États et municipalités envisagent d’établir des règles concernant l’utilisation de l’IA dans le cadre de fonctions officielles. Seattle, par exemple, vient de publier un ensemble de « principes directeurs » et de boîtes à outils qui doivent être consultés ou appliqués avant qu’un modèle d’IA puisse être utilisé à des fins officielles. Il ne fait aucun doute que nous verrons des ensembles de règles différents – et peut-être contradictoires – mis en œuvre à tous les niveaux de gouvernance.

Dans la réalité virtuelle, un modèle d’apprentissage automatique faisant office de détecteur de gestes flexible a permis de créer un ensemble de manières très intéressantes d’interagir avec des objets virtuels. « Si l’utilisation de la RV se résume à l’utilisation d’un clavier et d’une souris, alors quel est l’intérêt de l’utiliser ? a demandé l’auteur principal Per Ola Kristensson. « Il faut qu’elle vous donne des pouvoirs presque surhumains que vous ne pouvez pas obtenir ailleurs. Bien vu !

Vous pouvez voir dans la vidéo ci-dessus comment cela fonctionne exactement, ce qui, lorsqu’on y réfléchit, est parfaitement intuitif. Je ne veux pas sélectionner « copier » puis « coller » à partir d’un menu en utilisant ma touche souris …]. Je veux tenir un objet dans une main, puis ouvrir la paume de l’autre et boum, un double ! Ensuite, si je veux les couper, je transforme ma main en ciseaux ! C’est génial !

Crédits image : EPFL

Enfin, en parlant de couper/coller, c’est le nom d’une nouvelle exposition à l’université suisse EPFL, où des étudiants et des professeurs se sont penchés sur l’histoire des bandes dessinées depuis les années 1950 et sur la manière dont l’IA pourrait les améliorer ou les interpréter. De toute évidence, l’art génératif n’a pas encore pris le dessus, mais certains artistes sont manifestement désireux de tester les nouvelles technologies, malgré les problèmes d’éthique et de droits d’auteur, et d’explorer les interprétations qu’elles peuvent donner du matériel historique. Si vous avez la chance d’être à Lausanne, allez voir Couper/Coller (la version locale des actions numériques omniprésentes).

IA