Les accords d’OpenAI avec les éditeurs pourraient poser des problèmes à ses rivaux

Les accords d’OpenAI avec les éditeurs pourraient poser des problèmes à ses rivaux

La bataille juridique entre OpenAI et le New York Times au sujet des données utilisées pour entraîner ses modèles d’intelligence artificielle n’est peut-être pas encore terminée. Mais OpenAI va de l’avant en concluant des accords avec d’autres éditeurs, dont certains des plus grands éditeurs de presse de France et d’Espagne.

OpenAI a annoncé mercredi avoir signé des contrats avec Le Monde et Prisa Media pour apporter du contenu d’actualité français et espagnol au chatbot ChatGPT d’OpenAI. Dans un billet de blog, OpenAI a déclaré que ce partenariat permettra aux utilisateurs de ChatGPT d’accéder à la couverture de l’actualité de ces organisations – provenant de marques telles que El País, Cinco Días, As et El Huffpost – là où elle est utile, et contribuera au volume toujours croissant de données d’entraînement d’OpenAI.

OpenAI écrit :

Au cours des prochains mois, les utilisateurs de ChatGPT seront en mesure d’interagir avec le contenu pertinent des nouvelles de ces éditeurs par le biais de résumés sélectionnés avec attribution et liens améliorés vers les articles originaux, donnant aux utilisateurs la possibilité d’accéder à des informations supplémentaires ou à des articles connexes à partir de leurs sites de nouvelles … Nous apportons continuellement des améliorations à ChatGPT et nous soutenons le rôle essentiel de l’industrie des nouvelles dans la fourniture d’informations en temps réel, faisant autorité, aux utilisateurs.

À ce stade, OpenAI a donc révélé des accords de licence avec une poignée de fournisseurs de contenu. C’est l’occasion de faire le point :

  • Médiathèque Shutterstock (pour les images, les vidéos et les données d’entraînement musicales)
  • L’Associated Press
  • Axel Springer (propriétaire de Politico et Business Insider, entre autres)
  • Le Monde
  • Prisa Media

Combien OpenAI paie-t-elle chacun ? L’entreprise ne le dit pas, du moins pas publiquement. Mais nous pouvons faire une estimation.

The Information a rapporté en janvier qu’OpenAI offrait aux éditeurs entre 1 et 5 millions de dollars par an pour accéder aux archives afin d’entraîner ses modèles GenAI. Cela ne nous apprend pas grand-chose sur le partenariat avec Shutterstock. Mais en ce qui concerne les licences d’utilisation des articles – en supposant que le rapport de The Information soit exact et que ces chiffres n’aient pas changé depuis – OpenAI débourse entre 4 et 20 millions de dollars par an pour les actualités.

Cela peut sembler dérisoire pour OpenAI, dont le trésor de guerre s’élève à plus de 11 milliards de dollars et dont les revenus annualisés ont récemment dépassé les 2 milliards de dollars (selon le Financial Times). Mais comme Hunter Walk, associé chez Homebrew et cofondateur de Screendoor, l’a récemment remarqué, c’est suffisamment important pour potentiellement devancer les rivaux de l’IA qui cherchent également à conclure des accords de licence.

Walk écrit sur son blog :

(Si l’expérimentation est limitée par des accords de licence à neuf chiffres, nous ne rendons pas service à l’innovation… Les chèques versés aux « propriétaires » des données d’apprentissage créent une énorme barrière à l’entrée pour les challengers. Si Google, OpenAI et d’autres grandes entreprises technologiques peuvent établir un coût suffisamment élevé, ils empêchent implicitement toute concurrence future.

La question de savoir s’il existe aujourd’hui une barrière à l’entrée est discutable. De nombreux fournisseurs d’IA, sinon la plupart, ont choisi de risquer la colère des détenteurs de droits de propriété intellectuelle, en choisissant de ne pas accorder de licence pour les données sur lesquelles ils entraînent les modèles d’IA. Il est prouvé que la plateforme de génération d’œuvres d’art Midjourney, par exemple, s’entraîne sur des photos de films de Disney – et Midjourney n’a pas d’accord avec Disney.

La question la plus difficile à résoudre est la suivante : L’octroi de licences doit-il être simplement le coût de l’activité et de l’expérimentation dans le domaine de l’IA ?

Walk est d’avis que non. Il plaide pour une « sphère de sécurité » imposée par les régulateurs, qui protégerait tout fournisseur d’IA – ainsi que les petites entreprises et les chercheurs – de toute responsabilité juridique tant qu’ils respectent certaines normes de transparence et d’éthique.

Il est intéressant de noter que le Royaume-Uni a récemment tenté de codifier quelque chose dans ce sens, en exemptant de droits d’auteur l’utilisation de textes et l’exploration de données pour la formation à l’IA, à condition qu’il s’agisse d’une utilisation à des fins de recherche. Mais ces efforts n’ont pas abouti.

Pour ma part, je ne suis pas sûr d’aller aussi loin que Walk dans sa proposition de « sphère de sécurité », compte tenu de l’impact que l’IA menace d’avoir sur une industrie de l’information déjà déstabilisée. Un modèle récent de The Atlantic a montré que si un moteur de recherche comme Google intégrait l’IA dans la recherche, il répondrait à la requête de l’utilisateur dans 75 % des cas sans nécessiter de clic sur son site web.

Mais peut-être y a-t-il est une marge de manœuvre pour les exceptions.

Les éditeurs doivent être payés – et payés équitablement. N’y a-t-il pas un moyen de les rémunérer et de permettre aux concurrents des opérateurs historiques de l’IA – ainsi qu’aux universitaires – d’avoir accès aux mêmes données ? que ceux en place ? Je pense que oui. Les subventions sont un moyen. Des chèques plus importants de la part de la société civile en sont une autre.

Je ne peux pas dire que j’ai la solution, d’autant plus que les tribunaux n’ont pas encore décidé si – et dans quelle mesure – l’utilisation équitable protège les fournisseurs d’IA des réclamations en matière de droit d’auteur. Mais il est essentiel que nous éclaircissions ces questions. Sinon, l’industrie pourrait bien se retrouver dans une situation où la « fuite des cerveaux » universitaires se poursuit sans relâche et où seules quelques entreprises puissantes ont accès à de vastes réserves d’ensembles de formation de grande valeur.

IA