Le New York Times veut que l’OpenAI et Microsoft paient pour les données de formation

Le New York Times veut que l’OpenAI et Microsoft paient pour les données de formation

Le New York Times poursuit OpenAI et son proche collaborateur (et investisseur), Microsoft, pour avoir prétendument violé la loi sur le droit d’auteur en entraînant des modèles d’IA générative sur le contenu du Times.

Dans cette action en justice, déposée devant la Cour fédérale de district de Manhattan, le Times affirme que des millions de ses articles ont été utilisés pour entraîner des modèles d’IA, y compris ceux qui sous-tendent le très populaire ChatGPT d’OpenAI et le Copilot de Microsoft, sans son consentement. Le Times demande à OpenAI et à Microsoft de « détruire » les modèles et les données d’entraînement contenant le matériel incriminé et d’être tenus responsables de « milliards de dollars de dommages statutaires et réels » liés à la « copie et à l’utilisation illégales des œuvres de grande valeur du Times ».

« Si le Times et d’autres organismes de presse ne peuvent pas produire et protéger leur journalisme indépendant, il y aura un vide qu’aucun ordinateur ou intelligence artificielle ne pourra combler », peut-on lire dans la plainte du Times. « Moins de journalisme sera produit et le coût pour la société sera énorme.

Les modèles d’IA générative « apprennent » à partir d’exemples pour élaborer des essais, des codes, des courriels, des articles et bien d’autres choses encore, et des fournisseurs comme OpenAI explorent le web pour trouver des millions, voire des milliards, de ces exemples à ajouter à leurs ensembles d’apprentissage. Certains exemples sont dans le domaine public. D’autres ne le sont pas, ou sont soumis à des licences restrictives qui exigent une citation ou des formes spécifiques de compensation.

Les fournisseurs affirment que la doctrine de l’usage loyal offre une protection générale à leurs pratiques de collecte de données sur le web. Les détenteurs de droits d’auteur ne sont pas d’accord ; des centaines d’organismes de presse utilisent maintenant un code pour empêcher OpenAI, Google et d’autres d’analyser leurs sites web à la recherche de données d’entraînement.

Le conflit entre les vendeurs et les fournisseurs a donné lieu à un nombre croissant de batailles juridiques, la dernière en date étant celle du Times.

En juillet, l’actrice Sarah Silverman s’est jointe à une paire de procès qui accusent Meta et OpenAI d’avoir « ingéré » les mémoires de Silverman pour entraîner leurs modèles d’intelligence artificielle. Dans un autre procès, des milliers de romanciers, dont Jonathan Franzen et John Grisham, affirment qu’OpenAI a utilisé leurs œuvres comme données d’entraînement sans leur permission ou à leur insu. Enfin, plusieurs programmeurs poursuivent Microsoft, OpenAI et GitHub au sujet de Copilot, un outil de génération de code alimenté par l’IA, qui, selon les plaignants, a été développé à partir de leur code protégé par la propriété intellectuelle.

Si le Times n’est pas le premier à poursuivre des fournisseurs d’IA générative pour des violations présumées de la propriété intellectuelle concernant des œuvres écrites, il est le plus grand éditeur impliqué dans un tel procès à ce jour – et l’un des premiers à souligner les dommages potentiels causés à sa marque par des « hallucinations » ou des faits inventés à partir de modèles d’IA générative.

La plainte du Times cite plusieurs cas dans lesquels Bing Chat de Microsoft (désormais appelé Copilot), qui repose sur un modèle OpenAI, a fourni des informations incorrectes qui auraient été fournies par le Times – y compris des résultats concernant « les 15 aliments les plus sains pour le cœur », dont 12 n’étaient mentionnés dans aucun article du Times.

Le Times soutient également qu’OpenAI et Microsoft construisent effectivement des éditeurs de presse concurrents en utilisant les travaux du Times, ce qui nuit à l’activité du Times en fournissant des informations qui ne sont normalement pas accessibles sans abonnement – des informations qui ne sont pas toujours citées, parfois monétisées et dépourvues des liens d’affiliation que le Times utilise pour générer des commissions, de surcroît.

Comme le souligne la plainte du Times, les modèles d’IA générative ont tendance à régurgiter les données d’entraînement, par exemple en reproduisant presque mot pour mot les résultats d’articles. Au-delà de la régurgitation, OpenAI a, au moins une fois, permis par inadvertance aux utilisateurs de ChatGPT de contourner les contenus d’actualité protégés par des droits d’auteur.

« Les défendeurs cherchent à profiter de l’investissement massif du Times dans son journalisme », indique la plainte, accusant OpenAI et Microsoft d' »utiliser le contenu du Times sans paiement pour créer des produits qui se substituent au Times et lui volent son audience ».

L’impact sur les abonnements aux journaux – et sur le trafic web des éditeurs – est au cœur d’un procès tangentiellement similaire intenté par les éditeurs au début du mois contre Google. Dans cette affaire, les défendeurs, comme le Times, ont soutenu que les expériences GenAI de Google, y compris son chatbot Bard alimenté par l’IA et Search Generative Experience, siphonnent le contenu, les lecteurs et les revenus publicitaires des éditeurs par des moyens anticoncurrentiels.

Les affirmations des éditeurs sont crédibles. Un modèle récent de The Atlantic a révélé que si un moteur de recherche comme Google intégrait l’IA dans la recherche, il répondrait à la requête de l’utilisateur dans 75 % des cas sans nécessiter de clic sur son site web. Les éditeurs poursuivis par Google estiment qu’ils perdraient jusqu’à 40 % de leur trafic.

Certains organes de presse, plutôt que de se battre contre les fournisseurs devant les tribunaux, ont choisi de conclure des accords de licence avec eux. L’Associated Press a conclu un accord en juillet avec OpenAI, et Axel Springer, l’éditeur allemand qui possède Politico et Business Insider, a fait de même ce mois-ci.

Dans sa plainte, le Times indique qu’il a tenté de conclure un accord de licence avec Microsoft et OpenAI en avril, mais que les discussions n’ont pas abouti.

IA