OpenAI affirme que les poursuites du NY Times en matière de droits d’auteur sont sans fondement

OpenAI affirme que les poursuites du NY Times en matière de droits d’auteur sont sans fondement

Fin décembre, le New York Times a poursuivi OpenAI et son proche collaborateur et investisseur, Microsoft, pour avoir prétendument violé la loi sur les droits d’auteur en entraînant des modèles d’IA générative sur le contenu du Times. Aujourd’hui, OpenAI a répondu publiquement, affirmant – sans surprise – que l’action en justice du Times est sans fondement.

Dans une lettre publiée cet après-midi sur le blog officiel d’OpenAI, l’entreprise réitère son point de vue selon lequel l’entraînement de modèles d’IA à l’aide de données publiquement disponibles sur le web – y compris des articles comme ceux du Times – est un usage loyal. En d’autres termes, en créant des systèmes d’IA générative comme GPT-4 et DALL-E 3, qui « apprennent » à partir de millions de milliards d’exemples d’œuvres d’art, de livres électroniques, d’essais et autres pour générer des textes et des images de type humain, OpenAI estime qu’elle n’est pas tenue d’obtenir une licence ou de payer pour ces exemples, même si elle gagne de l’argent grâce à ces modèles.

« Nous considérons ce principe comme juste pour les créateurs, nécessaire pour les innovateurs et essentiel pour la compétitivité des États-Unis », écrit l’OpenAI.

L’OpenAI aborde également dans sa lettre la régurgitation, phénomène par lequel les modèles génératifs d’IA produisent des données d’entraînement mot pour mot (ou presque) lorsqu’ils sont sollicités d’une certaine manière – par exemple en générant une photo identique à celle prise par un photographe célèbre. OpenAI fait valoir que la régurgitation est moins susceptible de se produire avec des données d’entraînement provenant d’une source unique – par exemple, le New York Times – et demande aux utilisateurs d' »agir de manière responsable » et d’éviter d’inciter intentionnellement ses modèles à régurgiter.

« Il est intéressant de noter que les régurgitations que le New York Times (cite dans son procès) semblent provenir d’articles vieux de plusieurs années qui ont proliféré sur de nombreux sites web tiers », écrit OpenAI. « Il semble qu’ils aient intentionnellement manipulé des messages-guides, comprenant souvent de longs extraits d’articles, afin d’inciter notre modèle à régurgiter. Même lorsqu’ils utilisent de telles invites, nos modèles ne se comportent généralement pas de la manière dont le New York Times l’insinue, ce qui suggère qu’ils ont soit demandé au modèle de régurgiter, soit choisi leurs exemples parmi de nombreuses tentatives. »

La réponse de l’OpenAI intervient alors que le débat sur les droits d’auteur dans le domaine de l’IA générative s’enflamme.

Dans un article publié cette semaine dans IEEE Spectrum, Gary Marcus, critique réputé de l’IA, et Reid Southen, artiste des effets visuels, montrent comment les systèmes d’IA, dont DALL-E 3, régurgitent des données même lorsqu’ils ne sont pas spécifiquement invités à le faire, ce qui rend moins crédibles les affirmations contraires d’OpenAI. Gary Marcus et Reid Southen font d’ailleurs référence au procès intenté par le New York Times dans leur article, notant que le Times a pu obtenir des réponses « plagiaires » de la part des modèles d’OpenAI simplement en donnant les premiers mots d’un article du Times.

Le Times n’est que le dernier détenteur de droits d’auteur à poursuivre OpenAI pour ce qu’il considère comme une violation manifeste des lois sur la propriété intellectuelle.

En juillet, l’actrice Sarah Silverman s’est jointe à une paire de poursuites qui accusent Meta et OpenAI d’avoir « ingéré » les mémoires de Silverman pour entraîner leurs modèles d’intelligence artificielle. Dans un autre procès, des milliers de romanciers, dont Jonathan Franzen et John Grisham, affirment qu’OpenAI a utilisé leurs œuvres comme données d’entraînement sans leur permission ou à leur insu. Enfin, plusieurs programmeurs poursuivent Microsoft, OpenAI et GitHub au sujet de Copilot, un outil de génération de code alimenté par l’IA, qui, selon les plaignants, a été développé à partir de leur code protégé par la propriété intellectuelle.

Certains organes de presse, plutôt que de combattre les fournisseurs d’IA générative devant les tribunaux, ont choisi de conclure des accords de licence avec eux. L’Associated Press a conclu un accord en juillet avec OpenAI, et Axel Springer, l’éditeur allemand qui possède Politico et Business Insider, a fait de même ce mois-ci. OpenAI a également conclu des accords avec l’American Journalism Project et l’Université de New York.

Mais les paiements ont tendance à être assez faibles. Selon The Information, OpenAI – dont les revenus annualisés tourneraient autour de 1,6 milliard de dollars – offre entre 1 et 5 millions de dollars par an pour la licence d’articles de presse protégés par le droit d’auteur afin d’entraîner ses modèles d’intelligence artificielle.

Jusqu’à récemment, le New York Times était également en pourparlers avec OpenAI en vue d’établir un partenariat « à forte valeur ajoutée » impliquant « l’affichage en temps réel » de sa marque dans ChatGPT, le chatbot d’OpenAI alimenté par l’IA. Mais les discussions ont été interrompues à la mi-décembre, selon OpenAI.

Pour ce qu’il vaut, le public pourrait être du côté des éditeurs. Selon un récent sondage réalisé par le groupe de réflexion indépendant The AI Policy Institute, lorsqu’ils ont été informés des détails du procès intenté par le New York Times à OpenAI, 59 % des répondants ont convenu que les entreprises d’IA ne devraient pas être autorisées à utiliser le contenu des éditeurs pour entraîner les modèles, tandis que 70 % ont déclaré que les entreprises devraient indemniser les médias s’ils souhaitent utiliser des documents protégés par le droit d’auteur pour l’entraînement des modèles.

IA