![](https://www.toute-lactu.com/wp-content/uploads/2024/01/OpenAI-affirme-que-les-poursuites-du-NY-Times-en-matiere.jpg)
Fin décembre, le New York Times a poursuivi OpenAI et son proche collaborateur et investisseur, Microsoft, pour avoir prétendument violé la loi sur les droits d’auteur en entraînant des modèles d’IA générative sur le contenu du Times. Aujourd’hui, OpenAI a répondu publiquement, affirmant – sans surprise – que l’action en justice du Times est sans fondement.
Dans une lettre publiée cet après-midi sur le blog officiel d’OpenAI, l’entreprise réitère son point de vue selon lequel l’entraînement de modèles d’IA à l’aide de données publiquement disponibles sur le web – y compris des articles comme ceux du Times – est un usage loyal. En d’autres termes, en créant des systèmes d’IA générative comme GPT-4 et DALL-E 3, qui « apprennent » à partir de millions de milliards d’exemples d’œuvres d’art, de livres électroniques, d’essais et autres pour générer des textes et des images de type humain, OpenAI estime qu’elle n’est pas tenue d’obtenir une licence ou de payer pour ces exemples, même si elle gagne de l’argent grâce à ces modèles.
« Nous considérons ce principe comme juste pour les créateurs, nécessaire pour les innovateurs et essentiel pour la compétitivité des États-Unis », écrit l’OpenAI.
L’OpenAI aborde également dans sa lettre la régurgitation, phénomène par lequel les modèles génératifs d’IA produisent des données d’entraînement mot pour mot (ou presque) lorsqu’ils sont sollicités d’une certaine manière – par exemple en générant une photo identique à celle prise par un photographe célèbre. OpenAI fait valoir que la régurgitation est moins susceptible de se produire avec des données d’entraînement provenant d’une source unique – par exemple, le New York Times – et demande aux utilisateurs d' »agir de manière responsable » et d’éviter d’inciter intentionnellement ses modèles à régurgiter.
« Il est intéressant de noter que les régurgitations que le New York Times (cite dans son procès) semblent provenir d’articles vieux de plusieurs années qui ont proliféré sur de nombreux sites web tiers », écrit OpenAI. « Il semble qu’ils aient intentionnellement manipulé des messages-guides, comprenant souvent de longs extraits d’articles, afin d’inciter notre modèle à régurgiter. Même lorsqu’ils utilisent de telles invites, nos modèles ne se comportent généralement pas de la manière dont le New York Times l’insinue, ce qui suggère qu’ils ont soit demandé au modèle de régurgiter, soit choisi leurs exemples parmi de nombreuses tentatives. »
La réponse de l’OpenAI intervient alors que le débat sur les droits d’auteur dans le domaine de l’IA générative s’enflamme.
Dans un article publié cette semaine dans IEEE Spectrum, Gary Marcus, critique réputé de l’IA, et Reid Southen, artiste des effets visuels, montrent comment les systèmes d’IA, dont DALL-E 3, régurgitent des données même lorsqu’ils ne sont pas spécifiquement invités à le faire, ce qui rend moins crédibles les affirmations contraires d’OpenAI. Gary Marcus et Reid Southen font d’ailleurs référence au procès intenté par le New York Times dans leur article, notant que le Times a pu obtenir des réponses « plagiaires » de la part des modèles d’OpenAI simplement en donnant les premiers mots d’un article du Times.
Le Times n’est que le dernier détenteur de droits d’auteur à poursuivre OpenAI pour ce qu’il considère comme une violation manifeste des lois sur la propriété intellectuelle.
En juillet, l’actrice Sarah Silverman s’est jointe à une paire de poursuites qui accusent Meta et OpenAI d’avoir « ingéré » les mémoires de Silverman pour entraîner leurs modèles d’intelligence artificielle. Dans un autre procès, des milliers de romanciers, dont Jonathan Franzen et John Grisham, affirment qu’OpenAI a utilisé leurs œuvres comme données d’entraînement sans leur permission ou à leur insu. Enfin, plusieurs programmeurs poursuivent Microsoft, OpenAI et GitHub au sujet de Copilot, un outil de génération de code alimenté par l’IA, qui, selon les plaignants, a été développé à partir de leur code protégé par la propriété intellectuelle.