Lundi matin, de nombreux écrivains se sont réveillés en apprenant que leurs livres avaient été téléchargés et scannés dans un énorme ensemble de données sans leur consentement. Projet du logiciel de traitement de texte Shaxpir, Prosecraft a compilé plus de 27 000 livres, les comparant, les classant et les analysant en fonction de la « vivacité » de leur langage. De nombreux auteurs – y compris la grande vedette de la littérature pour jeunes adultes Maureen Johnson et l’auteur de « Little Fires Everywhere Celeste Ng – s’est élevée contre Prosecraft pour avoir formé un modèle sur leurs livres sans leur consentement. Même les livres publiés il y a moins d’un mois avaient déjà été téléchargés.
Après une journée pleine de réactions négatives en ligne, le créateur de Prosecraft, Benji Smith, a supprimé le site web, qui existait depuis 2017.
« J’ai passé des milliers d’heures à travailler sur ce projet, à nettoyer et à annoter des textes, à organiser et à peaufiner des choses », a écrit Smith. « Mais entre-temps, l' »IA » est devenue une chose. Et l’arrivée de l’IA sur la scène a été entachée par les premiers cas d’utilisation qui permettent à n’importe qui de créer des imitations d’artistes sans aucun effort, coupant ces créateurs de leur propre processus créatif. »
Le Prosecraft de Smith n’était pas un outil d’IA générative, mais les auteurs craignaient qu’il ne le devienne, car il avait accumulé un ensemble de données d’un quart de milliard de mots provenant de livres publiés, qu’il avait trouvés en parcourant l’internet.
Prosecraft affichait deux paragraphes d’un livre, l’un « le plus passif » et l’autre « le plus vivant ». Il place ensuite les livres dans des classements par centile en fonction de la vivacité, de la longueur ou de la passivité du texte.
« Si vous faites carrière dans l’écriture, c’est exaspérant, en partie parce que le style n’est pas le même que la rédaction d’un putain de livre blanc pour une entreprise qui a besoin d’être dans… voix active ou autre », a déclaré l’auteur Ilana Masad. « Le style, c’est le style !
M. Smith n’a pas répondu aux nombreuses demandes de commentaires, mais il a précisé ses intentions dans son billet de blog.
« Puisque je ne publiais que des statistiques sommaires et de petits extraits du texte de ces livres, je pensais respecter l’esprit de la doctrine du Fair Use, qui ne nécessite pas le consentement de l’auteur original », a écrit Smith. Certains auteurs ont fait remarquer que les extraits de leurs livres sur Prosecraft comprenaient des spoilers importants, ce qui a provoqué une frustration supplémentaire.
Bien que Smith se soit excusé, les auteurs restent exaspérés. Pour les artistes et les écrivains, la récente prolifération d’outils d’IA a créé un jeu de piste profondément frustrant. Dès qu’ils se retirent d’une base de données, ils découvrent que leur travail a été utilisé pour former un autre modèle d’IA, et ainsi de suite.
« D’après ce que j’ai pu constater, il est assez courant que ces sites et projets fassent d’abord ce qu’ils font en espérant que personne ne le remarque, puis disparaissent ou se mettent sur la défensive lorsqu’ils le remarquent inévitablement », a déclaré M. Masad.
L’IA générative et la technologie derrière l’auto-édition ont créé une tempête parfaite pour les activités frauduleuses. Amazon a été inondé de guides de voyage de mauvaise qualité générés par l’IA, et même de livres pour enfants générés par l’IA. Mais les outils tels que ChatGPT sont essentiellement formés à partir de la somme totale de l’internet, ce qui signifie que de véritables auteurs de guides touristiques ou de livres pour enfants pourraient être plagiés par inadvertance.
L’auteur Jane Friedman a écrit dans un récent billet de blog – intitulé « I’d Rather See My Books Get Pirated Than This » – qu’elle est victime d’une usurpation d’identité sur Amazon, où quelqu’un vend sous son nom des livres qui semblent avoir été écrits par une IA.
Bien que Friedman ait réussi à faire retirer ces faux livres de sa page Goodreads, elle affirme qu’Amazon ne retirera pas les livres de la vente tant qu’elle n’aura pas déposé une marque pour son nom.
Amazon n’a pas fait de commentaire avant la publication.
« Je ne pense pas qu’un écrivain soit sérieusement convaincu que l’IA va ruiner les livres parce que, eh bien, ce n’est pas comme ça que fonctionne la littérature, et tout ce que j’ai vu ChatGPT écrire comme une ‘histoire’ est juste vraiment ennuyeux, sans voix, sans véritable métier ou sans style », a déclaré Masad.
Mais elle craint que les éditeurs ne soient convaincus du contraire et ne remplacent les équipes de marketing et de publicité par du contenu promotionnel généré par l’IA.
« Je me sens vraiment mal », a-t-elle déclaré.