Reddit déclare avoir gagné 203 millions de dollars jusqu’à présent grâce à l’exploitation de ses données.

Reddit déclare avoir gagné 203 millions de dollars jusqu’à présent grâce à l’exploitation de ses données.

Les perspectives de Reddit, qui se dirige vers une cotation en bourse, ont beaucoup plus à voir avec les relations avec les fournisseurs d’IA tels qu’OpenAI qu’on ne pourrait le penser.

Dans son prospectus d’introduction en bourse déposé aujourd’hui auprès de la Securities and Exchange Commission des États-Unis, Reddit a souligné à plusieurs reprises à quel point il pense avoir à gagner – et a gagné – des accords de licence de données avec les entreprises qui forment des modèles d’IA sur plus d’un milliard de messages et plus de 16 milliards de commentaires.

« En janvier 2024, nous avons conclu certains accords de licence de données d’une valeur contractuelle globale de 203,0 millions de dollars et d’une durée allant de deux à trois ans », peut-on lire dans le prospectus. « Nous nous attendons à ce qu’un minimum de 66,4 millions de dollars de revenus soit comptabilisé au cours de l’exercice se terminant le 31 décembre 2024 et le reste par la suite. »

Jusqu’à présent, les fournisseurs de solutions d’intelligence artificielle qui ont acquis des licences sur les données de Reddit restent un mystère. En début de semaine, Bloomberg et Reuters ont rapporté qu’une « grande entreprise d’IA anonyme » – peut-être Google – avait conclu un accord de licence d’une valeur d’environ 60 millions de dollars sur une base annuelle. Mais OpenAI ne serait pas non plus un client surprenant, surtout si l’on considère que le PDG d’OpenAI, Sam Altman, détient une participation de 8,7 % dans Reddit (ce qui fait de lui le troisième actionnaire le plus important) et qu’il a déjà été membre du conseil d’administration de l’entreprise.

A lire aussi  Cette semaine dans l'IA : Midjourney parie qu'il peut battre la police des droits d'auteur

Pourquoi les données de Reddit sont-elles précieuses ? Comme l’explique Reddit, les modèles d’IA « apprennent » à partir d’exemples pour élaborer des essais, des codes, des courriels, des articles et bien d’autres choses encore, et des fournisseurs comme OpenAI fouillent le web pour trouver des millions, voire des milliards de ces exemples à ajouter à leurs ensembles de formation. Certains exemples sont du domaine public. D’autres ne le sont pas ou, dans le cas du contenu de Reddit, sont soumis à des licences restrictives qui exigent une citation ou des formes spécifiques de compensation.

Auparavant, Reddit n’autorisait pas l’accès à ses données à des fins d’entraînement à l’IA. Mais il a fait volte-face l’année dernière, arguant que ses données ne devraient pas être – selon les termes du PDG Steve Huffman – « (données) à certaines des plus grandes entreprises du monde gratuitement ».

« (Nos) API de données sont capables de fournir un accès en temps réel à des sujets évolutifs et dynamiques tels que le sport, les films, les nouvelles, la mode et les dernières tendances », poursuit le prospectus. « Nous pensons que le corpus massif de données et de connaissances conversationnelles de Reddit continuera à jouer un rôle dans la formation et l’amélioration des grands modèles de langage. Comme notre contenu se renouvelle et s’enrichit chaque jour, nous pensons que les modèles voudront refléter ces nouvelles idées et mettre à jour leur formation à l’aide des données de Reddit ».

Les producteurs de contenu, qu’il s’agisse de médiathèques ou d’éditeurs de presse, se tournent de plus en plus vers des accords de licence de données avec des fournisseurs d’IA, car les chatbots tels que ChatGPT d’OpenAI et Gemini de Google menacent de saper le trafic. Un modèle récent de The Atlantic a révélé que si un moteur de recherche comme Google intégrait l’IA dans la recherche, il répondrait à la requête de l’utilisateur dans 75 % des cas sans nécessiter de clic sur son site web.

A lire aussi  Colossyan utilise GenAI pour créer des vidéos de formation d'entreprise

Les fournisseurs, quant à eux, ont été incités à conclure des accords de licence car ils sont confrontés à un déluge de poursuites judiciaires alléguant qu’ils n’ont aucune justification légale pour entraîner leurs modèles sur des données sans autorisation ou paiement. Récemment, le New York Times a accusé OpenAI de créer des concurrents parmi les éditeurs de nouvelles en utilisant ses travaux, ce qui a nui à ses activités.

OpenAI, par exemple, a conclu des accords avec la galerie d’images Shutterstock ainsi qu’avec des éditeurs tels qu’Axel Springer, propriétaire de Politico et de Business Insider. Les licences seraient toutefois assez modestes, puisqu’elles s’élèveraient à 5 millions de dollars par an.

IA