Vana propose aux utilisateurs de louer leurs données Reddit pour former l’IA

Vana propose aux utilisateurs de louer leurs données Reddit pour former l’IA

Dans le domaine de la IA générative, les données sont le nouveau pétrole. Alors pourquoi ne pourriez-vous pas vendre les vôtres ?

Qu’il s’agisse de grandes entreprises technologiques ou de startups, les fabricants d’IA accordent des licences pour des livres électroniques, des images, des vidéos, des fichiers audio et bien d’autres choses encore à des courtiers en données, dans le but de former des produits alimentés par l’IA plus performants (et plus défendables sur le plan juridique). Shutterstock a conclu des accords avec Meta, Google, Amazon et Apple pour fournir des millions d’images destinées à l’entraînement des modèles, tandis qu’OpenAI a signé des accords avec plusieurs organismes de presse pour entraîner ses modèles à partir d’archives d’actualités.

Dans de nombreux cas, les créateurs et les propriétaires de ces données n’ont pas vu un centime de l’argent changer de mains. Une startup appelée Vana veut changer cela.

Anna Kazlauskas et Art Abal, qui se sont rencontrés dans une classe du MIT Media Lab consacrée à la création de technologies pour les marchés émergents, ont cofondé Vana en 2021. Avant de fonder Vana, Anna Kazlauskas a étudié l’informatique et l’économie au MIT, qu’elle a finalement quitté pour lancer une startup d’automatisation fintech, Iambiq, issue de Y Combinator. Abal, juriste d’entreprise de formation, a été associé au Cadmus Group, un cabinet de conseil basé à Boston, avant de diriger l’impact sourcing de la société d’annotation de données Appen.

Avec Vana, Kazlauskas et Abal ont entrepris de construire une plateforme qui permet aux utilisateurs de « mettre en commun » leurs données – y compris les chats, les enregistrements vocaux et les photos – dans des ensembles de données qui peuvent ensuite être utilisés pour la formation de modèles d’IA générative. Ils souhaitent également créer des expériences plus personnalisées – par exemple, un message vocal de motivation quotidien basé sur vos objectifs de bien-être, ou une application génératrice d’art qui comprend vos préférences en matière de style – en affinant les modèles publics sur ces données.

« L’infrastructure de Vana crée en fait un trésor de données appartenant à l’utilisateur », a déclaré Kazlauskas à TechCrunch. « Vana permet aux utilisateurs de posséder des modèles d’IA et d’utiliser leurs données dans des applications d’IA. »

Voici comment Vana présente sa plateforme et son API aux développeurs :

L’API de Vana relie les données personnelles multiplateformes d’un utilisateur … pour vous permettre de personnaliser votre application. Votre application obtient un accès instantané au modèle d’IA personnalisé d’un utilisateur ou aux données sous-jacentes, ce qui simplifie l’intégration et élimine les problèmes de coûts de calcul … Nous pensons que les utilisateurs devraient être en mesure d’apporter leurs données personnelles à partir de jardins clos, comme Instagram, Facebook et Google, à votre application, de sorte que vous puissiez créer une expérience personnalisée étonnante dès la première fois qu’un utilisateur interagit avec votre application d’IA grand public.

La création d’un compte chez Vana est assez simple. Après avoir confirmé votre adresse électronique, vous pouvez joindre des données à un avatar numérique (comme des selfies, une description de vous-même et des enregistrements vocaux) et explorer les applications créées à l’aide de la plateforme et des ensembles de données de Vana. La sélection d’applications va des chatbots de type ChatGPT aux livres d’histoires interactifs, en passant par un générateur de profil Hinge.

Vana Reddit DAO

Crédits d’image : Vana

À l’heure de la sensibilisation à la protection des données personnelles et des attaques de ransomware, pourquoi quelqu’un donnerait-il ses informations personnelles à une entreprise anonyme, et encore moins à une entreprise financée par le capital-risque ? (Vana a levé 20 millions de dollars à ce jour auprès de Paradigm, Polychain Capital et d’autres bailleurs de fonds). Peut-on vraiment faire confiance à une entreprise à but lucratif pour ne pas abuser ou maltraiter les données monétisables sur lesquelles elle met la main ?

Vana Reddit DAO

Crédits d’image : Vana

En réponse à cette question, Mme Kazlauskas a souligné que l’objectif de Vana est de permettre aux utilisateurs de « reprendre le contrôle de leurs données », en précisant que les utilisateurs de Vana ont la possibilité d’héberger eux-mêmes leurs données plutôt que de les stocker sur les serveurs de Vana et de contrôler la manière dont leurs données sont partagées avec les applications et les développeurs. Elle a également fait valoir que, comme Vana gagne de l’argent en faisant payer aux utilisateurs un abonnement mensuel (à partir de 3,99 dollars) et en prélevant des frais de « transaction de données » aux développeurs (par exemple, pour le transfert d’ensembles de données pour l’entraînement de modèles d’IA), l’entreprise n’est pas incitée à exploiter les utilisateurs et les tonnes de données personnelles qu’ils apportent avec eux.

« Nous voulons créer des modèles détenus et gouvernés par des utilisateurs qui fournissent tous leurs données », a déclaré M. Kazlauskas, « et permettre aux utilisateurs d’apporter leurs données et leurs modèles à n’importe quelle application ».

Aujourd’hui, alors que Vana ne vend pas les données des utilisateurs à des entreprises pour l’entraînement de modèles d’IA générative (c’est du moins ce qu’elle prétend), elle veut permettre aux utilisateurs de le faire eux-mêmes s’ils le souhaitent – en commençant par leurs posts sur Reddit.

Ce mois-ci, Vana a lancé ce qu’elle appelle la Reddit Data DAO (Digital Autonomous Organization), un programme qui met en commun les données Reddit de plusieurs utilisateurs (y compris leur karma et l’historique de leurs posts) et leur permet de décider ensemble de l’utilisation de ces données combinées. Après s’être inscrits avec un compte Reddit, avoir soumis une demande de données à Reddit et avoir téléchargé ces données dans la DAO, les utilisateurs obtiennent le droit de voter avec les autres membres de la DAO sur des décisions telles que l’octroi de licences sur les données combinées à des entreprises d’IA générative pour un bénéfice partagé.

Il s’agit en quelque sorte d’une réponse aux récentes initiatives de Reddit visant à commercialiser les données de sa plateforme.

Auparavant, Reddit n’autorisait pas l’accès aux messages et aux communautés à des fins de formation à l’IA générative. Mais il a fait volte-face à la fin de l’année dernière, avant son introduction en bourse. Depuis ce changement de politique, Reddit a engrangé plus de 203 millions de dollars en droits de licence de la part d’entreprises telles que Google.

« L’idée générale (de la DAO) est de libérer les données des utilisateurs des grandes plateformes qui cherchent à les accaparer et à les monétiser », a déclaré M. Kazlauskas. « C’est une première et cela fait partie de notre volonté d’aider les gens à mettre en commun leurs données dans des ensembles de données appartenant aux utilisateurs pour former des modèles d’IA. »

Sans surprise, Reddit – qui ne travaille pas avec Vana de manière officielle – n’est pas satisfait de la DAO.

Reddit a banni le subreddit de Vana consacré aux discussions sur la DAO. Un porte-parole de Reddit a accusé Vana d' »exploiter » son système d’exportation de données, qui est conçu pour se conformer aux réglementations sur la confidentialité des données telles que le GDPR et la loi californienne sur la protection de la vie privée des consommateurs.

« Nos accords sur les données nous permettent de mettre en place des garde-fous pour ces entités, même pour les informations publiques », a déclaré le porte-parole à TechCrunch. « Reddit ne partage pas de données personnelles non publiques avec des entreprises commerciales, et lorsque les Redditors nous demandent d’exporter leurs données, ils reçoivent en retour des données personnelles non publiques conformément aux lois applicables. Les partenariats directs entre Reddit et des organisations approuvées, avec des conditions et une responsabilité claires, sont importants, et ces partenariats et accords empêchent l’utilisation abusive des données des personnes. »

Mais Reddit a-t-il vraiment des raisons de s’inquiéter ?

Kazlauskas envisage que la DAO se développe au point d’avoir un impact sur le montant que Reddit peut facturer à ses clients pour ses données. La DAO compte un peu plus de 141 000 membres, soit une infime partie des 73 millions d’utilisateurs de Reddit. Et certains de ces membres pourraient être des robots ou des comptes dupliqués.

Ensuite, il y a la question de savoir comment distribuer équitablement les paiements que la DAO pourrait recevoir de la part des acheteurs de données.

Actuellement, la DAO attribue des « jetons » – des crypto-monnaies – aux utilisateurs en fonction de leur karma sur Reddit. Mais le karma n’est peut-être pas la meilleure mesure de la qualité des contributions à l’ensemble des données, en particulier dans les petites communautés Reddit qui ont moins d’occasions de le gagner.

Kazlauskas émet l’idée que les membres de la DAO pourraient choisir de partager leurs données démographiques et multiplateformes, ce qui rendrait la DAO potentiellement plus précieuse et inciterait les membres à s’inscrire. Mais pour cela, il faudrait que les utilisateurs fassent encore plus confiance à Vana pour traiter leurs données sensibles de manière responsable.

Personnellement, je ne vois pas la DAO de Vana atteindre la masse critique. Les obstacles sont bien trop nombreux. Je pense toutefois qu’il ne s’agira pas de la dernière tentative populaire d’affirmer le contrôle sur les données de plus en plus utilisées pour former des modèles d’IA génératifs.

Des startups comme Spawning travaillent sur des moyens de permettre aux créateurs d’imposer des règles sur la manière dont leurs données sont utilisées pour la formation, tandis que des fournisseurs comme Getty Images, Shutterstock et Adobe continuent d’expérimenter des systèmes de compensation. Mais personne n’a encore réussi à déchiffrer le code. Peut-il même être craqué ? Compte tenu de la nature féroce de l’industrie de l’IA générative, il s’agit certainement d’un défi de taille. Mais peut-être que quelqu’un trouvera un moyen – ou que les décideurs politiques en imposeront un.

IA