Les entreprises accumulent plus de données que jamais pour alimenter leurs ambitions en matière d’IA, mais en même temps, elles s’inquiètent de savoir qui peut accéder à ces données, qui sont souvent de nature très privée. PVML offre une solution intéressante en combinant un outil de type ChatGPT pour l’analyse des données avec les garanties de sécurité de la confidentialité différentielle. Grâce à la génération augmentée par récupération (RAG), PVML peut accéder aux données d’une entreprise sans les déplacer, ce qui élimine une autre considération de sécurité.
La société basée à Tel Aviv a récemment annoncé qu’elle avait levé un fonds d’amorçage de 8 millions de dollars, dirigé par NFX, avec la participation de FJ Labs et de Gefen Capital.
La société a été fondée par Shachar Schnapp (PDG) et Rina Galperin (directrice technique). M. Schnapp a obtenu un doctorat en informatique, spécialisé dans la confidentialité différentielle, et a ensuite travaillé sur la vision par ordinateur chez General Motors, tandis que Mme Galperin a obtenu une maîtrise en informatique, spécialisée dans l’IA et le traitement du langage naturel, et a travaillé sur des projets d’apprentissage automatique chez Microsoft.
« Une grande partie de notre expérience dans ce domaine provient de notre travail dans de grandes entreprises où nous avons constaté que les choses ne sont pas aussi efficaces que nous l’espérions peut-être en tant qu’étudiants naïfs », a déclaré M. Galperin. « La principale valeur que nous voulons apporter aux organisations en tant que PVML est la démocratisation des données. Cela ne peut se faire que si, d’une part, vous protégez ces données très sensibles, mais que, d’autre part, vous en facilitez l’accès, ce qui est aujourd’hui synonyme d’IA. Tout le monde veut analyser les données en utilisant du texte libre. C’est beaucoup plus facile, plus rapide et plus efficace – et notre sauce secrète, la confidentialité différentielle, permet cette intégration très facilement. »
La confidentialité différentielle est loin d’être un nouveau concept. L’idée de base est d’assurer la confidentialité des utilisateurs individuels dans de grands ensembles de données et de fournir des garanties mathématiques à cet effet. L’un des moyens les plus courants d’y parvenir consiste à introduire un certain degré d’aléa dans l’ensemble de données, mais d’une manière qui ne modifie pas l’analyse des données.
L’équipe affirme que les solutions actuelles d’accès aux données sont inefficaces et génèrent beaucoup de frais généraux. Souvent, par exemple, de nombreuses données doivent être supprimées pour permettre aux employés d’obtenir un accès sécurisé aux données – mais cela peut être contre-productif parce que vous ne pouvez pas utiliser efficacement les données expurgées pour certaines tâches (en outre, le délai supplémentaire pour accéder aux données signifie que les cas d’utilisation en temps réel sont souvent impossibles).
La promesse d’utiliser la confidentialité différentielle signifie que les utilisateurs de PVML n’ont pas besoin de modifier les données d’origine. Cela permet d’éviter la quasi-totalité des frais généraux et de libérer ces informations en toute sécurité pour les cas d’utilisation de l’intelligence artificielle.
Pratiquement toutes les grandes entreprises technologiques utilisent aujourd’hui la confidentialité différentielle sous une forme ou une autre et mettent leurs outils et leurs bibliothèques à la disposition des développeurs. L’équipe PVML soutient qu’elle n’a pas encore été mise en pratique par la majeure partie de la communauté des données.
« Les connaissances actuelles sur la confidentialité différentielle sont plus théoriques que pratiques », a déclaré M. Schnapp. « Nous avons décidé de passer de la théorie à la pratique. Et c’est exactement ce que nous avons fait : Nous développons des algorithmes pratiques qui fonctionnent mieux sur des données dans des scénarios réels.
Tout ce travail sur la confidentialité différentielle n’aurait pas d’importance si les outils et la plate-forme d’analyse des données de PVML n’étaient pas utiles. Le cas d’utilisation le plus évident est la possibilité de discuter avec vos données, tout en ayant la garantie qu’aucune donnée sensible ne peut s’infiltrer dans la discussion. En utilisant RAG, PVML peut réduire les hallucinations à presque zéro et les frais généraux sont minimes puisque les données restent en place.
Mais il existe également d’autres cas d’utilisation. Schnapp et Galperin ont noté que le respect différentiel de la vie privée permet également aux entreprises de partager des données entre les unités commerciales. En outre, elle peut également permettre à certaines entreprises de monnayer l’accès à leurs données à des tiers, par exemple.
« Sur le marché boursier aujourd’hui, 70 % des transactions sont effectuées par l’IA », a déclaré Gigi Levy-Weiss, associée générale et cofondatrice de NFX. « C’est un avant-goût des choses à venir, et les organisations qui adoptent l’IA aujourd’hui auront une longueur d’avance demain. Mais les entreprises ont peur de connecter leurs données à l’IA, parce qu’elles craignent d’être exposées – et pour de bonnes raisons. La technologie unique de PVML crée une couche invisible de protection et démocratise l’accès aux données, permettant des cas d’utilisation de monétisation aujourd’hui et ouvrant la voie à demain. »