Flower obtient 3,6 millions de dollars pour développer sa plateforme d’apprentissage fédéré

Flower obtient 3,6 millions de dollars pour développer sa plateforme d’apprentissage fédéré

La dépendance à l’égard des données publiques – principalement des données web – pour former l’IA freine le domaine de l’IA. C’est ce qu’affirme Daniel Beutel, entrepreneur technologique et chercheur à l’Université de Cambridge, qui a cofondé une startup, Flower, pour résoudre ce qu’il considère comme un problème croissant dans la recherche sur l’IA.

« Les données publiques et centralisées ne représentent qu’une infime partie de toutes les données du monde », a déclaré Beutel à TechCrunch lors d’une interview par e-mail. « En revanche, les données distribuées – les données qui sont piégées sur des appareils comme les téléphones, les wearables et les appareils de l’internet des objets ou dans des silos organisationnels, comme les unités commerciales au sein d’une entreprise – sont beaucoup plus importantes et plus complètes, mais hors de portée de l’IA aujourd’hui. »

Flower, que Beutel a lancé en 2020 avec ses collègues de Cambridge Taner Topal et Nicholas Lane, l’ancien directeur du centre d’IA de Samsung à Cambridge, est une tentative de « décentraliser » le processus de formation de l’IA par le biais d’une plateforme qui permet aux développeurs de former des modèles sur des données réparties sur des milliers d’appareils et d’emplacements. S’appuyant sur une technique appelée apprentissage fédéré, Flower n’offre pas d’accès direct aux données, ce qui rend la formation plus « sûre » dans les situations où la protection de la vie privée ou la conformité sont des préoccupations.

« Flower pense qu’une fois rendue facile et accessible grâce aux avantages fondamentaux des données distribuées, cette approche de l’IA deviendra non seulement courante, mais aussi la norme en matière de formation à l’IA », a déclaré M. Beutel.

L’apprentissage fédéré n’est pas une approche nouvelle. Proposée pour la première fois dans le monde universitaire il y a plusieurs années, cette technique consiste à former des algorithmes d’IA sur des dispositifs décentralisés contenant des échantillons de données sans que ceux-ci soient échangés. Un serveur centralisé peut être utilisé pour orchestrer l’apprentissage de l’algorithme, ou l’orchestration peut se faire de pair à pair. Dans tous les cas, les algorithmes locaux sont formés sur des échantillons de données locaux, et les poids – les composants apprenables des algorithmes – sont échangés entre eux pour générer un modèle global.

Fleur

La plateforme de Flower s’appuie sur l’apprentissage fédéré pour offrir une alternative décentralisée à la formation de modèles d’IA.

Des startups comme DynamoFL, DataFleets et Sherpa utilisent l’apprentissage fédéré sous une forme ou une autre pour former des modèles d’IA, tout comme les grandes entreprises technologiques telles que Google.

« Avec Flower, les données n’ont jamais besoin de quitter l’appareil ou le site d’origine (par exemple, les locaux d’une entreprise) pendant la formation », explique M. Beutel. Au lieu de cela, « le calcul va aux données » et une formation partielle est effectuée à chaque endroit où résident les données – seuls les résultats de la formation, et non les données, étant finalement transmis et fusionnés avec les résultats de tous les autres endroits.

Flower a récemment lancé FedGPT, une approche fédérée de la formation de grands modèles de langage (LLM) comparable à ChatGPT et GPT-4 d’OpenAI. Actuellement en avant-première, FedGPT permet aux entreprises de former des LLM sur des données réparties dans le monde entier et sur différents appareils, y compris des centres de données et des postes de travail.

« FedGPT est important parce qu’il permet aux organisations de construire des LLM en utilisant des données internes sensibles sans les partager avec un fournisseur de LLM », a déclaré M. Beutel. « Les entreprises ont souvent des données réparties dans le monde entier, ou dans différentes parties de l’organisation, qui ne peuvent pas être déplacées ou quitter une région géographique. FedGPT permet d’exploiter toutes ces données lors de la formation d’un LLM tout en respectant les préoccupations relatives à la vie privée et à la fuite de données, ainsi que les lois limitant le mouvement des données.

Flower s’associe également à Brave, le navigateur web open source, pour mener un projet appelé Dandelion. L’objectif est de construire un système d’apprentissage fédéré open source couvrant les plus de 50 millions de clients du navigateur Brave utilisés aujourd’hui, explique M. Beutel.

« L’IA entre dans une période de réglementation croissante et d’attention particulière portée à la provenance des données qu’elle utilise », a déclaré M. Beutel. « Les clients peuvent construire des systèmes d’IA en utilisant Flower où la vie privée des utilisateurs est fortement protégée, et pourtant ils sont toujours en mesure d’exploiter plus de données qu’ils n’ont jamais pu le faire auparavant … Sous Flower, en raison des principes d’apprentissage fédéré, un système d’IA peut toujours être déployé et formé avec succès sous différentes contraintes. »

Flower a connu un succès impressionnant au cours des derniers mois, avec une communauté de développeurs qui compte aujourd’hui un peu plus de 2 300 personnes, selon M. Beutel. Il affirme que des « dizaines » d’entreprises du Fortune 500 et d’institutions académiques sont des utilisateurs de Flower, dont Porsche, Bosch, Samsung, Banking Circle, Nokia, Stanford, Oxford, MIT et Harvard.

Portée par ces chiffres, Flower – qui fait partie de l’une des cohortes 2023 de Y Combinator – a attiré des investisseurs tels que First Spark Ventures, Clem Delangue, PDG de Hugging Face, Factorial Capital, Betaworks et Pioneer Fund. Lors de son tour de table de pré-amorçage, la startup a levé 3,6 millions de dollars.

M. Beutel indique que cette levée de fonds sera consacrée à l’élargissement de l’équipe centrale de Flower, à la croissance de son équipe de chercheurs et de développeurs et à l’accélération du développement du logiciel open source qui alimente le cadre et l’écosystème de Flower.

« L’IA est confrontée à une crise de reproductibilité, qui est encore plus aiguë pour l’apprentissage fédéré », a déclaré M. Beutel. « En raison du manque de formation généralisée sur les données distribuées, nous manquons d’une masse critique d’implémentations logicielles open-source d’approches populaires … En travaillant tous ensemble, nous visons à avoir le plus grand ensemble de techniques fédérées open-source au monde, disponible sur Fleur pour la communauté ».

IA