Vous vous souvenez du ballon « espion » chinois de 2023 ? Si ce n’est pas le cas, voici un rappel : il y a environ un an, un ballon à haute altitude en provenance de Chine a traversé l’espace aérien américain sans être détecté. Repéré et abattu par la suite par l’armée de l’air américaine, le ballon s’est avéré difficile à retracer pour les civils curieux, jusqu’à ce que des entreprises d’intelligence artificielle comme Synthetaic montrent qu’il était possible de le faire à l’aide d’images satellite.
La saga du ballon s’est avérée être une excellente opportunité de démonstration de produits pour Synthetaic, qui a attiré l’attention d’investisseurs tels que Booz Allen Hamilton, un entrepreneur du secteur de la défense.
Cette semaine, Synthetaic a levé 15 millions de dollars dans le cadre d’un tour de table de série B co-dirigé par Lupa Systems et TitletownTech, une société de capital-risque issue d’un partenariat entre les Green Bay Packers et Microsoft, avec la participation d’IBM Ventures et de Booz Allen Hamilton, déjà cité. Portant le total des fonds levés par Synthetaic à 32,5 millions de dollars, cette nouvelle somme servira à accélérer la commercialisation de la technologie de vision par ordinateur de l’entreprise et à presque doubler l’effectif de Synthetaic pour atteindre 80 personnes d’ici la fin de l’année, selon le PDG Corey Jaskolski.
« La quantité de données d’images générées augmente de façon exponentielle, ce qui souligne la demande croissante de solutions d’IA avancées pour gérer et analyser ce vaste ensemble d’informations « , a déclaré Jaskolski à TechCrunch lors d’une interview par e-mail. « Nous avons constaté que la production d’informations à partir de ces vastes quantités de données reste un problème important et une priorité pour de nombreuses industries telles que la défense, le géospatial, la sécurité vidéo ou la surveillance par drone. Les solutions d’IA de Synthetaic en matière d’apprentissage non supervisé et d’analyse de données nous positionnent stratégiquement pour naviguer dans ce paysage technologique en pleine évolution. »
M. Jaskolski, diplômé du MIT et ancien directeur de la technologie chez National Geographic, est du genre aventureux. Il est a fait de la plongée sous-marine au milieu d’icebergs en Antarctique, est descendu à 12 500 pieds sous la surface de l’océan pour explorer l’épave du Titanic, a dirigé une opération héliportée visant à dresser une carte du versant napolitain de l’Everest et s’est aventuré au plus profond de grottes inondées tout en cataloguant des victimes de sacrifices humains mayas et des squelettes d’ours de l’ère glaciaire.
Qu’est-ce qui a conduit un globe-trotter défiant la mort comme Jaskolski à fonder Synthetaic ? C’est très simple, dit-il : il s’est rendu compte que l’IA, dont il avait observé qu’elle pouvait aider à classer les informations du monde, était freinée par la nécessité d’annoter les données à la main.
« L’étiquetage humain est la norme pour la formation à l’IA », a déclaré M. Jaskolski. « À mesure que les modèles d’IA s’étoffent, ils sont plus performants, mais ils ont besoin de plus de données pour s’entraîner, car ils ont de plus en plus de paramètres internes réglables. Pendant longtemps, la solution industrielle à ce problème a consisté à demander à des millions de personnes de dessiner des boîtes sur des objets et d’entraîner l’IA, mais que se passerait-il si nous n’avions pas besoin de données étiquetées par des humains ?
Synthetaic, qui a été lancé en 2019, propose un outil – Rapid Automatic Image Categorization, ou IRAC en abrégé – conçu pour automatiser l’analyse de grands ensembles de données, à savoir l’imagerie satellitaire et la vidéo, ne contenant pas d’étiquettes.
De nombreux modèles d’IA sont formés en demandant à des groupes de personnes – les annotateurs – d’étiqueter les données afin qu’un modèle puisse apprendre à associer certaines annotations (c’est-à-dire des étiquettes) à des caractéristiques des données. Par exemple, un modèle nourri de nombreuses photos de chats avec des annotations pour chaque race finira par « apprendre » à faire la distinction entre les chats à queue courte et les chats à poil court.
L’IRAC, en revanche, utilise des données synthétiques – des données dont les étiquettes sont générées automatiquement – pour former des modèles.
Dans le cas du ballon chinois, cela a permis à la plateforme de Synthetaic de repérer le ballon à partir d’un simple croquis de l’aspect du ballon vu de l’espace et d’images satellites récentes de la zone où le ballon a été abattu.
« L’IRAC est capable de traiter des ensembles de données rares ou complexes, d’accélérer le développement de l’IA et d’améliorer la modélisation prédictive sans les contraintes liées à la quantité ou à la qualité des données. Jaskolski. « L’IRAC se positionne ainsi comme un atout stratégique pour stimuler l’innovation, l’efficacité opérationnelle et l’avantage concurrentiel, en particulier dans les cas d’utilisation où les données constituent un goulot d’étranglement pour l’adoption et la mise en œuvre de l’IA. »
Synthetaic n’est pas la seule entreprise à explorer l’utilisation de données synthétiques pour la formation de modèles.
Synthesis AI, qui a levé 17 millions de dollars lors d’un tour de table en avril 2022, développe une plateforme qui génère des données synthétiques pour former des systèmes d’IA de différents types. Il y a deux ans, Scale AI a lancé un programme qui permet aux ingénieurs en apprentissage automatique d’améliorer les ensembles de données du monde réel existants à l’aide d’échantillons synthétiques. Ailleurs, des entreprises comme Parallel Domain créent des données synthétiques pour des cas d’utilisation spécifiques tels que la conduite autonome.
Gartner prévoit que 60 % des données utilisées pour le développement de projets d’IA et d’analyse seront générées synthétiquement d’ici 2024. Mais alors que le secteur va de l’avant, certains experts craignent que les inconvénients – et les dangers potentiels – des données synthétiques ne soient ignorés.
Dans une étude de janvier 2020, des chercheurs de l’Arizona State University ont montré qu’un système d’IA formé sur un ensemble de données d’images de professeurs pouvait créer des visages très réalistes, mais des visages majoritairement blancs et masculins. Le système a amplifié les biais de l’ensemble de données original, qui – sans surprise – représentait des professeurs majoritairement blancs et masculins.
Les clients de Synthetaic n’ont pas été effrayés par les risques, pour ce que cela vaut.
La startup affirme avoir travaillé avec l’armée de l’air américaine pour tester la détection d’objets par l’IA dans des données géospatiales et avec The Nature Conservancy, l’organisation environnementale à but non lucratif, pour identifier des espèces d’oiseaux que l’on croyait disparues. Synthetaic a également conclu un contrat avec AFWERX, le laboratoire de recherche de l’armée de l’air, pour mettre au point une technologie d’étiquetage des objets, de modélisation de l’IA et de détection des objets dans les images capturées par satellite.
M. Jaskolski estime que L’IRAC a des applications dans d’innombrables autres domaines, du prototypage d’IA à la surveillance par drone et à la modération de contenu. Soulignant le travail de Synthetaic avec CNN pour analyser les images de guerre de Gaza et le partenariat avec Planet Labs pour vendre des analyses sur les données d’imagerie de la Terre, il affirme que les activités de Synthetaic sont robustes face au ralentissement de l’industrie technologique – et aux vents contraires macroéconomiques plus larges.
« La technologie de Synthetaic offre une approche transformatrice de la formation et de la création de modèles d’IA, en répondant aux besoins critiques des décideurs techniques ». Jaskolski. « Pour les responsables de C-suite, l’IRAC de Synthetaic signifie être capable de traiter des ensembles de données rares ou complexes, d’accélérer le développement de l’IA et d’améliorer la modélisation prédictive sans les contraintes liées à la quantité ou à la qualité des données. L’IRAC devient ainsi un atout stratégique pour stimuler l’innovation, l’efficacité opérationnelle et l’avantage concurrentiel, en particulier dans les cas d’utilisation où les données constituent un goulot d’étranglement pour l’adoption et la mise en œuvre de l’IA. »