Microsoft cherche à se libérer du carcan des GPU en concevant des puces d’IA personnalisées

Microsoft cherche à se libérer du carcan des GPU en concevant des puces d’IA personnalisées

La plupart des entreprises qui développent des modèles d’IA, en particulier des modèles d’IA générative tels que ChatGPT, GPT-4 Turbo et Stable Diffusion, s’appuient fortement sur les GPU. La capacité des GPU à effectuer de nombreux calculs en parallèle les rend bien adaptés à l’entraînement – et à l’exécution – de l’IA la plus performante d’aujourd’hui.

Mais il n’y a tout simplement pas assez de GPU pour tout le monde.

Les cartes IA les plus performantes de Nvidia seraient épuisées jusqu’en 2024. Le PDG du fabricant de puces TSMC s’est récemment montré moins optimiste, suggérant que la pénurie de GPU d’IA de Nvidia – ainsi que de puces des rivaux de Nvidia – pourrait se prolonger jusqu’en 2025.

Microsoft suit donc sa propre voie.

Aujourd’hui, lors de sa conférence 2023 Ignite, Microsoft a dévoilé deux puces d’IA conçues sur mesure, en interne et destinées aux centres de données : l’accélérateur d’IA Azure Maia 100 et l’unité centrale Azure Cobalt 100. Maia 100 peut être utilisé pour former des modèles d’IA, tandis que Cobalt 100 est conçu pour les exécuter.

Crédits d’image : Microsoft

« Microsoft construit l’infrastructure pour soutenir l’innovation en matière d’IA, et nous réimaginons chaque aspect de nos centres de données pour répondre aux besoins de nos clients », a déclaré Scott Guthrie, vice-président exécutif du groupe cloud et IA de Microsoft, dans un communiqué de presse fourni à TechCrunch en début de semaine. « À l’échelle à laquelle nous opérons, il est important pour nous d’optimiser et d’intégrer chaque couche de la pile d’infrastructure afin de maximiser les performances, de diversifier notre chaîne d’approvisionnement et de donner aux clients un choix d’infrastructure. »

Selon Microsoft, Maia 100 et Cobalt 100 commenceront à être déployés au début de l’année prochaine dans les centres de données Azure. Ils alimenteront dans un premier temps les services d’IA de Microsoft tels que Copilot, la famille de produits d’IA générative de Microsoft, et Azure OpenAI Service, l’offre entièrement gérée de l’entreprise pour les modèles OpenAI. Il n’en est peut-être qu’à ses débuts, mais Microsoft assure que ces puces ne sont pas uniques. Des matériels Maia et Cobalt de deuxième génération sont déjà en préparation.

Construit à partir de zéro

Le fait que Microsoft ait créé des puces d’IA personnalisées n’est pas vraiment une surprise. La machine a été mise en marche il y a un certain temps – et rendue publique.

En avril, The Information a rapporté que Microsoft travaillait sur des puces d’IA en secret depuis 2019 dans le cadre d’un projet portant le nom de code Athena. Et plus loin dans le temps, en 2020, Bloomberg a révélé que Microsoft avait conçu une gamme de puces basées sur l’architecture ARM pour les centres de données et d’autres appareils, y compris le matériel grand public (pensez à la Surface Pro).

Mais l’annonce faite à Ignite donne l’aperçu le plus complet des efforts de Microsoft en matière de semi-conducteurs.

Le premier produit est le Maia 100.

Microsoft affirme que Maia 100 – une puce de 5 nanomètres contenant 105 milliards de transistors – a été conçue « spécifiquement pour la pile matérielle Azure » et pour « atteindre l’utilisation maximale absolue du matériel ». La société promet que Maia 100 « alimentera certaines des plus grandes charges de travail internes d’IA (et d’IA générative) fonctionnant sur Microsoft Azure », y compris les charges de travail pour Bing, Microsoft 365 et Azure OpenAI Service (mais pas les clients du cloud public – pour l’instant).

Maia 100

Crédits d’image : Microsoft

Cela fait beaucoup de jargon. Qu’est-ce que tout cela signifie ? Eh bien, pour être tout à fait honnête, ce n’est pas totalement évident pour ce journaliste – du moins pas d’après les détails fournis par Microsoft dans ses documents de presse. En fait, on ne sait même pas quel type de puce Maia 100 est ; Microsoft a choisi de garder l’architecture secrète, du moins pour le moment.

Autre point décevant, Microsoft n’a pas soumis Maia 100 à des suites de tests d’étalonnage publiques telles que MLCommons, de sorte qu’il n’est pas possible de comparer les performances de la puce à celles d’autres puces d’apprentissage de l’IA, telles que TPU de Google, Tranium d’Amazon et MTIA de Meta. Maintenant que le chat est sorti du sac, espérons que cela changera rapidement.

Il est intéressant de noter que Microsoft était a accepté de divulguer est que son proche partenaire en IA et cible d’investissement, OpenAI, a fourni un retour d’information sur la conception de Maia 100.

Il s’agit d’une évolution des liens entre les deux entreprises en matière d’infrastructure informatique.

En 2020, OpenAI a collaboré avec Microsoft pour concevoir un « supercalculateur d’IA » hébergé par Azure – un cluster contenant plus de 285 000 cœurs de processeur et 10 000 cartes graphiques. Par la suite, OpenAI et Microsoft ont construit plusieurs systèmes de supercalculateurs alimentés par Azure – qu’OpenAI utilise exclusivement pour ses recherches, son API et ses produits – afin d’entraîner les modèles d’OpenAI.

« Depuis notre premier partenariat avec Microsoft, nous avons collaboré à la conception conjointe de l’infrastructure d’IA d’Azure à tous les niveaux pour nos modèles et nos besoins de formation sans précédent », a déclaré M. Altman dans un communiqué de presse. « Nous avons été enthousiasmés lorsque Microsoft a partagé pour la première fois ses conceptions pour la puce Maia, et nous avons travaillé ensemble pour l’affiner et la tester avec nos modèles. L’architecture d’IA de bout en bout d’Azure, désormais optimisée jusqu’au silicium avec Maia, ouvre la voie à la formation de modèles plus performants et à la réduction du coût de ces modèles pour nos clients. »

J’ai demandé des précisions à Microsoft et un porte-parole m’a répondu : « En tant que fournisseur exclusif d’OpenAI, nous travaillons en étroite collaboration pour nous assurer que notre infrastructure répond à leurs besoins actuels et futurs. Ils ont fourni des tests et des commentaires précieux sur Maia, et nous continuerons à consulter leur feuille de route dans le développement de nos générations de silicium d’IA de première partie de Microsoft. »

Nous savons également que l’emballage physique de Maia 100 est plus grand que celui d’un GPU classique.

Microsoft explique qu’elle a dû construire de toutes pièces les racks de serveurs du centre de données qui accueillent les puces Maia 100, dans le but de loger à la fois les puces et les câbles d’alimentation et de réseau nécessaires. Le Maia 100 a également nécessité une solution unique de refroidissement par liquide, car les puces consomment une quantité d’énergie supérieure à la moyenne et les centres de données de Microsoft n’ont pas été conçus pour accueillir de grands refroidisseurs de liquide.

Crédits d’image : Microsoft

Un liquide froid s’écoule depuis (un « acolyte ») vers des plaques froides fixées à la surface des puces Maia 100″, explique un article publié par Microsoft. « Chaque plaque comporte des canaux dans lesquels le liquide circule pour absorber et transporter la chaleur. Ce liquide s’écoule vers le sidekick, qui enlève la chaleur du liquide et le renvoie vers le rack pour absorber plus de chaleur, et ainsi de suite. »

Comme pour Maia 100, Microsoft a gardé la plupart des détails techniques du Cobalt 100 vagues lors de sa présentation à Ignite, à l’exception du fait que le Cobalt 100 est une puce 128 cœurs économe en énergie construite sur une architecture CSS Arm Neoverse et « optimisée pour offrir une plus grande efficacité et des performances accrues dans les offres natives du cloud ».

Cobalt 100

Crédits d’image : Microsoft

Les puces d’inférence d’IA basées sur Arm étaient une sorte de tendance – une tendance que Microsoft perpétue aujourd’hui. La dernière puce de centre de données d’Amazon pour l’inférence, Graviton3E (qui complète Inferentia, l’autre puce d’inférence de l’entreprise), est construite sur une architecture Arm. Google serait en train de préparer ses propres puces de serveur Arm personnalisées.

« L’architecture et l’implémentation sont conçues dans un souci d’efficacité énergétique », a déclaré Wes McCullough, CVP du développement des produits matériels, à propos de Cobalt. « Nous faisons l’usage le plus efficace possible des transistors sur le silicium. Si l’on multiplie ces gains d’efficacité dans les serveurs de tous nos centres de données, on obtient un chiffre assez important. »

Un porte-parole de Microsoft a déclaré que Cobalt 100 alimentera de nouvelles machines virtuelles pour les clients au cours de l’année à venir.

Mais pourquoi ?

Microsoft a donc créé des puces d’IA. Mais pourquoi ? Quelle est la motivation ?

Eh bien, il y a la ligne de conduite de l’entreprise – « optimiser chaque couche de la pile technologique (Azure) », peut-on lire dans l’un des billets de blog de Microsoft publiés aujourd’hui. Mais le sous-texte est que Microsoft s’efforce de rester compétitif – et soucieux des coûts – dans la course incessante à la domination de l’IA.

La rareté et le caractère indispensable des GPU ont rendu les entreprises du secteur de l’IA, grandes et petites, y compris Microsoft, redevables aux fournisseurs de puces. En mai, Nvidia a atteint une valeur de marché de plus de 1 000 milliards de dollars grâce à ses puces d’IA et à ses revenus connexes (13,5 milliards de dollars au cours de son dernier trimestre fiscal), devenant ainsi la sixième entreprise technologique de l’histoire à atteindre cet objectif. Même avec une fraction de la base d’installation, le principal rival de Nvidia, AMD, s’attend à ce que les revenus de ses centres de données GPU dépassent les 2 milliards de dollars en 2024.

Microsoft n’est sans doute pas satisfait de cet arrangement. OpenAI l’est certainement – et c’est la technologie d’OpenAI qui est à l’origine de la plupart des produits, applications et services d’IA phares de Microsoft aujourd’hui.

Lors d’une réunion privée avec des développeurs cet été, M. Altman a admis que la pénurie de GPU et les coûts entravaient les progrès d’OpenAI ; cette semaine encore, la société a été contrainte de suspendre les inscriptions à ChatGPT en raison de problèmes de capacité. Dans une interview accordée cette semaine au Financial Times, M. Altman a souligné qu’il « espérait » que Microsoft, qui a investi plus de 10 milliards de dollars dans OpenAI au cours des quatre dernières années, augmenterait son investissement pour aider à payer les « énormes » coûts de formation aux modèles imminents.

Microsoft a elle-même averti ses actionnaires au début de l’année des perturbations potentielles du service Azure AI si elle ne peut pas obtenir suffisamment de puces pour ses centres de données. La société a été contrainte de prendre des mesures drastiques dans l’intervalle, comme inciter les clients Azure ayant des réservations de GPU inutilisées à les abandonner en échange de remboursements et promettre plus de milliards de dollars à des fournisseurs de GPU dans le nuage tiers comme CoreWeave.

Si OpenAI conçoit ses propres puces d’IA, comme le veut la rumeur, cela pourrait mettre les deux parties en désaccord. Mais Microsoft considère probablement que les économies potentielles résultant d’un matériel interne – et la compétitivité sur le marché du cloud – valent le risque de devancer son allié.

L’un des premiers produits d’IA de Microsoft, GitHub Copilot, qui génère du code, aurait coûté à l’entreprise jusqu’à 80 dollars par utilisateur et par mois, en partie à cause des coûts d’inférence des modèles. Si la situation ne s’améliore pas, la société d’investissement UBS estime que Microsoft aura du mal à générer des flux de revenus liés à l’IA l’année prochaine.

Bien sûr, le matériel est difficile et il n’y a aucune garantie que Microsoft réussira à lancer des puces d’IA là où d’autres ont échoué.

Les premiers efforts de Meta en matière de puces d’IA personnalisées ont été confrontés à des problèmes, ce qui a conduit l’entreprise à mettre au rebut une partie de son matériel expérimental. Ailleurs, Google n’a pas été en mesure de répondre à la demande pour ses TPU, rapporte Wired, et a rencontré des problèmes de conception avec sa dernière génération de puce.

Microsoft, quant à lui, s’est lancé dans l’aventure. Et la confiance est au rendez-vous.

« L’innovation de Microsoft va plus loin dans la pile avec ce travail sur le silicium pour assurer l’avenir des charges de travail de nos clients sur Azure, en donnant la priorité à la performance, à l’efficacité énergétique et au coût », a déclaré Pat Stemen, responsable du programme des partenaires au sein de l’équipe des systèmes matériels et de l’infrastructure Azure de Microsoft, dans un billet de blog publié aujourd’hui. « Nous avons choisi cette innovation intentionnellement afin que nos clients bénéficient de la meilleure expérience possible avec Azure aujourd’hui et à l’avenir … Nous essayons de fournir le meilleur ensemble d’options pour (les clients), que ce soit pour la performance ou le coût ou toute autre dimension qui leur importe ».

IA