Le pionnier chinois des moteurs de recherche dévoile un modèle de grandes langues en source ouverte pour rivaliser avec OpenAI

Le pionnier chinois des moteurs de recherche dévoile un modèle de grandes langues en source ouverte pour rivaliser avec OpenAI

En février, le fondateur de Sogou, Wang Xiaochuan, a déclaré sur Weibo que « la Chine a besoin de son propre OpenAI ». L’entrepreneur chinois se rapproche à présent de son rêve puisque sa startup naissante Baichuan Intelligence a présenté aujourd’hui son modèle de langage large de nouvelle génération Baichuan-13B.

Baichuan est considérée comme l’un des développeurs de LLM les plus prometteurs de Chine, grâce au passé historique de son fondateur, prodige de l’informatique à l’université de Tsinghua et fondateur du fournisseur de moteurs de recherche Sogou, qui a ensuite été racheté par Tencent.

Wang a quitté Sogou fin 2021. Alors que ChatGPT a pris le monde d’assaut, l’entrepreneur a lancé Baichuan en avril et a rapidement obtenu un financement de 50 millions de dollars de la part d’un groupe d’investisseurs providentiels.

Comme d’autres LLM chinois, Baichuan, un modèle de 13 milliards de paramètres basé sur l’architecture Transformer (qui sous-tend également GPT), est entraîné sur des données chinoises et anglaises. (Les paramètres font référence aux variables que le modèle utilise pour générer et analyser le texte). Le modèle est open-source et optimisé pour une application commerciale, selon sa page GitHub.

Baichuan-13 a été entraîné sur 1,4 trillion de tokens. En comparaison, Meta’s LLaMa utilise 1 000 milliards de jetons dans son modèle à 13 milliards de paramètres. Wang a précédemment déclaré dans un interview que sa startup était en passe de sortir un modèle à grande échelle comparable au GPT-3.5 d’OpenAI d’ici la fin de l’année.

Ayant démarré il y a seulement trois mois, Baichuan a déjà atteint une vitesse de développement remarquable. À la fin du mois d’avril, l’équipe comptait 50 personnes et, en juin, elle a lancé son premier LLM, le modèle de pré-entraînement Baichuan-7B, qui compte 7 milliards de paramètres.

Aujourd’hui, le modèle fondamental Baichuan-13B est mis gratuitement à la disposition des universitaires et des développeurs qui ont reçu l’autorisation officielle de l’utiliser à des fins commerciales. Il est important de noter qu’à l’ère des sanctions américaines contre la Chine en matière de puces d’IA, le modèle propose des variantes qui peuvent fonctionner sur du matériel grand public, y compris les cartes graphiques 3090 de Nvidia.

Parmi les autres entreprises chinoises qui ont investi massivement dans les grands modèles linguistiques, on peut citer le géant des moteurs de recherche Baidu, Zhipu.ai, une entreprise dérivée de l’université de Tsinghua dirigée par le professeur Tang Jie, ainsi que l’institut de recherche IDEA dirigé par Harry Shum, qui a cofondé Microsoft Research Asia.

Les grands modèles linguistiques chinois émergent rapidement alors que le pays se prépare à mettre en œuvre certaines des réglementations les plus strictes au monde en matière d’IA. Comme le rapporte le Financial Times, la Chine devrait élaborer des réglementations pour l’IA générative en mettant l’accent sur le contenu, ce qui indique un contrôle renforcé par rapport aux règles introduites en avril. Les entreprises pourraient également devoir obtenir une licence avant de lancer de grands modèles linguistiques, ce qui pourrait ralentir les efforts de la Chine pour concurrencer les États-Unis dans ce secteur naissant.

IA