Meta a construit un modèle d’IA générateur de code similaire à Copilot

Meta a construit un modèle d’IA générateur de code similaire à Copilot

Meta affirme avoir créé un outil d’IA générative pour le codage similaire à Copilot de GitHub.

La société a fait cette annonce lors d’un événement consacré à ses efforts en matière d’infrastructure d’IA, y compris les puces personnalisées que Meta construit pour accélérer l’entraînement des modèles d’IA générative. L’outil de codage, appelé CodeCompose, n’est pas disponible publiquement – du moins pas encore. Mais Meta affirme que ses équipes l’utilisent en interne pour obtenir des suggestions de code pour Python et d’autres langages lorsqu’ils tapent dans des IDE comme VS Code.

« Le modèle sous-jacent est construit sur la base d’une recherche publique de Meta que nous avons adaptée à nos cas d’utilisation internes et à nos bases de code », a déclaré Michael Bolin, ingénieur logiciel chez Meta, dans une vidéo préenregistrée. « Du côté des produits, nous sommes en mesure d’intégrer CodeCompose dans n’importe quelle surface où nos développeurs ou nos scientifiques des données travaillent avec du code.

Le plus grand des modèles CodeCompose entraînés par Meta compte 6,7 milliards de paramètres, soit un peu plus de la moitié du nombre de paramètres du modèle sur lequel est basé Copilot. Les paramètres sont les parties du modèle apprises à partir de données d’entraînement historiques et définissent essentiellement les compétences du modèle sur un problème, tel que la génération de texte.

CodeCompose a été affiné sur le code d’origine de Meta, y compris les bibliothèques internes et les cadres écrits en Hack, un langage de programmation développé par Meta, afin qu’il puisse les intégrer dans ses suggestions de programmation. Son ensemble de données d’entraînement de base a été filtré des mauvaises pratiques de codage et des erreurs, comme les API obsolètes, afin de réduire le risque que le modèle recommande une partie de code problématique.

En pratique, CodeCompose fait des suggestions telles que des annotations et des déclarations d’importation au fur et à mesure que l’utilisateur tape. Le système peut compléter une seule ligne de code ou plusieurs lignes, en complétant éventuellement de grandes parties de code.

« CodeCompose peut tirer parti du code environnant pour fournir de meilleures suggestions », poursuit M. Bolin. « Il peut également utiliser les commentaires du code comme un signal pour générer du code. »

Meta affirme que des milliers d’employés acceptent les suggestions de CodeCompose chaque semaine et que le taux d’acceptation est supérieur à 20 %.

L’entreprise n’a cependant pas abordé les controverses autour de l’IA génératrice de code.

Microsoft, GitHub et OpenAI sont poursuivis dans le cadre d’un recours collectif qui les accuse de violer la loi sur les droits d’auteur en permettant à Copilot de régurgiter des sections de code sous licence sans fournir de crédit. La responsabilité mise à part, certains experts juridiques ont suggéré que l’IA comme Copilot pourrait mettre les entreprises en danger si elles devaient involontairement incorporer des suggestions protégées par le droit d’auteur de l’outil dans leur logiciel de production.

On ne sait pas si CodeCompose a lui aussi été formé sur du code sous licence ou sous copyright, même accidentellement. Contacté pour un commentaire, un porte-parole de Meta a dit ceci :

« CodeCompose a été formé sur InCoder, qui a été publié par la division de recherche en IA de Meta. Dans un article détaillant InCoder, nous notons que, pour former InCoder, ‘nous collectons un corpus de (1) code public avec des licences open source permissives, sans copyleft, de GitHub et GitLab et (2) des questions, réponses et commentaires de StackOverflow’. La seule formation supplémentaire que nous donnons à CodeCompose concerne le code interne de Meta ».

Les outils de codage génératif peuvent également introduire du code non sécurisé. Selon une étude récente de Stanford, les ingénieurs logiciels qui utilisent des systèmes d’IA générateurs de code sont plus susceptibles de provoquer des failles de sécurité dans les applications qu’ils développent. Bien que l’étude n’ait pas porté sur CodeCompose en particulier, il est logique que les développeurs qui l’utilisent soient victimes de la même chose.

M. Bolin a souligné que les développeurs n’étaient pas obligés de suivre les suggestions de CodeCompose et que la sécurité avait été une « considération majeure » lors de la création du modèle. « Nous sommes extrêmement satisfaits des progrès réalisés à ce jour sur CodeCompose, et nous pensons que nos développeurs sont mieux servis par l’intégration de ce travail en interne », a-t-il ajouté

IA