SantaCoder, l'IA qui programme sans violer les copyrights

Elles se nomment OpenAI Codex, GitHub CoPilot, DeepMind (Google) Alphacode, Meta InCoder, Salesforce CodeGen… Les IA génératives ‘programmeuses’ se sont révélées de remarquables outils d’aide au développement avec leur capacité à générer du code informatique en partant d’une simple demande exprimée avec des mots.

Mais elles ont aussi soulevé de délicates questions autour du respect des copyrights et licences des codes sources avec lesquelles elles ont été entrainées.

Ainsi, des développeurs tels que Matthew Butterick dénonce des IA qui « profitent du travail des autres en ne tenant pas compte des licences open-source sous-jacentes ». Il a intenté un procès à Microsoft autour de GitHub CoPilot et réclame 9 milliards de dollars !

Pour éviter un tel écueil, différents scientifiques (notamment issus de ServiceNow et Hugging Face) ont démarré il y a quelques mois une initiative dénommée BigCode. Cette collaboration vise à produire des modèles linguistiques de génération de code à la fois ouverts et responsables.

Et les premiers travaux de cette initiative commencent à voir le jour. Cela a commencé en novembre 2022 avec la publication de The Stack, une compilation de codes sources triés sur le volet et disposant tous d’une licence ultra-permissive autorisant une exploitation par des IA à l’instar de la licence MIT, la licence Apache 2.0, la licence BSD3-Clause ou MPL 2.0. En tout, BigCode a repéré 193 licences suffisamment permissives et regrouper dans une immense base de 6,4 To les codes sources attachés à ces licences. Dit autrement, The Stack est un jeu de codes sources, dédupliqués et écrits en 358 langages informatiques, représentant 6,4 To de données librement disponibles pour entraîner des IA programmeuses qui ne violent pas de copyrights ou de licences.

A noter que BigCode fournit sur son site un moteur de recherche qui permet aux développeurs de vérifier si un de ses codes sources est intégré dans The Stack et d’éventuellement réclamer qu’il en soit retiré.

Cette semaine, BigCode a rendu public ses premiers travaux autour de modèles capables de générer du code à partir d’un entraînement réalisé avec le jeu de données « The Stack ». Dénommé SantaCoder, ce modèle est un « Transformer » linguistique – tout comme GPT 3, le modèle derrière Codex et GitHub Copilot – qui comporte 1,1 milliard de paramètres (GPT 3 s’appuierait sur 450 milliards de paramètres selon nos informations) et 24 couches. Il peut générer du code en Python, Java, et Javascript. Chaque entrainement prend plus de 3 jours sur un HPC doté de 96 GPU Tesla V100 de NVidia.

Selon les chercheurs de BigCode, leur IA surpasse déjà InCoder et challenge très sérieusement des IA comme CodeGen et Codex aussi bien dans les tâches qui consiste à générer du code depuis une description que dans des tâches comme la complétion automatique de codes. Voilà qui est prometteur et nous rappelle qu’en la matière – celle des IA codeuses et des modèles génératifs – l’année 2023 s’annonce très animée.

Legisway lance un module de Contract Management

Vol de smartphone et sécurité numérique
Gaidar Magdanurov, Acronis

Confidentialité des données : Les consommateurs très sceptiques sur les initiatives des grands distributeurs

Le Syntec et l’Afdel réagissent au plan numérique

Intégrer la voix dans une stratégie omnicanale
Jérôme Lebrun, Almavia

SantaCoder, l’IA qui programme sans violer les copyrights

À lire également :

OpenAI, GitHub et Microsoft accusés de violation de licences open-source avec l’IA CoPilot !

Microsoft veut renforcer son partenariat OpenAI et intégrer ChatGPT à Microsoft 365

À la Build 2022, Microsoft démontre comment l’IA va révolutionner le développement

L’étonnante IA « ChatGPT » : ce que les DSI doivent absolument savoir en 10 points

Welcome

Rajouter InformatiqueNews.fr sur votre écran d'accueil