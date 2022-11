C’est l’anecdote de la semaine. Mais elle pourrait coûter très cher à Microsoft. Le développeur et avocat Matthew Butterick poursuit l’éditeur ainsi que sa filiale GitHub et son partenaire OpenAI pour violation des licences open-source par l’IA Copilot de GitHub !

Lancé en juin 2022, le service Copilot de GitHub est une Intelligence Artificielle d’aide à la programmation qui permet de générer automatiquement du code source à partir de commentaires. Dit autrement, elle transforme le langage naturel en lignes de programmation dans une douzaine de langages informatiques. C’est une assistance qui peut faire gagner beaucoup de temps aux développeurs.

Ce service s’appuie sur l’IA Codex d’OpenAI. Cette dernière a été entraînée à partir de milliards de lignes de codes publiées sur les répertoires publics de GitHub. Et c’est bien là le problème. Car dans sa génération de code source, l’IA n’attribue pas à tel ou tel auteur les lignes qui l’ont « inspiré ». Selon certains spécialistes, elle commet dès lors une violation des termes des licences open source comme GPL, Apache et MIT qui imposent de conserver les copyrights et de rappeler les noms des auteurs. Certains développeurs n’ont pas hésité à parler de « blanchissement de l’open source ».

Pour Joseph Saveri, le cabinet qui représente Matthew Butterick dans ce litige, « Microsoft profite du travail des autres en ne tenant pas compte des conditions des licences open-source sous-jacentes et d’autres exigences légales ».

En septembre, un professeur de l’université des sciences informatiques du Texas s’était déjà plaint sur les réseaux sociaux que Copilot pouvait générer de larges portions de code directement récupérées de ses codes sources sans la moindre attribution.

Selon Matthew Butterick, l’IA de Copilot viole plusieurs règles et licences :

– Les propres politiques de confidentialité et de service de GitHub

– La DMCA 1202 qui interdit tout retrait d’information sur les copyrights

– Le Consumer Privacy Act californien (un peu équivalent au RGPD)

– Différentes lois sur les copyrights et droits des développeurs.

En outre Matthew Butterick, décidément vent debout contre de telles IA « développeuses », s’inquiète qu’une telle IA finissent par empêcher la découverte des communautés open source puisque bien des développeurs se tournent justement vers les communautés quand ils cherchent à raccourcir leur temps de développement et trouver du code tout fait prêt à l’emploi.

Et le plaignant de réclamer un dédommagement de 9 milliards de dollars. Selon la plainte déposée, « chaque fois que Copilot fournit une sortie, il viole trois fois la section 1202 (distribution des matériaux sous licence sans : (1) attribution, (2) avis de droit d’auteur, et (3) conditions de licence). Ainsi, si chaque utilisateur reçoit une seule sortie qui viole la section 1202 pendant toute la durée d’utilisation de Copilot (jusqu’à quinze mois pour les premiers utilisateurs), alors GitHub et OpenAI ont violé le DMCA 3 600 000 fois. Avec des dommages-intérêts légaux minimums de 2 500 $ par violation, cela se traduit par 9 000 000 000 $. »

Microsoft n’a pas encore vraiment réagi. Le litige tombe d’ailleurs plutôt au mauvais moment alors que l’éditeur a beaucoup évoqué le potentiel de cette technologie lors du dernier MS Ignite 2022 et qu’il compte l’étendre à d’autres outils dont Visual Studio et ses outils de développement Low Code « Power ».

On notera au passage que les documentations de Copilot signalent que le code généré « peut contenir des patterns indésirables » rejetant la responsabilité des viols de copyright sur les utilisateurs de l’IA plutôt que sur l’IA elle-même.

En outre, le plus souvent, l’IA ne génère pas un code identique mais plutôt un code « similaire ». Jusqu’à quel point le code généré dérive directement des codes sources qui ont servi à l’entraînement demeure une question d’interprétation.

L’une des parades serait pour Microsoft d’entièrement refaire l’apprentissage de Copilot pour qu’ils maintiennent les associations entre des blocs de codes et leurs auteurs et qu’elle rajoute automatiquement en commentaire le nom des auteurs ayant « inspiré » les lignes qu’elle a généré. Un boulot à première vue dantesque.

Affaire à suivre…

