L’entraînement des modèles IA sur des corpus textuels pose désormais une frontière nette entre copies licites et sources illicites, tout du moins aux USA. Le règlement record conclu par Anthropic donne le « La » des coûts juridiques et opérationnels d’un recours aux « shadow libraries » pour entraîner les modèles.

L’IA est-elle le plus grand piratage de savoirs humains de l’histoire ? Cette question est au cœur de nombreux procès aux USA et en Europe. En juin dernier, le juge fédéral William Alsup (de San Francisco) avait tranché le débat par un verdict qui fait date et sert de référence : entraîner des modèles sur des livres légalement acquis relève du « fair use » selon le règlement américain sur la propriété intellectuelle et les copyrights. En un mot, il n’y a rien d’illégal à entraîner des IA sur des livres et articles dès lors qu’ils ont été légalement acquis.

Mais le Juge avait, dans le même temps, estimé recevables les accusations selon lesquelles Anthropic avait téléchargé des millions de livres piratés issus des « shadow libraries » du Net, un grief distinct de la question du fair use. Le procès avait en effet relevé qu’Anthropic avait téléchargé plus de 7 millions de livres depuis des archives en ligne comme Books3, LibGen et Pirate Library Mirror.

Le juge avait donc dissocié le principe (l’entraînement sur des copies licites, jugé transformateur) des pratiques d’acquisition des données d’apprentissage et d’ingestion initiale des livres quand les sources sont illicites.

Pirater c’est mal… même si c’est pour l’IA

Et c’est justement sur ce volet « piratage » que l’action collective a prospéré cette semaine avec un accord à l’amiable.

Anthropic a en effet accepté de payer 1,5 milliard de dollars, sans reconnaissance de responsabilité. Le projet d’accord prévoit un environ 3 000 $ par œuvre éligible, soit près de 500 000 ouvrages. Le projet doit encore être validé par le tribunal de San Francisco lors d’une audience attendue dans les heures à venir. Ce qui ne devrait pas poser de problèmes, les capacités de paiement d’Anthropic n’étant pas remise en cause : la startup a annoncé la semaine dernière une levée de 13 milliards de dollars portant sa valorisation à 183 milliards de dollars.

La jeune pousse de l’IA, principale challenger d’OpenAI, s’engage par ailleurs à détruire les fichiers originaux téléchargés mais évidemment pas les bases d’embeddings qui en ont été tirés et dont dépendent ses modèles.

Un accord record sur les copyrights

Selon les avocats des plaignants, « c’est la plus importante réparation jamais obtenue en matière de copyright », un signal adressé à l’industrie sur l’illégalité de se servir dans les bibliothèques pirates.

Au-delà du cas d’espèce, ce compromis formalise un risque juridique majeur : la provenance des datasets n’est plus un sujet théorique, mais un poste de coût et de conformité. Pour les DSI, cela implique de durcir les clauses contractuelles vis-à-vis des fournisseurs d’IA : garanties d’indemnisation, auditabilité des pipelines de données, attestations de « clean data », politiques de purge, et mécanismes de remédiation si des sources litigieuses sont identifiées. Les modèles entraînés sur des corpus non documentés exposent désormais leurs utilisateurs à des perturbations opérationnelles (purges, réentraînements) et à des surcoûts imprévisibles.

Le contexte reste mouvant. Le règlement Anthropic intervient alors que d’autres géants (OpenAI, Microsoft, Meta notamment) sont eux aussi contestés, et qu’Apple fait l’objet d’une nouvelle plainte d’auteurs pour l’entraînement de ses modèles.

Les éditeurs et auteurs européens, eux, pointent déjà les limites de portée de cet accord américain : si nombre d’œuvres piratées utilisées sont effectivement européennes, elles n’entrent pas dans l’accord qui met fin à la Class Américaine qui ne concerne que les œuvres enregistrées au Copyright Office américain. Ce compromis américain ne crée pas de droit à compensation en Europe et n’épuise pas les voies de recours locales… Affaire à suivre donc de ce côté de l’Atlantique. De l’autre côté de l’Atlantique, on attend les procès contre les concurrents d’Anthropic et on ne perd pas de vue que cet accord n’affecte pas d’éventuelles réclamations sur les productions générées par les modèles IA d’Anthropic !

À lire également :