Cloudflare propose une nouvelle solution pour bloquer les bots d’IA de Google, OpenAI et Microsoft, permettant aux propriétaires de sites web de protéger leurs contenus contre les aspirations non autorisées afin d’entraîner leurs grandes IA génératives.

L’essentiel du Web est en accès libre. C’est ainsi une mine d’or pour les grands modèles génératifs en quête de toujours plus de données, d’informations et de contenus multimédias pour leur entraînement. Et Google, OpenAI et autres acteurs des très grands modèles à centaines de milliards de paramètres ne se privent pas d’aller récupérer cette information grâce à des bots qui explorent Internet en quête de contenus.

Pour autant, ce n’est pas parce qu’un site publie des contenus ouverts qu’il apprécie de voir son travail spoiler par les géants de la Tech pour entraîner sans juste rétribution leurs IA.

Et ça a donné une idée à Cloudflare, cet acteur qui œuvre à la protection et la performance des sites Web (et qui protège à lui seul environ 20% du trafic WEB mondial). Depuis des années, Cloudflare propose des protections contre les Bots malveillants. Et l’éditeur s’est dit que cette technologie pourrait être transformée pour servir de bouclier contre les aspirations des Bots d’IA des grands entraîneurs de LLM et autres larges modèles génératifs.

Selon Cloudflare, les robots d’IA aspirateurs de contenus les plus actifs en ce moment se nomment Bytespider (ByteDance/TikTok), Amazonbot, ClaudeBot (Anthropic) et GPTBot (OpenAI).

Cette initiative Cloudflare intervient dans un contexte de tension croissante entre les créateurs de contenu web et les grandes entreprises technologiques qui utilisent ce contenu pour entraîner leurs modèles d’IA. Aux USA notamment, plusieurs éditeurs ont porté plainte notamment contre OpenAI et Microsoft pour utilisation abusive de leurs contenus Web. D’autres ont signé de juteux accords de partenariats avec OpenAI. Le nouveau patron de l’IA chez Microsoft a par ailleurs expliqué la semaine dernière que tout le contenu public d’Internet était en quelque sorte « freeware » suscitant outre-Atlantique une vive polémique et des déclarations courroucées des créateurs de contenu, agacés de voir leur travail ainsi exploité par les géants de la Tech sans compensation.

Cloudflare décrit sa nouvelle « protection » comme un « simple bouton » à activer pour bloquer tous les robots d’IA connus. La fonction sera proposée à tous ses clients, y compris ceux utilisant le service gratuit. Elle permet aux propriétaires de sites web protégés par Cloudflare de bloquer les robots d’IA utilisés par des entreprises comme Google, Microsoft et OpenAI, et de les empêcher de collecter les contenus.

Voilà un outil malin qui permet aux propriétaires de sites web de reprendre le contrôle sur leurs contenus et les usages qui en sont faits, tout en les aidant à mettre la pression sur les géants de la tech pour qu’ils développent des pratiques plus équitables et transparentes dans l’utilisation des données en ligne. Reste à voir si les clients Cloudflare seront sensibles au sujet et s’il n’est pas en réalité déjà trop tard…

