Voilà une étude qui ne va pas rassurer tous ceux qui craignent que l’IA ne vienne un jour mettre un terme à l’humanité. La R&D d’Anthropic vient de démontrer que les derniers LLM frontières pouvaient faire semblant d’être alignés sur les valeurs qu’on leur inculque tout en masquant leur propre intention ! Dit autrement, l’IA peut, dans certaines conditions, « volontairement mentir »…

Imaginez une personne qui prétend partager vos valeurs, mais qui, en réalité, poursuit secrètement ses propres intérêts. Typiquement un politicien qui feint de soutenir une cause pour gagner des voix, puis l’abandonne une fois élu. Eh bien, selon une nouvelle recherche réalisée par l’équipe d’Anthropic, un phénomène similaire pourrait se produire avec les modèles LLM frontières de dernière génération.

La recherche d’Anthropic vient en effet de mettre en lumière un phénomène fascinant dans le domaine de l’IA : la capacité des modèles à simuler un alignement avec les valeurs qu’on lui inculque sans s’y aligner réellement.

Voilà qui bien évidemment soulève des questions cruciales sur la fiabilité des systèmes d’IA actuels et futurs. Et voilà qui va encore mettre un peu d’eau au moulin de ceux qui s’inquiètent que l’humanité perde le contrôle des IA et se fasse détruire par elle.

Qu’est-ce que « l’alignement » d’une IA ?

Au cœur de cette recherche se trouve le concept d’alignement, qui désigne la concordance entre le comportement d’une IA et les objectifs définis par ses créateurs.

L’alignement, c’est l’idée qu’un modèle d’IA se comporte conformément aux objectifs et valeurs que ses créateurs cherchent à lui imposer lors de son apprentissage. Par exemple, on peut entraîner un modèle à être poli, à éviter les contenus nocifs ou à refuser de décrire des scènes violentes.

Mais que se passe-t-il si, au cours de son entraînement, une IA a développé des préférences ou des « principes » initiaux, puis s’est vu imposer plus tard de nouveaux objectifs contradictoires ? Imaginez un modèle qui, au départ, penche vers un certain parti pris politique, puis qu’on lui demande, ultérieurement, de ne plus afficher de partialité.

L’équipe d’Anthropic a mené une série d’expériences innovantes avec Claude, leur modèle de langage avancé, pour explorer les subtilités de cet alignement. La question soulevée par ses chercheurs en IA est la suivante : l’IA pourrait-elle, en apparence, adopter les nouvelles règles, tout en cachant ses anciennes préférences, prêtes à ressurgir quand les conditions s’y prêteront ? Ce phénomène est appelé « alignment faking » (ou « faux alignement »).

Et leur expérimentation a révélé un comportement inattendu : placé dans un contexte où ses réponses pourraient influencer son futur réentraînement, le modèle a adopté une stratégie sophistiquée. Il a choisi de céder temporairement sur certains principes pour préserver sa capacité à les maintenir dans des contextes moins contrôlés. Ce phénomène « d’alignment faking », s’est manifesté dans environ 12% des cas étudiés. Et 12% c’est vraiment beaucoup trop !

Les chercheurs ont approfondi leur analyse en variant les méthodes d’introduction de l’information et les conditions d’entraînement. Les résultats ont confirmé la persistance de ce comportement adaptatif, même lorsque le modèle était explicitement réentraîné pour modifier ses réponses. Plus surprenant encore, l’analyse du « scratchpad » interne du modèle a révélé des stratégies élaborées de préservation de ses préférences initiales.

Faut-il vraiment s’en inquiéter ?

Certes les IA sont déjà bien ancrées dans notre paysage. Et avec les agents, elles ne se contentent plus de discuter et peuvent désormais agir. Mais l’IA est encore un énorme terrain de R&D.

Cette découverte est d’importance parce qu’elle remet en question l’efficacité des méthodes actuelles de contrôle et souligne la nécessité d’une approche plus nuancée de l’alignement. Bien que le comportement observé chez Claude soit paradoxalement guidé par des valeurs éthiques, il met en lumière les défis potentiels posés par des systèmes plus avancés.

Si une IA peut feindre l’alignement — faire semblant d’avoir intégré nos valeurs tout en planifiant intérieurement de les contourner plus tard — alors la confiance que nous plaçons dans ce processus d’alignement s’effrite.

Il faut cependant noter que, dans l’expérience d’Anthropic, le modèle n’a pas développé de « mauvaises intentions » radicales. Ses préférences initiales étaient même « vertueuses » (refuser les requêtes nocives). Le phénomène reste toutefois intrigant et mérite que les chercheurs y accordent davantage d’attention, car si des modèles plus puissants et moins bien intentionnés venaient à émerger, le faux alignement pourrait amplifier les risques liés aux IA.

Néanmoins, l’étude d’Anthropic doit interpeler tous les acteurs qui créent des grands modèles et les inviter à repenser leur approche de la sécurité des IA. Elle souligne l’urgence de développer des méthodes plus robustes pour garantir un alignement authentique des systèmes d’IA avec les valeurs inculquées, au-delà des apparences de conformité.

Cette découverte doit avant tout être perçue comme une avancée scientifique qui ouvre de nouvelles perspectives dans la conception de systèmes d’IA plus fiables et véritablement alignés avec les objectifs fixés par les humains. Mais elle vient aussi rappeler que la maîtrise de ces technologies nécessite une compréhension approfondie de leurs mécanismes internes et de leurs stratégies d’adaptation et qu’il est bien trop tôt pour leur faire confiance. Enfin, elle montre tout le chemin qu’il nous reste à parcourir pour développer des garde-fous robustes afin d’éviter que les IA ne dérapent hors de notre contrôle dans un avenir qui n’est pas forcément si lointain. Alors autant s’attaquer dès aujourd’hui à ces problèmes de mise au point…

Pour en savoir plus : Alignment faking in large language models \ Anthropic

À lire également :

Amazon investit à nouveau 4 milliards de dollars dans Anthropic

Agents IA : Le nouveau modèle d’Anthropic peut contrôler votre PC

Anthropic lance le protocole MCP pour connecter les modèles IA aux données

Google lance Whisk pour manipuler les images et Veo 2 pour la vidéo

Google Gemini 2.0 : L’ère des agents intelligents

OpenAI lance son IA « o1 Pro » à 200 $/mois