Claude Sonnet 4.6 : test et benchmark du modèle IA d’Anthropic

Anthropic lance Claude Sonnet 4.6, un modèle qui tutoie les performances de son fleuron Opus 4.6 et qui devient le moteur par défaut de Claude AI pour tous les utilisateurs, à commencer par ceux du plan gratuit.

Dans la guerre des modèles IA, il y a les modèles dits « frontière » (GPT-5.2, Gemini 3 Pro, Claude Opus 4.6) et les modèles plus optimisés qui font tourner au quotidien les assistants IA grand public et que bien des entreprises préfèreraient utiliser parce qu’ils sont significativement moins onéreux à l’usage.

Claude Sonnet 4.6, annoncé hier soir par Anthropic et présenté dans un style très Tim Cook-esque comme « notre modèle Sonnet le plus performant à ce jour » , appartient à cette seconde catégorie. Sauf que, cette fois, le modèle « optimisé » marche clairement sur les plates-bandes du premium et fait même de l’ombre à son grand frère Claude Opus 4.6 sur certains benchmarks tout en étant disponible sur Claude AI en version gratuite et presque deux fois moins cher à l’usage en mode API.

Des performances qui bousculent la hiérarchie

Sorti il y a deux semaines, Claude Opus 4.6 ne cesse de nous étonner par ses capacités de codage, de rédaction, d’analyse. C’est sans aucun doute le modèle actuel le plus pertinent sur nos usages et évaluations.

Alors autant dire que son petit frère a de quoi nous interpeler. Sur bien des benchmarks, ses performances sont très proches d’Opus 4.6 et supérieures à GPT-5.2 et Gemini 3 Pro !

Sur SWE-bench Verified, le benchmark de référence en ingénierie logicielle, Sonnet 4.6 atteint 79,6 %, à 1,2 point seulement d’Opus 4.6 (80,8 %). Sur OSWorld, qui évalue la capacité d’un modèle à utiliser un ordinateur de façon autonome, le score grimpe à 72,5 %, quasiment au niveau d’Opus (72,7 %) et très loin devant le GPT-5.2 d’OpenAI (38,2 %).
Sur les tâches bureautiques (GDPval-AA), Sonnet 4.6 bondit à 1633 Elo contre 1276 pour son prédécesseur. Sur ARC-AGI-2, un test de résolution de problèmes complexes, il passe de 13,6 % à 58,3 %, soit un bond de 4,3x en une seule génération.

Dans Claude Code et dans les tâches agentiques, les retours des premiers utilisateurs font état de moins de « sur-ingénierie », moins d’hallucinations, un meilleur suivi des instructions et une constance accrue sur les tâches en plusieurs étapes.

Le modèle embarque aussi une fenêtre de contexte d’un million de tokens (en bêta via l’API), suffisante pour ingérer des bases de code entières ou des dizaines d’articles en une seule requête. Et surtout, il raisonne efficacement sur l’ensemble de ce contexte grâce à des mécanismes d’optimisation automatique (context compaction).

Des limites subsistent malgré tout. Sur les questions scientifiques de niveau doctoral (GPQA Diamond), Sonnet 4.6 plafonne à 74,1 % contre 91,3 % pour Opus. En mathématiques avancées, l’écart reste significatif (52,8 % contre 74,2 %).
Opus conserve donc une bonne longueur d’avance sur les tâches qui exigent un raisonnement extrême. Mais Sonnet 4.6 par sa célérité, sa pertinence et son coût moindre se montre bien plus adéquat pour motoriser des agents IA.

Ce qui change concrètement dans Claude AI

L’arrivée de Sonnet 4.6 est effective. Il devient le modèle par défaut de Claude AI aussi bien sur le web, l’application desktop et l’application mobile, pour tous les plans, y compris le plan gratuit. C’est aussi le moteur qui anime désormais Claude Cowork, l’agent capable d’exécuter des tâches sur votre ordinateur.

Mais Anthropic ne se contente pas de changer de modèle. Les utilisateurs gratuits héritent au passage de fonctionnalités jusque-là réservées aux abonnés Pro : création de fichiers par l’IA, connecteurs, compétences agentiques et compaction de contexte. Autrement dit, même sans payer, Claude AI gagne instantanément en pertinence et en capacités agentiques. L’écart entre la version gratuite et la version payante se réduit sensiblement. Et Claude AI devient plus que jamais le grand concurrent de ChatGPT et Gemini App.

Au-delà de Claude AI, le modèle Claude Sonnet 4.6 est disponible immédiatement via l’API Anthropic, Claude Code, Amazon Bedrock, Google Cloud Vertex AI et Microsoft Azure AI Foundry. Il est aussi intégré à GitHub Copilot (plans Pro, Pro+, Business et Enterprise).

La tarification API reste inchangée par rapport à Sonnet 4.5 : 3 $/M tokens en entrée, 15 $/M en sortie (contre 5$ et 25 $ pour Opus 4.6). Pour rappel, GPT 5.2 est facturé 1,75$ en entrée et 14$ en sortie (par million de tokens). De son côté Google réclame 2$ in / 12$ out pour Gemini 3 Pro, et 0,5$ in / 3$ out pour Gemini 3 Flash ! Anthropic continue donc de pratiquer les prix les plus élevés du marché.

Ce lancement illustre une dynamique qui dépasse Anthropic. Partout dans l’industrie, l’écart entre modèles frontière et modèles grand public fond à grande vitesse. Pour les utilisateurs, la conséquence est simple : les capacités qui nécessitaient hier un abonnement premium ou un modèle coûteux deviennent progressivement accessibles à tous. Et le rythme s’accélère : Anthropic a lancé Opus 4.6 début février, soit douze jours seulement avant Sonnet 4.6. Un modèle Haiku mis à jour devrait suivre prochainement.

Claude Sonnet 4.6 : le modèle intermédiaire qui joue dans la cour des grands

Des performances qui bousculent la hiérarchie

Ce qui change concrètement dans Claude AI

À lire également :

OpenAI lance Codex App pour mieux concurrencer Claude Code

GPT-5.3-Codex / Claude Opus 4.6 : Les nouveaux modèles frontières 2026 sont arrivés

Claude Cowork, l’IA qui fait plein de choses pour vous, y compris ranger le bureau…

Anthropic fait entrer les apps dans Claude et change la façon de travailler

Anthropic accélère : de Microsoft 365 aux sciences de la vie, l’IA Claude s’impose partout

Anthropic dévoile Claude Sonnet 4.5, son « collègue numérique » plus intelligent

InfiormatiqueNews.fr

Rajouter InformatiqueNews.fr sur votre écran d'accueil