La lutte aux IA les plus intelligentes se poursuit désormais dans une nouvelle direction. Au lieu de continuer à faire enfler les modèles fondation, les acteurs de l’IA préfèrent adjoindre des capacités de raisonnement aux modèles existants. Anthropic avait déjà insufflé un peu de réflexion ces dernières semaines dans Claude 3.5. Avec Claude 3.7, ce raisonnement intégré prend une nouvelle dimension et gagne en transparence.
Quel est le point commun entre DeepSeek R1, OpenAI o1/o3, Gemini 2.0 Thinking Experiment et Grok 3 ? Tous sont des modèles IA à raisonnement intégré en exploitant un principe de « Chain of Thoughts » au-dessus du LLM qui permet de décomposer les tâches complexes et de vérifier les hypothèses avant de produire une réponse.
Présenté comme le premier « modèle hybride de raisonnement » du marché, Claude 3.7 rejoint la cohorte avec des processus qui ne sont finalement pas aussi nouveaux qu’Anthropic le prétend. On en trouve au moins les ébauches dans Gemini 2.0 Thinking, OpenAI o3-mini et même Grok 3.
Le modèle se veut « hybride » parce qu’il est capable d’offrir à la fois des réponses quasi instantanées et des explications détaillées étape par étape. Grâce à un contrôle fin du temps de réflexion accessible via l’API, les utilisateurs peuvent désormais choisir entre une réponse immédiate ou une analyse approfondie, alliant rapidité et rigueur.
« Nous considérons le raisonnement comme l’une des capacités qu’un modèle d’IA avancé devrait posséder, intégrée harmonieusement avec d’autres fonctionnalités, plutôt que comme quelque chose à fournir dans un modèle séparé », explique Anthropic dans son annonce.
Mais au final, sous Claude AI, c’est encore à l’utilisateur de choisir entre « pas de réflexion » (le mode Normal) et « réflexion préalable » (mode High) qui n’est guère différent de cocher la fonction « Thinking » de Grok 3 ou cocher le modèle « Thinking Experiment » dans Gemini 2.0 Flash.
Un modèle « 3.7 » bien dans l’air du temos
Bien évidemment, Anthropic dévoile de nouveaux résultats pour montrer que son nouveau modèle égale voire dépasse les Grok 3, Gemini 2.0 et OpenAI o3-mini, même si ces benchmarks ne révèlent finalement que très peu de choses sur les capacités réelles de ses IA sur nos travaux du quotidien.
On retiendra en réalité que les modèles Claude continuent de progresser sur de nombreux axes, notamment en matière de problèmes mathématiques, de codage et de développement WEB. Parmi les résultats plus remarquables, on retiendra les 62,3% de précision sur SWE-Bench (contre 49,3% pour o3-mini d’OpenAI) et 81,2% sur TAU-Bench (contre 73,5% pour le modèle o1 d’OpenAI).
Surtout, et c’est l’une des grandes tendances du moment, chez OpenAI comme chez Grok et Anthropic, le nouveau modèle réduit également les refus de répondre injustifiés de 45% par rapport à son prédécesseur.
Claude 3.7 Sonnet est désormais disponible sur toutes les formules Claude (Free, Pro, Team et Enterprise), ainsi que via l’API d’Anthropic, Amazon Bedrock et Google Cloud Vertex AI. Le mode de réflexion étendue reste toutefois réservé aux abonnements payants. La tarification demeure inchangée : 3$ par million de tokens en entrée et 15$ par million de tokens en sortie, incluant les tokens de réflexion.
Claude Code, l’assistant de programmation agentique
Aux côtés de Claude 3.7 Sonnet, Anthropic lance Claude Code, un outil de codage collaboratif et « agentique ». Pour l’instant, en preview limitée, Claude Code est une sorte d’agent assistant qui permet aux développeurs de déléguer des tâches d’ingénierie substantielles à Claude sans quitter leur Terminal. Conçu pour collaborer activement avec les développeurs, Claude Code est capable de parcourir, analyser et modifier le code, d’exécuter des tests, voire de gérer des dépôts GitHub directement depuis le terminal. Les premiers tests montrent qu’il peut accomplir en une seule passe des tâches nécessitant habituellement 45 minutes de travail manuel. Avant d’en ouvrir l’accès à tous les développeurs, Anthropic prévoit d’améliorer cet outil en renforçant la fiabilité des appels de commandes et en étendant ses capacités pour des opérations de plus longue durée.
En combinant une réflexion adaptable, des performances accrues en développement et une approche sécurisée, Claude 3.7 Sonnet et Claude Code marquent une nouvelle étape dans la progression des IA d’Anthropic. Mais avec ce double lancement, la startup cherche surtout à refaire parler d’elle alors que DeepSeek, Mistral AI, Google, OpenAI et Grok ont fait les gros titres ces dernières semaines. Petit à petit, se dessine l’idée de modèles IA qui pourront déterminer par eux-mêmes le temps de réflexion optimal en fonction des questions soumises sans que l’utilisateur n’ait rien à sélectionner. Et on parie qu’il ne faudra pas attendre la fin de l’année 2025 pour profiter d’une telle souplesse.
À lire également :
IA : Anthropic découvre que les grands LLM peuvent cacher leurs intentions !
Anthropic lance le protocole MCP pour connecter les modèles IA aux données
Amazon investit à nouveau 4 milliards de dollars dans Anthropic
Agents IA : Le nouveau modèle d’Anthropic peut contrôler votre PC