L’extension de la fenêtre contextuelle de Claude Sonnet 4 à un million de tokens ouvre de nouvelles perspectives pour l’analyse massive de données, le traitement de bases de code entières et la recherche avancée. Mais il va falloir payer plus cher…
Anthropic a le vent en poupe, notamment en entreprise. Ses modèles hybrides ont, par leur faculté d’expression fluide et leur capacité à adapter leur niveau de raisonnement aux questions posées, réussi à faire de l’ombre à OpenAI et son contesté GPT-5. Claude AI, sa plateforme conversationnelle, repose sur plusieurs modèles de langage, dont les fameux Claude Sonnet 4 et Claude Opus 4.1. Si Opus est la version la plus puissante, pensée pour des tâches complexes et une précision maximale, Sonnet 4 se positionne comme un modèle plus léger, optimisé pour la rapidité et le coût, tout en conservant des performances solides pour la majorité des usages. C’est ce modèle « intermédiaire », utilisé par défaut par Claude AI et aux usages non capés (contrairement à Opus) qui vient de recevoir un ajustement majeur : il peut désormais traiter jusqu’à un million de tokens dans une seule requête. Jusqu’ici, le modèle était limité à une fenêtre contextuelle cinq fois plus restreinte. Sonnet 4 devient ainsi le premier modèle d’Anthropic à disposer d’une fenêtre contextuelle très étendue, Claude Opus 4.1 demeurant restreint à une fenêtre de 200.000 tokens.
Quand Anthropic parle de fenêtre contextuelle, l’éditeur fait en réalité référence à quantité de donnée que l’on peut passer au modèle (soit d’un coup soit au sein d’une discussion) pour alimenter sa réflexion. Cela n’impacte la longueur des réponses du modèle qui reste limitée à 32.000 tokens sur Opus 4.1 et 64.000 tokens sur Sonnet 4.
Concrètement, cette évolution change la donne. Avec cette extension, disponible en bêta publique via l’API Anthropic et Amazon Bedrock (et bientôt sur Google Cloud Vertex AI), les utilisateurs peuvent charger des volumes de données bien plus conséquents en une seule fois. C’est notamment essentiel pour les développeurs qui sont très friands de ce modèle aux capacités de génération de code si performantes que GitHub a préféré Sonnet à tout autre modèle pour son outil Spark. Avec une telle fenêtre contextuelle, il devient en effet possible de faire ingérer au modèle des bases de code entières, incluant tests et documentation, tout en conservant une compréhension globale des relations entre fichiers pour réaliser du debugging avancé ou de l’analyse globale. Pour les chercheurs et utilisateurs avancés aussi, une telle fenêtre est l’opportunité d’analyser simultanément des dizaines d’articles scientifiques ou de contrats juridiques sans perdre le fil des références.
Cette capacité ouvre aussi la voie à des agents beaucoup plus contextuels, capables de gérer des workflows complexes impliquant des centaines d’appels d’outils. Imaginez un assistant qui garde en mémoire l’intégralité d’une documentation API, des fichiers de configuration et l’historique complet d’un système, tout en restant cohérent sur plusieurs jours d’interaction.
Cependant, cette avancée n’est pas sans contreparties. Une fenêtre plus large augmente la charge computationnelle et peut diluer la pertinence des réponses si elle n’est pas exploitée intelligemment. Certains développeurs soulignent que « tout mettre dans le contexte » ne garantit pas une meilleure compréhension. Et une large fenêtre ne remet nullement en cause l’importance fondamentale de savoir poser les bonnes questions à l’IA.
Enfin, il ne faut pas perdre de vue que cette augmentation a aussi un coût. Les API d’Anthropic sont déjà souvent considérées comme parmi les plus coûteuses. Mais cette extension à 1 million de tokens tend à doubler la note. L’API est effectivement facturée 6$ par million de tokens en entrée (contre 3$ pour l’API Sonnet 4 limitée à une fenêtre de 200.000 tokens) et 22,5$ par million de tokens en sortie (contre 15$ pour la version contrainte de l’API).
Pour l’instant, cette fonctionnalité est réservée aux clients disposant d’un accès premium aux API, mais Anthropic prévoit un déploiement plus large dans les semaines à venir. L’accès à une telle fenêtre est limité aux API. L’assistant Claude AI bénéficie d’une fenêtre de 200.000 tokens dans sa version payante (plus réduite dans sa version gratuite mais étendue à 500K dans l’édition Entreprise).
Avec ses un million de tokens de fenêtre contextuelle, Sonnet 4 repousse les limites de ce qu’un modèle hybride « intermédiaire » peut accomplir. Ce n’est cependant pas une première. Les modèles Gemini 2.5 Flash et Gemini 2.5 Flash-Lite de Google proposent, eux aussi, une fenêtre contextuelle de plus d’un million de tokens (le modèle Gemini 2.5 Pro disposant même d’une variante à 2 millions de tokens). Pour rappel, GPT-5 et GPT-5 mini d’OpenAI proposent une fenêtre contextuelle de 400.000 tokens. Parallèlement, on rappellera qu’en sortie Gemini 2.5 reste limité à 65.536 tokens alors que GPT-5 peut produire des réponses jusqu’à 128.000 tokens.