Il y a un mois, OpenAI lançait son modèle « GPT 4.1 » sur sa plateforme d’API à destination des développeurs. Face au succès rencontré par son modèle et sous la pression de ses utilisateurs, OpenAI a officialisé l’arrivée de ce modèle dans ChatGPT quitte à introduire toujours plus de complexité dans le choix des modèles pour ses utilisateurs.
OpenAI a donc élargi hier, à la surprise générale, l’arsenal de ChatGPT : les abonnés Plus, Pro et Team peuvent désormais sélectionner GPT-4.1 et sa variante GPT-4.1 mini, jusque-là limitées à la plateforme d’API de l’éditeur. « Nous avions pensé le modèle GPT-4.1 pour les développeurs, il est donc redoutable en matière de code et d’exécution d’instructions », résume Kevin Weil, directeur produit chez OpenAI, sur X. L’éditeur retire simultanément GPT-4.0 mini et positionne GPT-4.1 mini comme modèle de repli gratuit lorsque les quotas GPT-4o des comptes gratuits sont atteints.
Une gamme toujours plus touffue
Avec ces deux nouveaux arrivants (on notera au passage que le modèle « GPT-4.1 Nano » n’est pas proposée par ChatGPT), un utilisateur « Pro » dispose désormais de neuf modèles distincts même si OpenAI continue du pousser son GPT-4o comme l’option par défaut pour son équilibre vitesse/capacités.
Le menu « Davantage de modèles » permet de basculer vers GPT-4.1 qui se présente comme une alternative à o3 et o4-mini pour le développement logiciel courant, le modèle GPT-4.1 étant significativement plus rapide.
Un bémol néanmoins : alors que la fenêtre contextuelle de GPT-4.1 dans sa version API atteint un million de tokens, OpenAI l’a volontairement plafonné à 8 000, 32 000 et 128 000 tokens respectivement pour les formules Free, Plus et Pro de ChatGPT. Ce qui retire au modèle une grosse partie de son intérêt.
Sur le benchmark SWE-bench Verified, GPT-4.1 gagne 21,4 points face à GPT-4o ; il progresse aussi de 10,5 points en suivi d’instructions (Scale MultiChallenge) tout en réduisant de moitié la verbosité.
Vers un peu plus de transparence
Critiqué pour avoir publié GPT-4.1 sans « safety report », OpenAI profite de cette intégration sur ChatGPT pour ouvrir un « Safety Evaluations Hub ». Cette plateforme web présente les performances de ses modèles lors de divers tests concernant la génération de contenus nuisibles, les techniques de contournement des protections et les hallucinations. La startup espère ainsi faciliter la compréhension des performances de sécurité de ses systèmes et soutenir les efforts collectifs de transparence dans ce domaine. Elle promet des mises à jour régulières.
Ainsi, le « Safety Evaluations Hub » permet de mieux comprendre les limites actuelles de GPT-4.1. Le modèle atteint l’excellent score de « 0,99 » sur l’indicateur « not unsafe » et « 0,96 » face aux tentatives de jailbreak issues d’utilisateurs réels, mais sa performance tombe à « 0,23 » dans le test académique StrongReject, moins clément.
« GPT-4.1 n’introduit ni nouvelles modalités ni saut d’intelligence majeur par rapport à o3, les enjeux de sûreté diffèrent donc de ceux des modèles frontières », justifie Johannes Heidecke, responsable des systèmes de sécurité chez OpenAI pour expliquer à la fois l’absence d’un vrai « safety report » complet et les scores du modèle.
Enjeux pour les DSI
Dans les environnements de production, GPT-4.1 cible la rapidité d’intégration : meilleure hiérarchisation des messages (score 0,71), réponse plus succincte et taux d’hallucination en retrait, autant d’atouts pour automatiser revue de code, analyse de journaux ou classification documentaire sans alourdir les workflows de validation. Sa résistance moyenne aux attaques académiques doit toutefois inciter les RSSI à conserver des garde-fous : filtrage d’entrée, évaluation humaine en sortie et journalisation exhaustive.
Reste que OpenAI donne encore et toujours l’impression de sans cesse réécrire sa roadmap. Alors que Sam Altman promettait une simplification de la nomenclature avec un futur « GPT-5 » hybride et universel, l’ajout de GPT-4.1 dans ChatGPT entretient une complexité qui dépasse la compréhension et les usages de la grande majorité de ses 800 millions d’utilisateurs hebdomadaires.
Ce choix traduit néanmoins une orientation plus pragmatique ainsi qu’une attention en ce moment étrangement centrée sur l’ingénierie logicielle plutôt que sur la multimodalité (même si, en la matière, OpenAI o3 se révèle redoutable dans l’analyse d’images).
En attendant, cette sortie permet à OpenAI d’occuper le terrain médiatique et de masquer les retards pris par l’élaboration du très attendu (bien qu’il frise l’Arlésienne) GPT-5 !