OpenAI dévoile un modèle de codage temps réel 15 fois plus rapide que GPT-5.3-Codex, optimisé pour les puces Cerebras, et introduit dans ChatGPT un mode de verrouillage afin de protéger les utilisateurs les plus exposés aux cybermenaces ciblant l’IA.
Mis sous pression depuis qu’Anthropic et Google ont largement refait leur retard, bousculé par l’omniprésence de Gemini App et par le phénoménal succès de Claude Code, OpenAI a levé le voile sur GPT-5.3-Codex-Spark, un modèle de codage conçu pour l’interaction en temps réel. Dans le même temps, le pionnier de l’IA générative a également annoncé l’arrivée de Lockdown Mode et de labels « Elevated Risk » dans ChatGPT. Deux initiatives qui, prises ensemble, dessinent une double trajectoire stratégique : pousser les performances d’inférence vers des niveaux inédits tout en assumant de front les enjeux de sécurité liés à l’interconnexion croissante des assistants IA avec les systèmes d’information des entreprises.
Spark : la vitesse est un critère clé
On parle beaucoup de Codex et de Claude Code. Leurs automatismes font en théorie gagner beaucoup de temps aux développeurs. Mais en pratique, ils ont souvent largement le temps d’aller prendre plus d’un café pour patienter. La réalité, c’est que les modèles de codage IA actuels, aussi puissants soient-ils, imposent un temps de latence qui brise le flux de travail du développeur. Quelques minutes d’attente entre une requête et la première ligne de code générée suffisent à rompre l’état de concentration. OpenAI a voulu résoudre ce problème de manière radicale.
GPT-5.3-Codex-Spark est une version allégée (« distillée ») du modèle GPT-5.3-Codex, optimisée non pas pour la profondeur de raisonnement mais pour la réactivité brute. Le résultat est spectaculaire : le modèle génère plus de 1 000 tokens par seconde, soit environ 15 fois la vitesse du modèle Codex standard. À ce rythme, le code apparaît pratiquement en temps réel, au point que le développeur peut interrompre, rediriger et affiner la production du modèle pendant qu’il écrit, comme il le ferait avec un collègue en binôme.
Une première hors de l’écosystème Nvidia
Ce gain de vitesse est le fruit d’une approche en rupture. Exit Nvidia ! Le secret de Spark tient autant dans le modèle lui-même que dans l’infrastructure qui le propulse. Spark est le premier modèle d’OpenAI spécialement optimisé et déployé en production sur du silicium non-Nvidia : Il tourne sur le Wafer Scale Engine 3 (WSE-3) de Cerebras, un accélérateur IA à l’échelle d’un wafer entier, spécifiquement conçu pour l’inférence à très faible latence.
Contrairement aux GPU traditionnels, qui nécessitent de faire transiter les données entre de multiples puces reliées par câbles, le WSE-3 concentre l’ensemble du calcul sur une seule surface de silicium. La mémoire SRAM embarquée est suffisamment vaste pour héberger la totalité du modèle distillé, éliminant les goulots d’étranglement liés aux transferts mémoire qui ralentissent les architectures GPU classiques.
Ce partenariat, annoncé en janvier dernier et évalué à plus de 10 milliards de dollars sur plusieurs années, prévoit la mise en service de 750 mégawatts de capacité de calcul Cerebras d’ici 2028. OpenAI a pris soin de préciser que les GPU Nvidia restent « fondamentaux » pour l’entraînement et l’inférence à usage général, positionnant Cerebras comme un complément spécialisé pour les charges de travail où la latence prime sur tout le reste.
OpenAI ne s’est pas arrêté au matériel. La pile d’inférence a été réécrite en profondeur : connexion WebSocket persistante, optimisation de l’API Responses, refonte de l’initialisation des sessions. Résultat : 80 % de surcoût en moins par aller-retour client/serveur, 50 % de réduction du time-to-first-token.
Ces améliorations, activées par défaut pour Spark, seront progressivement étendues à l’ensemble des modèles d’OpenAI.
Le revers de la médaille
Cela dit, cette vélocité a un prix. Spark est un modèle plus petit, moins capable sur les tâches complexes nécessitant un raisonnement en plusieurs étapes. Sur le benchmark SWE-Bench Pro, qui évalue les capacités d’ingénierie logicielle autonome, Spark obtient environ 56 % contre 72 % pour le Codex complet. Sur Terminal-Bench 2.0, l’écart est encore plus marqué (58,4 % contre 77,3 %). OpenAI indique par ailleurs que Spark n’atteint pas le seuil de « haute capacité » de son Preparedness Framework en matière de cybersécurité, contrairement au modèle principal.
Dit autrement, tout est une question de compromis entre vitesse et pertinence. Spark est conçu pour les micro-itérations rapides (éditions ciblées, refactoring léger, ajustements d’interface, génération de snippets), tandis que le Codex complet reste l’outil de choix pour les tâches lourdes et les analyses architecturales complexes. Plusieurs développeurs ayant testé le modèle en avant-première convergent vers un même workflow pragmatique : prototyper rapidement avec Spark, puis valider avec le modèle complet avant de fusionner le code.
Spark est disponible en « research preview » pour les abonnés ChatGPT Pro (200 $/mois) via l’application Codex, l’extension VS Code et l’interface en ligne de commande. Il dispose d’une fenêtre de contexte de 128 000 tokens et ne prend en charge que le texte à ce stade. Un accès API sera proposé à un nombre restreint de partenaires.
Lockdown Mode : la sécurité par la contrainte
Sur un sujet radicalement différent, OpenAI montre un nouvel intérêt à la sécurité des IA et de leurs usages en entreprise. Il est vrai que le sujet devient aujourd’hui très central : à mesure que ChatGPT (et autres assistants IA) se connecte au web et à des applications tierces, la surface d’attaque s’élargit. Les attaques par injection de prompt, où un contenu malveillant glissé dans un document ou une page web tente de manipuler l’IA pour exfiltrer des données sensibles, constituent désormais une menace très réelle, croissante et très difficile à contrer.
OpenAI assume désormais ce risque frontalement. Lockdown Mode est un nouveau paramètre de sécurité optionnel de ChatGPT en version entreprise. Son principe est de restreindre drastiquement les interactions de ChatGPT avec les systèmes externes afin de couper les vecteurs d’exfiltration de données par injection de prompt. Parce qu’il limite de facto le potentiel de l’IA, il n’est pas destiné à être déployé globalement. Il est plutôt pensé pour protéger un nombre restreint et identifié d’utilisateurs particulièrement exposés : dirigeants d’entreprise, équipes de sécurité informatique, organisations manipulant des données sensibles.
Concrètement, lorsque Lockdown Mode est activé, plusieurs capacités sont désactivées ou restreintes. La navigation web est limitée au contenu mis en cache plutôt qu’à des requêtes en direct, ce qui empêche l’envoi de données vers un serveur contrôlé par un attaquant. Les images dans les réponses de ChatGPT sont supprimées (l’utilisateur peut toujours en téléverser et utiliser la génération d’images). Le téléchargement de fichiers par ChatGPT pour l’analyse de données est également bloqué, bien que l’utilisateur puisse toujours fournir manuellement ses fichiers.
L’objectif est de couper de manière « déterministe » les requêtes réseau sortantes qui pourraient être exploitées pour transférer des données à un attaquant. OpenAI précise toutefois que Lockdown Mode ne prétend pas empêcher toute forme d’injection de prompt : un contenu malveillant caché dans un fichier uploadé pourrait toujours influencer le comportement de ChatGPT, par exemple en faussant ses réponses. Le mode vise spécifiquement l’étape d’exfiltration, pas l’injection elle-même.
Des labels « Elevated Risk » pour une transparence accrue
En parallèle, OpenAI standardise un système d’étiquetage « Elevated Risk » qui sera appliqué de manière cohérente dans ChatGPT, ChatGPT Atlas et Codex. L’idée est de signaler clairement les fonctionnalités qui introduisent un risque supplémentaire lié à l’accès réseau ou à l’exposition des données. C’est un bonus utile notamment pour la formation et la sensibilisation des utilisateurs.
Dans Codex, par exemple, les développeurs peuvent accorder au modèle un accès à Internet pour consulter de la documentation ou interagir avec des sites web. L’écran de paramétrage affichera désormais un label « Elevated Risk » expliquant ce que cet accès modifie, quels risques il introduit et dans quelles circonstances son activation peut être pertinente.
OpenAI s’engage à faire évoluer ces labels dans le temps : à mesure que les protections se renforcent, certaines fonctionnalités pourront perdre leur étiquette de risque élevé. Inversement, de nouvelles fonctionnalités pourront se voir attribuer ce label si leurs risques ne sont pas encore suffisamment maîtrisés.
Disponibilité et portée
Lockdown Mode est d’ores et déjà disponible pour les environnements ChatGPT Enterprise, Edu, Healthcare et Teachers. Les administrateurs peuvent l’activer via les paramètres de leur espace de travail en créant un rôle dédié. Ils conservent la possibilité de définir finement quelles applications, et quelles actions au sein de ces applications, restent accessibles aux utilisateurs en mode verrouillé. Une plateforme de logs via l’API Compliance offre en complément une visibilité détaillée sur l’usage des applications et les données partagées.
OpenAI prévoit d’étendre Lockdown Mode aux offres grand public et Team dans les prochains mois.
Ces deux annonces éclairent la tension qui traverse l’IA générative en entreprise : d’un côté, des outils toujours plus rapides et intégrés aux flux de travail ; de l’autre, des surfaces d’attaque qui s’élargissent au même rythme. Une façon de rappeler que si l’assistant IA de codage entre dans l’ère du temps réel, son déploiement exige en même temps de mettre en œuvre une vraie politique de sécurité spécifique, calibrée sur les risques propres à l’IA.





puis