OpenAI poursuit sa campagne de réconciliation avec les écosystèmes open-source. Après le lancement cet été de deux modèles LLM en open-weight, déjà très appréciés, OpenAI annonce une nouvelle famille de modèles ouverts dédiés à la sûreté des modèles : gpt-oss-safeguard !
OpenAI, qui a choisi dès sa création une structure dominée par une entité non commerciale afin de « garantir que l’intelligence artificielle bénéficie à toute l’humanité », a confirmé cette semaine avoir finalisé une recapitalisation qui simplifie sa gouvernance : la nouvelle OpenAI Foundation contrôle désormais OpenAI Group PBC, une société à mission (Public Benefit Corporation). La Fondation détient 26 % du capital d’OpenAI Group. En pratique, cela verrouille juridiquement la mission d’intérêt public : une PBC doit poursuivre son objet de « bénéfice collectif » et considérer les parties prenantes, tandis que la Fondation conserve les droits de nomination/révocation des administrateurs et supervise le comité « Safety & Security ». La recapitalisation dote aussi la Fondation de moyens philanthropiques inédits (environ 130 milliards $ d’équivalent actions à la création) et d’un engagement initial de 25 milliards de dollas pour la santé et la « résilience IA ».
Cette entrée en matière explique notamment pourquoi après plusieurs années de disette, OpenAI a renoué avec l’open source et est revenue sur le terrain des modèles « ouverts » en août dernier avec deux modèles LLM déjà très appréciés : gpt-oss-120b et gpt-oss-20b. Ce sont des modèles open-weights sous licence Apache 2.0, 128 k de contexte, pensés pour l’agentique et annoncés proches d’o4-mini/o3-mini sur de nombreux benchmarks. L’éditeur n’avait plus proposé de LLM ouverts depuis GPT-2 !
Avec une fondation aux pouvoirs désormais à la fois bien définis et bien financés, il faut s’attendre à voir OpenAI renforcer ses efforts sur l’IA ouverte. Histoire, on peut en tout cas l’espérer, de rééquilibrer transparence et sécurité.
Ainsi, l’éditeur a dévoilé cette semaine deux nouveaux modèles ouverts complétant ceux lancés en août dernier. Les deux nouveaux modèles « gpt-oss-safeguard » (disponibles en versions 120 milliards de paramètres et 20 milliards de paramètres), une déclinaison de ses modèles de langage pensée pour la classification de sécurité. Il s’agit de modèles « open-weight », disponibles sous licence Apache 2.0, que les développeurs peuvent utiliser, modifier, fine-tuner et déployer librement. Ils sont d’ores et déjà téléchargeables et exploitables sur la plateforme d’Hugging Face.
Un modèle qui raisonne sur la sécurité
Contrairement aux classifieurs traditionnels, gpt-oss-safeguard ne repose pas sur un vaste corpus d’exemples annotés mais sur la capacité du modèle à « raisonner à partir d’une politique fournie à l’inférence ».
Leur principe est simple : au lieu d’appliquer une politique de modération figée, ces modèles lisent les contraintes de sécurité, les règles de sûreté, fournie par le développeur (selon le fameux principe du bring-your-own-policy) et évaluent chaque requête au regard de ces instructions.
La décision rendue par le modèle est par ailleurs motivée : il expose en effet sa chaîne de raisonnement, que l’on peut consulter pour comprendre pourquoi un contenu est autorisé, bloqué ou redirigé. Cette approche est particulièrement utile lorsque les risques évoluent rapidement, que les cas sont subtils, ou quand on ne dispose pas de suffisamment de données labellisées pour entraîner un classifieur classique.
Entre promesses et limites
Hérités de l’outil interne d’OpenAI « Safety Reasoner », ces modèles sont pensés pour s’insérer dans une architecture de défense en profondeur, aux côtés d’autres garde-fous.
Les premiers tests montrent que gpt-oss-safeguard surpasse les modèles généralistes pour la classification multi-politiques, notamment dans des domaines mouvants comme la détection de triche en ligne ou le filtrage de faux avis.
Mais OpenAI reconnaît aussi ses limites : « ce modèle reste moins performant que des classifieurs entraînés sur des dizaines de milliers d’exemples » et son coût computationnel rend difficile un déploiement massif.
L’entreprise mise donc sur la communauté pour affiner l’usage de ces outils, en lançant un ROOST Model Community, un espace de partage de pratiques et d’expériences.
Pourquoi ces modèles « safeguard » comptent
Ces modèles « safeguard » sont importants parce qu’ils redonnent de la souplesse là où les règles changent vite. Plutôt que de recoder un classifieur à chaque nouvelle contrainte, les développeurs d’applications IA peuvent simplement ajuster la politique de sûreté. Le même modèle s’y conforme aussitôt, pays par pays ou secteur par secteur, ce qui aide à répondre à l’AI Act ou au DSA.
Ils apportent aussi de la transparence : chaque décision est motivée par un raisonnement traçable, utile pour l’audit et la conformité.
Autre bénéfice, la mutualisation : un unique « raisonneur » peut faire respecter plusieurs politiques sans multiplier les modèles spécialisés. Et comme les poids sont ouverts, l’intégration sur site (on-prem) ou en edge s’en trouve facilitée.
Reste l’arbitrage classique entre qualité d’explication et efficacité opérationnelle. Sur un périmètre très stable et étroit, un petit classifieur sur-optimisé restera souvent plus rapide et moins coûteux. Les modèles « safeguard » brillent surtout quand l’environnement est mouvant, les cas d’usage nuancés et la traçabilité des décisions indispensable.
Ces nouveaux modèles OpenAI rentre en compétition avec le modèle NeMo Guardrails de Nvidia, le modèle Llama Guard de Meta ou encore le modèle Mistral Moderation de Mistral.
Par ailleurs, Hugging Face héberge plusieurs modèles spécialisés en content moderation (par ex. Detoxify, Hate-speech classifiers, SafetyKit), qui peuvent être combinés avec des LLMs ouverts pour créer des pipelines de type safeguard.
En replaçant une fondation solide au cœur de sa gouvernance et en rouvrant le jeu de l’open source, OpenAI tente de réconcilier deux impératifs souvent antagonistes : accélérer l’innovation tout en rendant la sécurité plus explicable, portable et conforme. Les modèles « safeguard » ne sont pas une panacée, mais ils ouvrent une voie où la sécurité devient paramétrable, traçable et communautaire. Une façon aussi de rappeler que l’avenir de l’IA devrait moins se jouer sur la taille des modèles que sur la taille des garde-fous.





puis