Un modèle IA à raisonnement encore expérimental et non publiquement disponible d’OpenAI vient de remporter la médaille d’or des Olympiades internationales de Mathématiques. Un succès qui démontre une nouvelle les progrès formidables réalisés par les modèles actuels pour résoudre les problématiques scientifiques et mathématiques ainsi que le degré d’intelligence cognitive atteint. L’homme n’est pas encore dépassé par l’IA en maths, mais il est, déjà, largement égalé.

« Je suis ravi d’annoncer que notre dernier modèle expérimental de raisonnement chez @OpenAI vient d’atteindre un défi majeur de longue date en intelligence artificielle : obtenir une performance digne d’une médaille d’or à la compétition mathématique la plus prestigieuse au monde, les Olympiades internationales de Mathématiques (IMO) ». C’est par ce tweet que Alexander Wei, chercheur scientifique chez OpenAI a dévoilé la nouvelle.

Une médaille d’or aux Olympiades internationales de mathématiques (IMO) est l’une des distinctions les plus prestigieuses qu’un élève universitaire (issu du MIT, de Stanford, de l’EPFL, ou équivalents) puisse obtenir dans le domaine des mathématiques. Les IMO rassemblent chaque année plus de 600 jeunes talents de plus de 100 pays pour résoudre des problèmes d’une difficulté extrême, sur deux jours d’épreuves de 4h30 chacune. La « Médaille d’Or » récompense les participants qui figurent parmi les meilleurs du classement mondial (ceux qui obtiennent au moins 35 points sur les 42 possibles). Les problèmes couvrent des domaines comme la géométrie, la combinatoire, l’arithmétique et l’algèbre, et demandent bien plus que des connaissances scolaires : intuition, rigueur et inventivité sont essentielles.

Un exploit significatif pour l’IA

Obtenir une médaille d’or est un accomplissement majeur pour la R&D d’OpenAI et plus généralement la recherche en IA. « Nous avons évalué nos modèles sur les problèmes des IMO 2025, en respectant les mêmes règles que les participants humains : deux sessions d’examen de 4h30 chacune, sans outils ni accès à Internet, en lisant les énoncés officiels des problèmes et en rédigeant des démonstrations en langage naturel » explique Alexander Wei.

Le nouveau modèle n’a pas été parfait mais a été suffisamment brillant pour récolter la médaille d’or. « Lors de notre évaluation, le modèle a résolu 5 des 6 problèmes de l’IMO 2025 (il a résolu les problèmes P1 à P5 mais n’a pas fourni de solution au problème P6) » explique Alexander Wei. « Pour chaque problème, trois anciens médaillés IMO ont indépendamment corrigé la preuve soumise par le modèle, les scores ayant été validés uniquement après consensus unanime. Le modèle a obtenu au total 35 points sur 42, ce qui suffit à décrocher une médaille d’or ! »

Et ce succès est important à plus d’un titre. D’abord parce que solutionner les problèmes IMO exige un niveau de pensée créative soutenue dont les IA n’étaient jusqu’ici pas capables. Preuve que les modèles LLM à raisonnement peuvent devenir plus créatifs, plus fiables et plus efficients que certains détracteurs experts comme Yann LeCun ou Luc Julia ne veulent l’admettre.

Ensuite, le modèle IA utilisé par OpenAI n’a pas été conçu spécifiquement pour résoudre des problèmes mathématiques, mais comme un système de raisonnement général utilisant le langage naturel. Ce résultat prouve qu’une IA polyvalente peut surpasser les modèles hyper spécialisés, même en mathématiques de haut niveau.

« Pour progresser ici, nous avons dû aller au-delà du paradigme classique de l’apprentissage par renforcement (RL), fondé sur des récompenses claires et faciles à vérifier. Ainsi, nous avons obtenu un modèle capable d’élaborer des raisonnements sophistiqués et parfaitement rigoureux, comparables à ceux d’un mathématicien humain » affirme Alexander Wei.

L’IA d’OpenAI qui vient d’obtenir cette médaille d’or n’est encore qu’expérimentale (une sorte de modèle « o5 » ?) et n’est pas le futur modèle GPT-5 dont la sortie est annoncée pour « bientôt ». « Nous ne prévoyons pas de rendre accessible un modèle avec un tel niveau en mathématiques avant plusieurs mois » admet d’ailleurs Alexander Wei qui reconnaît au passage que le style d’expression du modèle est « très particulier », ce dernier étant « vraiment expérimental ».

En lançant Grok 4, la semaine dernière, Elon Musk expliquait avec son optimisme légendaire que son IA « pourrait découvrir de nouvelles technologies d’ici la fin de l’année » et même « découvrir une nouvelle physique l’année prochaine ». La prédiction n’est peut-être finalement pas aussi utopiste qu’on pouvait alors le penser. Le nouveau modèle d’OpenAI démontre la capacité croissante des IA à raisonner abstraitement et suggère parallèlement qu’elles pourraient vraiment bientôt contribuer de manière significative à la recherche scientifique.

 


Et déjà une polémique

Peu après la publication d’OpenAI, de multiples messages sont apparus sur X pour signaler qu’OpenAI avait mené son expérimentation dans ses labos alors que d’autres entreprises de l’IA ont passé plus officiellement le concourt sous le contrôle direct de l’organisation des Olympiades de mathématiques. Les organisateurs de l’IMO ont cependant confirmé avoir validé les réponses générés par le modèle sans toutefois avoir été en mesure de valider comment ces réponses avaient été obtenues.
On devrait donc voir d’autres acteurs annoncer leurs scores dans les prochains jours voir les prochaines heures. Toutefois, selon des résultats préliminaires publiés par MathArena aucun des modèles officiellement évalués n’ont obtenu ne serait-ce que la médaille de bronze. Gemini 2.5 Pro a obtenu le meilleur score avec 13 points (soit un score de 31%) devant OpenAI o3-High (et son score de 16%), OpenAI o4-mini-high (et son score de 14%) ainsi que Grok 4 (et son score de 11,9% très éloigné des espoirs d’Elon Musk).
Reste désormais à savoir si Google DeepMind, Harmonic et d’autres acteurs de l’IA ont également réalisé des tests sur des IA expérimentales et quels scores ils ont alors obtenu…


À lire également :

Grok-4 et Heavy : xAI accélère, OpenAI sous pression

OpenAI donne des nouvelles de GPT-5 !

Les modèles LLM agentiques actuels sont-ils déjà trop intelligents pour nous obéir aveuglément ?

IA : Les modèles à raisonnement vont aussi rapidement atteindre un plafond !