Avec DeepSeek-R1, un modèle à raisonnement, la Chine prouve une nouvelle fois qu’une IA performante et open source peut rivaliser avec les meilleurs modèles propriétaires occidentaux, à moindre coût. Et ça fait beaucoup débattre tout l’écosystème de l’IA, notamment aux USA.

DeepSeek est une entreprise chinoise spécialisée dans l’intelligence artificielle (IA), fondée en 2023 par Liang Wenfeng, ancien gestionnaire du fonds spéculatif High-Flyer. Dès ses débuts, DeepSeek s’est distinguée par son engagement envers l’open source, rendant ses modèles accessibles à la communauté mondiale. Parmi ses réalisations notables figurent DeepSeek-Coder, un modèle dédié à l’autocomplétion de code, et DeepSeek-V3, un modèle de langage de grande envergure comptant 671 milliards de paramètres, rivalisant avec les modèles LLM les plus avancés du marché à commencer par LLama 3.1 405B.

Le 20 janvier 2025, DeepSeek a officialisé le lancement de DeepSeek-R1, un modèle conçu pour exceller dans les tâches nécessitant une inférence logique, une résolution de problèmes mathématiques et une prise de décision en temps réel. Dit autrement, DeepSeek R1 s’inscrit dans la nouvelle tendance des modèles à raisonnement tel que OpenAI o1 ou Gemini 2.0 Thinking Experimental.

DeepSeek R1 se distingue cependant des deux précédents par sa publication en open source, mais également par une capacité accrue à fournir des explications étape par étape, améliorant ainsi la transparence et la compréhension de ses processus décisionnels.

Au cœur de DeepSeek R1

Techniquement, DeepSeek R1 met en œuvre des technologies déjà expérimentées par d’autres et les combine à sa propre sauce. Ainsi, le modèle utilise une architecture MoE (Mixture of Experts) combinant plusieurs sous modèles spécialisés associée à une technique d’apprentissage par renforcement.

Le modèle comptabilise ainsi 671 milliards de paramètres dont 37 milliards sont activés à chaque passage (technique MoE). Sa base d’entraînement comportait 14 800 milliards de tokens. Sa fenêtre de contexte est de 128 000 tokens.
Le modèle aurait nécessité 2,79 millions d’heures de GPU NVidia H800 (version bridée du H100) pour son entraînement (sur un cluster formé de 2048 GPU).

Selon les tests de référence, DeepSeek-R1 surpasse les modèles leaders de l’industrie, tels que l’o1 d’OpenAI, sur plusieurs benchmarks de mathématiques et de raisonnement.

>> AIME 2024 : 79,8% (comparable à OpenAI-o1 avec 79,2%)
>> MATH-500 : 97,3% (OpenAI-o1 : 96,4%)
>> LiveCodeBench : 65,9 (OpenAI-o1 : 63,4)
>> Codeforces-R : 2029 (OpenAI-o1 : 2061)
>> MMLU : 90,8% (OpenAI-o1 : 91,8%)

Au point d’être vraiment supérieur à l’usage à « o1 » ? Pas forcément. Ces modèles tendent de plus en plus furieusement à être entraînés pour briller sur les benchmarks et pas forcément d’être aussi pertinents en dehors de ces contextes de comparaison. D’ailleurs, OpenAI o1 obtient en général de bien meilleurs scores que DS R1 sur les tests d’expression en langue anglaise. Et sur certains témoignages, à l’usage notamment en codage, « R1 » serait plus proche d’un « GPT 3.5 » que d’un « OpenAI o1 ». On ne perdra pas de vue, non plus, que « OpenAI o1 » est notablement inférieur au modèle « OpenAI o3 » pour l’instant non disponible mais qui a déjà été évalué sur plusieurs benchmarks par des partenaires de la startup américaine.

DeepSeek R1, Agitateur public n°1

Reste que DeepSeek-R1 agite considérablement le microcosme de l’IA et tout particulièrement dans une Amérique qui vient d’annoncer un investissement sur 4 ans (qui reste à concrétiser) de 500 milliards de dollars.

Parce que DeepSeek-R1 ébranle certaines convictions américaines, à commencer par celle qui veut que les US dominent l’IA hors de portée des autres pays. Des startups chinoises peuvent non seulement rivaliser, mais aussi surpasser leurs homologues occidentaux. Ce n’est une découverte que pour les américains. Avec des budgets très inférieurs à OpenAI et même très probablement à DeepSeek, notre jeune pousse Mistral IA en fait autant depuis 1 an, avec là aussi des modèles open-source.

Ensuite, parce que DeepSeek affirme que le développement de « R1 » a été infiniment moins coûteux que celui d’OpenAI o1 ou Gemini 2.0 TE. Et que son inférence semble bien moins coûteuse. Les prix affichés par DeepSeek sur sa propre plateforme illustre toute la différence avec OpenAI o1 :
* Tokens d’entrée (cache hit) : $0.14 par million de tokens.
* Tokens d’entrée (cache miss) : $0.55 par million de tokens contre 15$ par million de tokens pour « OpenAI o1 »
* Tokens de sortie : $2.19 par million de tokens contre 60$ par million de tokens pour « OpenAI o1 ».

Dit autrement, DeepSeek R1 serait à minima 27 fois moins coûteux à inférer qu’OpenAI o1 !

Enfin, la sortie de R1 soulève Outre Atlantique des interrogations sur l’efficacité des contrôles à l’exportation technologique imposés par les États-Unis, étant donné que DeepSeek a réussi à développer un modèle performant malgré des ressources matérielles limitées et la difficulté d’accéder (en théorie) aux derniers accélérateurs.

La montée en puissance de l’open source

Au final, ce n’est pourtant probablement aucun de ces points qui méritent l’attention des DSI et des responsables d’entreprise. Le dernier point crucial le plus intéressant concerne l’approche open source adoptée par DeepSeek. Yann LeCun, scientifique en chef de l’IA chez Meta, a notamment déclaré : « Le succès de DeepSeek, qui a grandement bénéficié de la recherche ouverte et de l’open source (NDLR : notamment LangChain et LLama), est la preuve de la supériorité des modèles open source sur les modèles propriétaires. Aujourd’hui, tout le monde peut profiter de leur travail. »

Publié sous la très permissive licence MIT, « DeepSeek R1 », contrairement à LLama de Meta, se rapproche davantage de la définition OSI d’un modèle open source sans y adhérer intégralement. Il demeure un certain flou autour des données d’entraînement et DeepSeek n’a pas publié l’intégralité des codes sources des outils utilisés pour son entraînement et sa stabilisation. D’ailleurs, Hugging Face vient d’officialiser un projet « Open-R1 » destiné à justement compenser ces manques en récréant les outils manquant pour obtenir un statut « open source OSI » officiel.

Reste que la réussite de DeepSeek pourrait avoir des répercussions économiques inattendues. Les actions de grandes entreprises technologiques ont connu des baisses significatives suite à l’annonce, reflétant les inquiétudes des investisseurs quant à la solidité de la position des États-Unis en matière d’IA et la pertinence de l’investissement record annoncé à grand renfort de trompettes. Le Financial Times a notamment rapporté que « les actions de Nvidia et Microsoft ont chuté respectivement de 6,5% et 3,5% ».
Selon DeepSeek, l’entraînement de ses modèles n’aurait coûté que 5,6 millions de dollars là où les leaders américains admettent en général que leurs derniers modèles frontières ont coûté plus de 100 millions de dollars d’entraînement.
Le MIT Technology Review considère que DeepSeek adopte des approches plus optimales en matière de gestion des ressources et de préparation. On rappellera que ces approches plus optimales et ce souci de « bien dépenser » sont justement au cœur de l’approche de Mistral AI. La startup française est internationalement reconnue pour sa capacité à optimiser les processus qui lui permet de continuer de se battre dans le domaine des grands modèles frontières. DeepSeek aurait une approche encore plus aboutie et optimale.

D’un côté, des observateurs, comme le journaliste Holger Zschaepitz, estiment que DeepSeek R1 devraient interroger davantage les entreprises américaines et remettre en cause les investissements massifs dans les infrastructures US.

A l’opposé, d’autres estiment que les coûts affichés par l’entreprise chinoise sont « truqués » à l’instar de Neal Khosla, CEO de Curai. Nombreux sont ceux qui estiment d’ailleurs que DeepSeek ne dit pas vraiment toute la vérité : R1 dérive de DeepSeek V3 et nombre d’experts mettent en doute la faisabilité d’un entraînement de DeepSeek V3 sur un petit cluster de 2048 GPU (même si tous reconnaissent que DeepSeek a développé toutes sortes optimisations ingénieuses décrites dans les documents techniques de l’editeur).

Au final, on retiendra que le lancement de DeepSeek-R1 marque quand même une étape dans le paysage de l’IA, illustrant la montée en puissance des startups chinoises. Ce qui ne manquera pas de remettre en question les stratégies actuelles en matière de développement et de régulation de l’IA. Il souligne également l’importance de l’open source dans la promotion de l’innovation et pose des questions cruciales sur l’équilibre entre collaboration ouverte et sécurité technologique. On attend désormais de voir ce qu’un acteur européen comme Mistral AI peut proposer en concurrence…

 

[Article publié le 27 Janvier, MAJ le 28 Janvier pour introduire les tarifs DeepSeek, le projet OpenR1 et clarifier certains points]

 

À lire également :

Mistral AI lance son premier modèle multimodal et des services gratuits pour séduire les développeurs

Mutimodalité, Canvas, analyse de documents, agents IA… Le Chat refait son retard

LLama et Mixtral ne sont pas de vraies IA open-source selon l’OSI

OLMo 2 : un nouveau modèle vraiment open source meilleur que LLama 3.1

Mistral lance la seconde génération de son grand LLM : Mistral Large 2

L’open source, élément clé pour l’avenir de l’IA

Les modèles IA open source passent à la vitesse supérieure