Après avoir déjà réussi à bien verrouiller les infrastructures d’entraînement et d’inférence de l’IA avec sa plateforme « Enterprise AI », NVIDIA s’assure d’en faire autant avec l’IA agentique en annonçant deux nouvelles briques fondatrices, Dynamo 1.0 et NVIDIA Agent Toolkit…
À GTC 2026, NVIDIA n’a pas seulement évoqué l’impressionnant potentiel de sa plateforme matériel Vera Rubin. Le constructeur a surtout dévoilé sa stratégie pour prendre le contrôle de toute la chaîne de valeur de l’IA agentique d’entreprise, depuis l’infrastructure d’inférence jusqu’aux agents capables d’agir dans les workflows métier. Outre la très remarquée et distrayante annonce de NemoClaw, le constructeur a surtout dévoilé deux nouvelles briques logicielles fondamentales, deux pièces maîtresses de sa redoutable stratégie pour maîtriser toute la chaîne de l’IA d’entreprise. Avec Dynamo 1.0 d’un côté et Agent Toolkit de l’autre, NVIDIA commercialise désormais l’OS de l’usine IA et les outils pour faire tourner les nouveaux employés numériques.
Dynamo 1.0 : l’OS qui manquait aux AI factories
Depuis un an, toute l’industrie a bien compris que la vraie bataille économique de l’IA ne se joue pas sur l’entraînement des modèles, mais sur l’inférence, au moment où chaque requête utilisateur, chaque agent et chaque application IA consomment du calcul, de la mémoire, du réseau et du stockage pour interpréter un prompt et y répondre.
Faire tourner un modèle IA en production à l’échelle de millions de requêtes reste un défi dans toutes les entreprises. Plus particulièrement encore quand la conformité, la règlementation et la sensibilité des données justifient de le faire en local dans son propre datacenter. Jusqu’ici, chaque cloud provider, chaque fournisseur d’infrastructure IA d’entreprise, chaque éditeur d’IA bricolait sa propre pile d’inférence, assemblant vLLM par-ci, SGLang par-là, avec des scripts maison pour répartir la charge entre GPU.
Et cet assemblage fonctionnait… jusqu’à ce que les agents IA débarquent avec leurs requêtes à contextes longs, leurs rafales imprévisibles et leurs chaînes de raisonnement multi-étapes.
Et pour résoudre ce défi, NVIDIA lance « Dynamo 1.0 », présenté comme « le système d’exploitation de l’inférence ». L’idée est simple : toute « AI Factory » a besoin d’une couche unifiée capable de piloter finement les GPU, la mémoire et les caches à l’échelle du cluster, comme un OS pilote CPU, RAM et applications sur un serveur classique.
Dynamo peut être vu comme une sorte d’OS de l’IA chargé de répartir intelligemment les tâches entre GPU/CPU/LPU, faisant office de tour de contrôle et déplaçant efficacement les données entre mémoire GPU et stockage moins coûteux, routant les requêtes vers les GPU qui possèdent déjà le bon contexte court terme, puis déchargeant cette mémoire lorsqu’elle n’est plus utile. Autrement dit, Dynamo transforme un amas de GPU/LPU en un système cohérent, exploitable et rentable.
Les chiffres avancés par NVIDIA sont éloquents : sur les GPU Blackwell, Dynamo améliore les performances d’inférence d’un facteur allant jusqu’à 7x lors de récents benchmarks industriels. Sachant que la plateforme Vera Rubin promet ensuite un débit d’inférence par watt multiplié par 10 et un coût par token divisé par 10 par rapport à Blackwell, on mesure l’ampleur de l’optimisation logicielle qui vient s’empiler sur le gain matériel.
Couche portable, open source et gratuite, Dynamo 1.0 promet de réduire le coût par token de chaque interaction avec l’IA et s’intègre nativement avec TensorRT-LLM, vLLM, SGLang, LMCache, llm-d ou encore LangChain. NVIDIA expose même certaines briques en modules autonomes, comme KVBM pour la gestion mémoire, NIXL pour les transferts rapides et Grove pour le scaling. Les optimisations TensorRT-LLM sont même versées au projet FlashInfer, pour bénéficier nativement à tout l’écosystème open source.
Dynamo se veut ainsi la couche logicielle qui donne un cerveau opérationnel à la vision de l’IA agentique de NVIDIA. Sans OS d’inférence, l’AI Factory reste une promesse matérielle. Pour éviter que chaque entreprise ne réinvente la plomberie, Dynamo 1.0 impose une couche d’orchestration standardisée, adoptée par nombre d’acteurs y compris les hyperscalers, transformant l’infrastructure matérielle NVDIA en véritable machine universelle à produire du token utile.
Agent Toolkit : NVIDIA s’impose en infrastructure de l’IA agentique
L’autre annonce importante, c’est Agent Toolkit. Si Dynamo 1.0 est la fondation à l’inférence à l’ère agentique, Agent Toolkit est la plateforme logicielle sur laquelle les entreprises vont construire, sécuriser et déployer leurs agents IA autonomes.
Là encore, NVIDIA ne propose pas un simple framework de plus. Agent Toolkit est une suite open source modulaire qui rassemble trois composants clés. D’abord, OpenShell, un runtime qui impose des garde-fous de sécurité, de réseau et de confidentialité aux agents autonomes, que l’on peut voir comme une sandbox avec des politiques d’accès granulaires. Ensuite, AI-Q, un blueprint open source pour bâtir des agents de recherche approfondie capables de percevoir, raisonner et agir sur les données d’entreprise, en choisissant automatiquement les bonnes sources et le bon niveau d’analyse. Enfin, la famille de modèles ouverts Nemotron, optimisés pour le raisonnement agentique, complète l’ensemble avec une bibliothèque de skills d’optimisation (cuOpt).
AI-Q ajoute en prime une logique d’évaluation intégrée, capable d’expliquer comment une réponse a été produite, tandis que son architecture hybride combine modèles frontier pour l’orchestration et modèles ouverts Nemotron pour la recherche, avec une promesse de réduction de coût de plus de 50 % à précision élevée.
Agent Toolkit comporte également une quatrième brique qui repose sur ces fondations : NemoClaw, adaptation sécurisée et optimisée d’OpenClaw et que nous avons déjà largement évoqué dans un précédent article (Avec, NemoClaw, NVIDIA déploie OpenClaw en mode entreprise).
Certes, le toolkit de NVIDIA débarque dans un écosystème très concurrentiel. LangChain/LangGraph reste le leader communautaire avec plus d’un milliard de téléchargements et 600+ intégrations, privilégié pour les workflows complexes à états. CrewAI séduit par sa simplicité (modèle par rôles, prototypage rapide), mais ses capacités de sécurité restent basiques. AutoGen/Microsoft Agent Framework excelle dans l’orchestration conversationnelle multi-agents et bénéficie de l’intégration Azure, mais reste centré sur l’écosystème Microsoft. OpenAI Agents SDK propose une expérience développeur fluide, mais ne couvre pas le runtime ni la sécurité d’exécution. AWS Strands, lui, joue la carte du SDK simple et model-driven, où l’on relie surtout un modèle et des outils avec peu de code. Et Google ADK mise sur un kit modulaire, multi-langages, compatible avec d’autres frameworks, mais naturellement optimisé pour Gemini et l’écosystème Google.
Ce qui distingue vraiment NVIDIA, c’est que son offre ne s’arrête pas à l’orchestration logicielle. Elle colle à toute la pile de production. Agent Toolkit est pensé pour s’exécuter sur une infrastructure NVIDIA optimisée par Dynamo et TensorRT-LLM, avec des partenaires sécurité comme Cisco, CrowdStrike, Google, Microsoft Security ou TrendAI, et avec déjà un impressionnant alignement d’éditeurs d’entreprise allant d’Adobe à SAP, Salesforce, ServiceNow, Box ou Red Hat. Là où beaucoup de concurrents proposent surtout un framework de développement, NVIDIA arrive avec une chaîne de valeur complète mêlant modèles, runtime sécurisé, évaluation, optimisation d’inférence, compatibilité sécurité et trajectoire industrielle.
Avec Dynamo 1.0 et Agent Toolkit, NVIDIA poursuit en réalité la stratégie de plateforme initiée il y a plus de deux ans avec « NVIDIA Enterprise AI ». Le constructeur a bien conscience que l’ère de l’IA agentique sera plus vaste que celle des modèles de langage. Elle ne sera pas gagnée par le meilleur chatbot, mais par ceux qui maîtriseront le coût, la sécurité, l’orchestration et le passage à l’échelle. Et NVIDIA prend une nouvelle fois les devants et entend bien « posséder » la couche d’infrastructure de cette nouvelle ère de l’IA, comme il « possède » déjà la couche matérielle.
____________________________





puis