Performance décuplée, bande passante boostée, interconnexions survitaminées : Ironwood propulse les TPU de Google dans une autre dimension, celle de l’inférence des IA qui pensent, raisonnent et agissent en autonomie…

Google Cloud Next’25 a ouvert ses portes hier à Las Vegas. La grande messe du cloud de Google est sans surprise très focalisée sur les applications de l’IA et sur l’IA agentique. Que Google Cloud y présente sa septième génération de puces accélératrices d’IA « TPU » n’est pas franchement une surprise. Le saut de performances et la priorité donnée à l’inférence le sont en revanche bien davantage.

Dénommée « Ironwood », la nouvelle puce TPU maison de Google Cloud affole les compteurs. La puce est 3600 fois plus performante et 29 fois plus énergie efficiente que le tout premier TPU introduit en 2018 et affiche une phénoménale puissance de 4614 TFLOPs. « C’est la puce la plus puissante que nous ayons jamais fabriquée pour nous permettre d’ouvrir les portes de la prochaine frontière de l’IA » a ainsi expliqué en introduction Sundar Pichai, le CEO du groupe.

Ironwood marque néanmoins un virage stratégique pour les TPU de Google qui, jusqu’ici, visaient à accélérer autant l’entrainement que l’inférence des modèles. Avec Ironwood, Google se focalise sur l’ère de l’inférence. Avec une emphase sur l’accélération des nouveaux modèles à raisonnement. « Ironwood marque une évolution des modèles IA réactifs (qui se contentent de fournir des informations que l’humain interprètera) vers des modèles proactifs (capables de générer spontanément analyses et interprétations). C’est ce que nous appelons ‘l’ère de l’inférence’, où les agents d’IA ne se limitent plus à livrer des données brutes, mais vont activement chercher et générer l’information pour produire collaborativement des insights et des réponses concrètes » expliquent les experts de Google Cloud.

Ironwood se distingue par plusieurs avancées majeures :

* Une efficacité énergétique doublée par rapport à Trillium (la 6 ème génération de TPU lancée en 2024)
* 192 Go de mémoire HBM par puce (soit 6 fois plus que sur le TPU Trillium)
* Une bande passante mémoire de 7,2 To/s (4,5 fois supérieure à celle du TPU Trillium)
* Une interconnexion entre puces (ICI) améliorée à 1,2 Tbps bidirectionnel (1,5 fois supérieure à celle du Trillium).

Comme toujours chez Google, ces nouvelles puces sont destinées à animer les fameux « TPU Pods » de Google Cloud. Et si l’on a bien compris les intentions de l’hyperscaler, les puces Ironwood seront proposées d’ici la fin de l’année sur deux configurations : Des TPU Pods avec 256 puces Ironwood et des TPU Pods à 9216 puces Ironwood. Cette dernière configuration permet d’atteindre une puissance de 42,5 exaflops par pod ! Selon Google, c’est 24 fois la puissance du plus puissant HPC au monde, le « El Capitan », mais le chiffre est à prendre avec des pincettes, Google mesurant les exaflops en FP8 (calculs en virgule flottante sur 8 bits) alors que la puissance du HPC « El Capitan » est évaluée en FP64 (calculs en virgule flottante sur 64 bits).

 

À lire également :

De Gemini 2.0 aux réseaux Jupiter : les TPU Trillium de Google Cloud sont disponibles

Next’24 : Google lance son propre processeur ARM pour serveurs : Axion

L’intelligence artificielle en quête d’accélérateurs GPU et NPU

Google Cloud Next’24 : Des modèles et du muscle pour l’IA

Des puces IA « maison » chez Meta

AWS Re:Invent 2024 : Amazon fait feu de tout bois sur l’IA

Après les CPU, les GPU, les NPU, les TPU… Intel invente les IPU !

Cerebras Systems se lance en bourse pour challenger Nvidia !