Les hyperscalers accélèrent leur transition vers des puces IA maison, combinant puissance, efficacité énergétique et coûts optimisés. Avec une amélioration drastique des performances et une durabilité renforcée, les TPU Trillium s’imposent comme la réponse de Google Cloud aux défis actuels de l’IA. Ils ont notamment été massivement utilisés pour entraîner les modèles Gemini 2.0 annoncés cette semaine. Ces TPU sont désormais accessibles aux développeurs via Google Cloud.

Face à la pénurie de GPU NVIDIA, à leurs coûts élevés, et face à l’adoption massive de l’IA par les entreprises ainsi qu’à un besoin urgent d’économies énergétiques, les hyperscalers misent de plus en plus sur leurs propres accélérateurs IA internes. Ces derniers promettent non seulement une meilleure efficacité énergétique que les GPU, mais également un coût de possession plus avantageux pour eux.

Lors de son dernier « Re:Invent 2024 », AWS n’a cessé de pousser ses Trainium2 et ses futurs Trainium3 expliquant les utiliser pour tous ses besoins IA, pour tous les besoins IA d’Anthropic et invitant les entreprises et développeurs à faire massivement de même.

Cette semaine, c’est Google Cloud qui officialise la disponibilité générale de ses nouveaux TPU « Trillium » qui succèdent aux TPU v5e et TPU v5p. Cela fait maintenant plus d’une décennie que Google Cloud conçoit ses propres accélérateurs IA, les TPU, et les installe au cœur de ses infrastructures cloud.

Annoncé – un peu par surprise – lors du dernier « Google I/O », la sixième génération de TPU Google est donc officiellement accessible à tous les acteurs, éditeurs et développeurs IA. Google Cloud ne manque d’ailleurs d’annoncer que ses « Trillium » ont largement été utilisés pour l’apprentissage de sa toute nouvelle génération de modèles « Gemini 2.0 » dont la première itération « Gemini 2.0 Flash » a également été annoncée en preview cette semaine !

Les Trillium TPU sont un élément clé de l’« AI Hypercomputer » de Google Cloud, une architecture de supercalculateur IA intégrant matériel optimisé, logiciels ouverts, frameworks ML majeurs (JAX, PyTorch, TensorFlow), et des modèles de facturation flexibles. Cette plateforme permet d’exploiter jusqu’à 100 000 puces Trillium au sein d’un seul tissu réseau « Jupiter » offrant 13 pétabits/s de bande passante, afin de faire évoluer un job d’entraînement distribué à une échelle jamais vue.

L’architecture Trillium se distingue par des améliorations significatives en termes de performances. Parmi les optimisations annoncées :

  • Une augmentation de 4,7 fois des performances de calcul par puce par rapport à la génération précédente.
  • Un doublement de la capacité mémoire HBM (High Bandwidth Memory).
  • Un doublement de la bande passante d’interconnexion entre puces (ICI).
  • Une amélioration de 67% de l’efficacité énergétique.
  • Des gains de performances allant jusqu’à 4x pour l’entraînement de grands modèles de langage (LLM) denses et jusqu’à 3,8x pour les architectures de type Mixture of Experts par rapport aux TPU v5e.
  • Une scalabilité presque linéaire lors de l’entraînement de très grands modèles, grâce à une topologie réseau de pointe et à une pile logicielle co-conçue.
  • Jusqu’à 3x plus de capacité DRAM côté host, permettant un offloading plus efficace de certaines opérations et une amélioration de plus de 50% de l’utilisation effective des ressources lors de l’entraînement de modèles LLM de plusieurs centaines de milliards de paramètres.
  • Jusqu’à 3x plus de débit en inférence pour des modèles comme Stable Diffusion XL, et près de 2x plus de débit en inférence pour Llama-2-70B, par rapport aux TPU v5e.

Les Pods Trillium, regroupant chacun 256 processeurs Trillium, peuvent être associés en clusters massifs interconnectés par un réseau à plusieurs pétabits par seconde. Cette architecture distribuée se révèle particulièrement efficace pour l’entraînement des modèles de fondation de nouvelle génération tels que Gemini 2.0. Les tests internes de Google montrent par exemple une efficacité de scaling de 99% pour un cluster de 3072 puces, et de 94% pour 6144 puces, sur des modèles LLM du type GPT-3 175B.

La durabilité n’est pas en reste : en plus d’une efficacité énergétique améliorée, les performances coût sont au rendez-vous. Les premières analyses mettent en évidence des gains significatifs en performance par dollar, avec jusqu’à 2,5x d’amélioration pour l’entraînement et 1,4x pour l’inférence par rapport aux générations précédentes de TPU. Pour l’inférence d’images, le coût de génération de mille images est réduit de 27% en mode offline et de 22% en mode online avec Stable Diffusion XL par rapport aux TPU v5e.

Désormais accessibles aux entreprises et aux startups, les nouvelles infrastructures Trillium leur offrent les mêmes atouts en matière de performances, d’efficacité et de durabilité.

À lire également :

Re:Invent 2024 : Amazon AWS annonce Trainium3 et l’ultracluster Rainier pour l’IA

Google I/O 2024 : Une « Google I/A » seconde édition !

L’IA relance la guerre des puces

L’intelligence artificielle en quête d’accélérateurs GPU et NPU

AWS Re:Invent 2024 : Amazon fait feu de tout bois sur l’IA