Lors de sa conférence re:Invent 2024, Amazon Web Services (AWS) a dévoilé sa nouvelle génération d’accélérateur d’apprentissage IA « Trainium3 », son projet « Rainier » pour Anthropic et l’évolution de sa stratégie de développement des infrastructures IA.

Le Keynote d’ouverture d’AWS re:Invent 2024 s’est concrétisé sous forme d’une pluie d’annonces IA dans tous les sens. De quoi donner le tournis. Nous avons déjà eu l’occasion d’évoquer le lancement de la famille de modèles frontières ‘maison’ dénommée Nova et des multiples fonctionnalités de personnalisation qui l’accompagne.

Amazon inaugure déjà sa troisième génération d’accélérateurs d’entraînement

Mais AWS avait aussi beaucoup de choses à raconter en matière d’apprentissage des IA alors que beaucoup pointent du doigt le coût excessif des apprentissages des grands modèles et leurs impacts écologiques. Au cœur de ces annonces figure Trainium3, un accélérateur IA de nouvelle génération qui promet des performances quadruplées par rapport à son prédécesseur. Cette puce, qui sera la première du secteur à utiliser un processus de fabrication en 3 nanomètres, devrait offrir une efficacité énergétique améliorée de 40%. Sa commercialisation est prévue pour fin 2025.
Le Trainium 3 se veut une alternative pour l’apprentissage des grands modèles frontières aux GPU B200 de NVidia et aux TPUv5 de Google.

Un UltraServer AWS

En attendant l’arrivée de Trainium3, AWS a annoncé la disponibilité générale dès aujourd’hui pour tous des instances Trainium2, initialement présenté l’année dernière en preview. Cette puce délivre 1,3 pétaflops en calcul dense FP8, accompagnée de 96 gigaoctets de mémoire haute bande passante. Les instances Trn2, équipées de 16 puces Trainium2, offrent une capacité de calcul de 20,8 pétaflops, tandis que la configuration « UltraServer« , conbinant 4 instances Trn2 et intégrant 64 accélérateurs, atteint 83,2 pétaflops. Sur le papier, il est possible de faire évoluer les clusters « EC2 Trn2 » pour embarquer jusqu’à 100.000 puces Trainium 2 soit une puissance théorique de 65 exaflops (en FP8).

Pour rappel, Amazon propose un SDK dénommé Neuron qui permet de tirer profit du potentiel de ses accélérateurs avec ses compilateurs, bibliothèques spécialement optimisées et outils de mise en oeuvre. Ce SDK est notamment compatible avec (et optimisé pour) les très populaires frameworks ML PyTorch et JAX.

Un « Ultracluster » pour Anthropic

Dans la même veine, AWS a aussi levé le voile sur l’un des points majeurs de son nouveau partenariat de 4 milliards de dollars avec Anthropic : Project Rainier. Ce super-calculateur IA massif représente l’aboutissement de cette stratégie d’infrastructure spécialement optimisée pour l’IA. Ce projet prévoit le déploiement d’un « ultracluster » constitué de « centaines de milliers » de puces Trainium2, visant à multiplier par cinq la puissance de calcul actuellement utilisée pour l’entraînement des modèles d’IA d’Anthropic. Une fois opérationnel en 2025, il devrait être l’un des plus grands systèmes d’entraînement d’IA au monde et devrait permettre à Anthropic de franchir un pas significatif (Claude 4.0 ?) alors que la jeune pousse semble rencontrer des difficultés à produire un Claude 3.5 Opus « frontière » à la hauteur de ses attentes.

Cette initiative s’inscrit dans un contexte plus large où les géants du cloud développent leurs propres solutions matérielles pour l’IA, cherchant à optimiser les performances tout en réduisant leur dépendance vis-à-vis des fournisseurs tiers. Rappelons que Microsoft a notamment construit pour OpenAI un HPC d’entraînement des IA qui figure en 4ème position du classement TOP500 des 500 machines les plus puissantes de la planète.

 

À lire également :

Re:Invent 2024 : Amazon dévoile Nova, une nouvelle famille de modèles d’IA multimodaux

Re:Invent 2024 : Frugalité, liquid cooling, IA… AWS optimise l’infrastructure de ses datacenters avec un PUE à 1,04 !

AWS met 40.000 accélérateurs Trainium à disposition des universités

Amazon en pleine forme portée par AWS et l’international (résultats Q3-2024)