De la concurrence pour NVidia. Intel sort les muscles et lance son nouveau GPU dédié à l’IA : l’Intel Gaudi 3. Suffisant pour rebattre les cartes de l’accélération de l’IA dans les datacenters ?
Selon Pat Gelsinger, « les clients veulent une alternative à NVidia. Le monde a besoin de plus de fournisseurs et nous sommes pleinement investis pour fournir un tel choix ».
Un choix technologique, un choix en termes de prix aussi. On le sait, NVidia commercialise ses accélérateurs IA à prix fort, la demande dépassant largement l’offre et ses capacités de production. Les futurs « Blackwell 200 » seront ainsi commercialisés aux alentours des 40.000 dollars pièce !
Intel n’a pas dévoilé le prix de son Gaudi 3, son nouvel accélérateur IA destiné à booster aussi bien les phases d’entraînement que d’inférences des IA. Mais le fondeur a quand même précisé qu’il serait commercialisé à « un prix très inférieur » offrant ainsi un TCO « extrêmement bon ».
Techniquement, le processeur Gaudi 3 est une évolution du précédent GPU « Gaudi 2 » mais présente plusieurs nouveautés qui changent la donne. Ainsi, le GPU n’est plus composé d’un seul processeur mais de deux processeurs réunis sur une seule puce. Chaque processeur embarque 4 moteurs à multiplication matricielle et 32 « Tensor Cores » programmables.
Avec un tel équipement, Gaudi 3 affiche des performances en virgule flottante 8-bit multipliées par deux et des performances BFloat 16 multipliées par quatre.
Intel annonce des temps d’apprentissage 40% plus rapides comparés au NVidia H100 sur l’entraînement d’un LLM comme GPT 3.5 (et ses 175 milliards de paramètres). Et des gains encore supérieurs sur LLama 2 en version 8 milliards de paramètres.
L’accélération en inférence est encore plus marquée selon Intel. Le Gaudi 3 délivre 170% de la performance d’un H100 sur Llama 2 et se révèle 4 fois plus rapide sur l’inférence du modèle Falcon 180B.
Mais outre la performance pure, Gaudi 3 se montrerait surtout beaucoup moins énergivore que les GPU de NVidia. De manière générale, le Gaudi 3 serait deux fois plus efficient que le H100.
Par ailleurs Gaudi 3 est conçu pour s’intégrer dans des clusters IA. Intel fournit des guides d’architecture jusqu’à des clusters de 1024 nœuds comportant chacun 8 accélérateurs Gaudi 3 soit 8192 accélérateurs dans le cluster. Chaque nœud d’un tel cluster délivre 14,7 Petaflops en précision FP8 (proche des 15,8 pétaflops des nœuds H100 équivalents).
Le problème pour Intel, c’est que dans l’écosystème de l’IA, le hardware ne fait pas tout. Le succès de NVidia s’explique moins par les performances de ces accélérateurs que par un écosystème logiciel d’outils et frameworks qui a massivement adopté CUDA et les bibliothèques de NVidia.
Pour son Gaudi 3, Intel livre un ensemble de bibliothèques drivers et outils intégrés à l’écosystème PyTorch et ses API. Le fondeur joue aussi sur son écosystème ONE API encore naissant.
Pas sûr cependant que tout ceci suffise à ébranler la suprématie actuelle de NVidia dans l’univers IA. Mais Intel ne baisse pas les bras et planche déjà sur la génération suivante, le Falcon Shore qui combinera CPU et accélération IA en une seule puce. Histoire de ne pas laisser NVidia s’emparer seule du marché avec son GB200 (Grace Blackwell).