La course à l’exaflop bat son plein. L’annonce des spécifications techniques du superordinateur El Capitan met en perspective le bond spectaculaire que réalisera le calcul informatique dans les deux ans à venir… 

Deux milliards de milliards d’opérations en virgule flottante par seconde… 2 Exaflops…  Soit plus que la puissance combinée des 500 superordinateurs actuellement les plus puissants de la planète (selon Top500.org, la puissance cumulée des 500 HPC du classement atteint 1,65 exaflops) !

Le Lawrence Livermore National Laboratory (LLNL) a dévoilé hier les données techniques de son futur monstre de calcul qui sera inauguré début 2023 : El Capitan.

Pour rappel, 1 ExaFLOP (1018) équivaut à 1 000 PetaFLOPS soit 1 000 x 1015 FLOPS (floating-point operations per second, l’unité de mesure de puissance dans l’univers des supercalculateurs).
Pour saisir la portée du bond technologique qui s’annonce, il faut savoir que l’ordinateur le plus puissant du moment, le SUMMIT de l’Oak Ridge National Laboratory (ORNL), affiche une puissance de « seulement » 148 PetaFLOPS.

L’occasion pour nous de revenir sur cette course aux calculateurs exaflopiques à laquelle se livrent aujourd’hui les USA, la Chine, le Japon et l’Europe. Certains comptent dès 2021 multiplier par 10 la puissance des HPC d’aujourd’hui.

Une course internationale

Car El Capitan ne sera pas le premier HPC à atteindre l’exaflop. Rien qu’aux USA, deux autres calculateurs exaflopiques devraient voir le jour avant. Le DOE (Department of Energy) américain prévoit en effet de déployer son Aurora en 2021. Construit par Cray (désormais dans le giron de HPE) pour le compte du Laboratoire National d’Argonne (à Chicago), sa puissance nominale devrait atteindre l’exaflop grâce à ses processeurs Intel Xeon Scalable, ses GPU Intel Xe et sa mémoire permanente Intel Optane. Sa construction devrait coûter au final 500 millions de dollars.
Dans la foulée, l’ORNL devrait lui aussi disposer de son HPC exaflopique dénommé Frontier d’une puissance de calcul supérieure à 1,5 ExaFLOPS, toujours construit par Cray/HPE mais cette fois-ci basé sur des processeurs AMD Epyc. Sa construction est évaluée à 700 millions de dollars. Un quatrième supercalculateur destiné au centre d’Argonne fin 2023 était envisagé mais semble avoir été abandonné pour l’instant.

Mais les USA ne seront peut-être pas les premiers. La Chine s’est jusqu’ici fait un point d’honneur à être le premier pays à atteindre la frontière de l’exascale. Rappelons que si l’Empire du Milieu a perdu la tête du TOP 500 depuis l’inauguration des IBM Summit de l’ORNL et IBM Sierra du LLNL, elle possède à elle seule 227 supercalculateurs du Top 500 contre 118 pour les USA. L’an dernier, la Chine affirmait toujours vouloir inaugurer son premier supercalculateur exaflopique en 2020. Mais aucun des trois centres de recherche qui doivent accueillir les premiers HPC dépassant l’exaflop n’a depuis communiqué sur le sujet et la crise engendrée par l’épidémie de coronavirus n’aide probablement pas à l’avancement des projets.
Le premier devait être inauguré par la National University of Defense Technology de Guangzhou et s’appuyer sur un processeur chinois (que l’on croit être le Phytium de Xiaomi).
Un autre système, le nouveau Sunway Taihu-Light, est également en construction au National Research Center of Parallel Computer Engineering and Technology de Wuxi à base de processeurs ARM signés Sunway.
Un troisième géant exaflopique, Shuguang, est également en cours d’élaboration pour les centres de supercomputing de Shangai et Shenzen par le constructeur Sugon à base de processeurs x86 HyGon (sous licence AMD).

Le Japon lui aussi est toujours dans la course. Développé par Fujitsu pour le Center for Computational Science Riken à Kobe, le Fugaku pourrait être inauguré dès le milieu de cette année, mais ne devrait atteindre sa vitesse de croisière qu’en 2021 au plus tôt. Un prototype a même été déjà mis en route en décembre dernier et s’est immédiatement inscrit en tête du Green500 (le classement des HPC les moins consommateurs d’électricité par rapport à leur puissance). À l’arrivée, le système devrait comprendre 400 armoires de 384 nœuds chacune. Les nœuds sont animés par des processeurs A64FX de Fujitsu basés sur une architecture ARM v8-A (adoptant les SVE, Scalable Vector Extensions).

L’Europe aussi veut rester dans la course. Dès 2016, Atos annonçait l’exascale pour 2020 en présentant son architecture Sequana. Mais ces prévisions ne seront pas tenues. En juin 2019, l’Europe fondait EuroHPC doté d’un milliard d’euros de budget pour déployer deux machines pré-exascales en 2021 et deux machines exascales en 2023 (qui devront s’afficher dans le TOP 5 mondial). Au moins l’ambition et les moyens de cette ambition sont là, à défaut d’être les premiers.

Dans les entrailles d’un monstre.

Pour revenir à El Capitan, on en sait désormais beaucoup plus sur sa conception depuis la conférence donnée cette semaine par HPE et le DOE.

Sa fabrication coûtera 600 millions de dollars. L’architecture n’est autre qu’une variation du design Shasta de Cray (désormais filiale de HPE) bâtie autour de sa technologie d’interconnexion Slingshot.


Elle s’appuie sur des processeurs AMD Epyx « Genoa» de génération Zen 4 (soit deux générations après celle actuelle) ainsi que sur la prochaine génération de GPU Radeon Instinct basée sur une  nouvelle architecture optimisée pour le calcul. À cela s’ajoute une gestion des mémoires de prochaine génération (HBM), l’utilisation de l’architecture Infinity Fabric 3 d’AMD (qui lie les GPU aux CPU et les nœuds entre eux) et la solution logicielle hétérogène open source AMD ROCm (la plateforme logicielle conçue pour mettre le HPC et le calcul multi-GPU à l’heure des containers et de Kubernetes).

De ce que l’on a compris des explications très incomplètes fournies par AMD et Cray, dans chaque nœud, un CPU sera directement relié à 4 GPU (mais on ignore le nombre de CPU par nœud).
Enfin, El Capitan devrait consommer moins de 40 MW et tenir dans moins de 200 armoires Shasta.

El Capitan répondra aux exigences de la National Nuclear Security Administration pour sa mission première d’assurer la sûreté, la sécurité et la fiabilité des stocks nucléaires du pays. Les nœuds de calcul seront aussi optimisés pour accélérer l’intelligence artificielle (IA) et les charges de travail d’apprentissage machine (ML) au bénéfice des missions de la NNSA.

Bref l’ExaFLOPS, ce mur du son de l’informatique, est désormais à portée de vue. Sa concrétisation est désormais une question de mois. L’arrivée de ces nouveaux géants du calcul devrait nous permettre d’attendre sereinement que l’informatique quantique concrétise ses promesses.