Deux annonces Google et Azure illustrent le rôle croissant des accélérateurs dans les offres clouds, qu’ils s’agissent de GPU, de TPU ou autres processeurs spécialisés. Des accélérateurs qui permettent à ces opérateurs de proposer de véritables HPC à la demande dans le Cloud.

Aussi bien au cœur des offres IaaS qu’au cœur des plateformes PaaS, les accélérateurs se multiplient dans les clouds pour répondre à des besoins sectoriels (comme l’image de synthèse par exemple), à des nouveaux besoins « à distance » (avec des offres DaaS toujours plus performantes mais aussi pour servir les besoins croissants du Cloud Gaming), à des besoins plus sombres et douteux (pour miner du bitcoin) mais aussi et surtout pour répondre à la diversité des besoins IA. L’Intelligence Artificielle s’étend aujourd’hui dans tous les secteurs et tous les domaines. Dès lors, elle est en train de profondément changer les besoins informatiques de l’infrastructure jusqu’aux couches logicielles les plus élevées. À commencer bien évidemment dans les infrastructures et offres des hyperscalers du cloud.

Cette semaine, deux nouvelles annonces illustrent ce mouvement de fond. Google lance ces « Cloud TPU VMs » et Azure annonce la disponibilité générale d’instances GPU NVidia A100.

Avec ses Cloud TPU VMs, lancées en preview, le cloud américain introduit dans son offre IaaS une nouvelle option d’infrastructure : des instances dotées de processeurs TPU (Tensor Processing Unit) développés en interne chez Google. Elles sont destinées aux projets IA avancés mais aussi à certains traitements quantiques. Google proposait déjà de provisionner des instances TPU (via ses Cloud TPU Pods), mais la solution était coûteuse et lente puisque les traitements TPU ne s’exécutaient pas sur les mêmes serveurs physiques que le reste des traitements.
Avec les nouvelles Cloud TPU VMs, tout s’exécute sur un même serveur physique pour des performances bien supérieures. Les utilisateurs ont le choix entre des TPU v2 (jusqu’à 180 téraflops) ou des TPU v3 (jusqu’à 420 téraflops). On notera au passage que les TPU v4 annoncés à Google I/O et déjà utilisés par Google pour ses propres besoins ne sont pas encore disponibles au travers de ces instances Cloud TPU VMs.
Outre les besoins particuliers de développeurs, Google vise aussi avec ces nouvelles VM de donner un moyen simple et pratique de développer, tester et debugger les algorithmes destinés à ses coûteux « Cloud TPU Pods », les Cloud TPU VMs étant infiniment plus accessibles.
Rappelons qu’un « Pod Cloud TPU » est un cluster de serveurs animés par des TPU que les entreprises peuvent louer pour exécuter leurs modèles d’apprentissage les plus complexes.
Google propose deux types de Pods : les Pods Cloud TPU v2 (11,5 Pétaflops et 4 To de mémoire HBM) et les Pods Cloud TPU v3 (100 Pétaflops et 32 To de mémoire HBM).

De son côté, Azure la disponibilité générale d’une offre en preview depuis de longs mois : les instances Azure ND A100 v4, des instances dopées par des nouveaux GPU A100 Tensor Core de NVidia (de 1,7 à 3,2 fois plus puissants que les instances NVidia V100 jusqu’ici proposées).
Ces instances peuvent être assemblées en clusters pour former ce que Microsoft qualifie de « the fastest public cloud supercomputer » (le superordinateur le plus rapide du cloud public).
Les instances ND A100 v4 sont en effet conçues pour permettre aux entreprises de monter à l’échelle (scale-up) ou de réduire la voilure (scale-down) à volonté et sans ralentissement.
Autrement dit, les entreprises peuvent ainsi s’allouer à la demande des HPC dopés aux accélérateurs NVidia A100. De tels superordinateurs à la demande ont été « flashés » à 16,59 pétaflops durant la phase bêta sur le test Linpack HPL.  En utilisant le benchmark HPL-AI, ces supercalculateurs cloud (composés de 164 VMs ND A100 v4 assemblées en pool) affichent 142,8 PetaFLOPs.
Pourtant, ces résultats n’ont été atteints en utilisant qu’une fraction des ressources rendues disponibles sur le cluster Azure.
Ces infrastructures ont été déployées sur les régions USA-Est, USA-Ouest 2, USA-Sud centre et Europe Ouest. L’Europe n’a donc pas été oubliée. Ainsi avec les résultats obtenus au test HPL, une « machine cloud » dotée de 164 instances VMs ND A100 v4 entre dans le TOP 10 des HPC Européens.

Bref, n’importe quelle entreprise peut désormais louer un HPC pour un besoin IA donné grâce aux clouds de Google ou de Microsoft. Une façon aussi de mesurer l’écart entre les hyperscalers américains et les opérateurs cloud européens à l’heure où l’on parle tant de souveraineté numérique !