Les GPU tournent à vide quand les données n’arrivent pas à temps : dans le HPC, le problème n’est plus la puissance, mais l’agilité des flux. Silos, formats fermés, workflows figés : ce sont désormais les données qui étouffent les performances HPC, bien plus que les limites matérielles.
Le calcul haute performance (HPC) a atteint des sommets de puissance. GPU nouvelle génération, clusters massifs, simulations toujours plus complexes : tout semble réuni pour repousser les limites de la science, de l’IA ou de la modélisation. Pourtant, dans les faits, nombre d’organisations voient leurs performances plafonner. La raison ? Des goulets d’étranglement liés aux données, souvent invisibles, mais systématiques.
Quand les GPU attendent… les données
Un paradoxe se dessine dans les environnements HPC : plus les capacités de traitement augmentent, plus elles sont sous-exploitées. La cause principale ? Des pipelines de données trop lents, qui empêchent les ressources de calcul de fonctionner à plein régime.
Dans les flux de travail d’IA ou de simulation, où le calcul doit fonctionner en continu et de manière itérative sur de très grands ensembles de données, ce décalage est critique. Les GPU restent inactifs, faute de données disponibles au bon moment. Le résultat : perte de capacité de calcul, réduction du délai d’obtention des résultats et réduction globale du retour sur investissement. Le vrai levier d’optimisation n’est aujourd’hui plus uniquement matériel : il est structurel, au cœur de l’architecture de données.
Silos, workflows inadaptés, formats propriétaires paralysent les performances HPC
En effet, les infrastructures HPC souffrent d’un manque d’élasticité. L’accès simultané aux données par des centaines de nœuds provoque des conflits que les systèmes de fichiers traditionnels ne peuvent absorber. Les performances s’effondrent à mesure que la charge monte.
En parallèle, les données sont dispersées dans des silos sur plusieurs systèmes de stockage : espaces de travail, répertoires personnels, partages NAS départementaux, archives héritées ou même sites géographiquement distants. Résultat : duplication, confusion, perte de temps, et collaboration freinée. Pire encore, des données stratégiques deviennent parfois quasi-inaccessibles, simplement parce qu’elles sont “mal rangées”.
Lorsque les données se déplacent entre le scratch, l’hébergement, l’archive et le cloud, elles changent aussi souvent de chemin, de protocole ou de méthode d’accès. Les utilisateurs doivent alors savoir où se trouvent les données et comment y accéder, ce qui ajoute une complexité inutile à chaque flux de travail. L’absence d’un espace de noms unifié a également un impact sur l’automatisation et les scripts. Chaque changement de niveau de stockage peut nécessiter des modifications des scripts de travail ou des chemins d’accès aux données, ce qui ralentit les équipes et introduit de la fragilité.
À cela s’ajoute une dépendance à des workflows HPC, qui sont souvent basés sur des années d’outils internes, de scripts shell et de tâches par lots héritées. Un exemple courant : les jeux de données sont copiés manuellement dans l’espace temporaire pour les tâches de calcul, puis déplacés (ou archivés), toujours manuellement, après le traitement. Cette approche introduit des erreurs humaines, des retards et des inefficacités, en particulier lorsque les tâches échouent, redémarrent ou doivent ajuster dynamiquement le placement des données.
En parallèle, les niveaux de stockage NVMe hautes performances sont essentiels pour alimenter le calcul, mais ils sont également coûteux et limités. Pourtant, dans de nombreux environnements, le stockage du Tier 0 est encombré de données obsolètes ou inactives, car il n’existe aucun mécanisme automatisé pour les déplacer ailleurs.
A l’inverse, les données archivées, qui sont généralement supprimées de l’espace de noms principal et stockées séparément et dont la réutilisation nécessite des outils spéciaux sont une limitation majeure pour les flux de travail de l’IA et de la recherche. Les exécutions d’entraînement passées, les résultats de simulation et les ensembles de données de référence devraient être rapidement récupérables, en particulier lors de la mise au point de modèles ou de la répétition d’expériences.
Enfin, les modèles d’utilisation des données évoluent également : collaboration interinstitutions, clouds hybrides, flux de travail d’IA sur site et dans le cloud. Dans ce contexte, trop souvent, les systèmes de stockage créent une dépendance aux données par le biais de formats propriétaires, de protocoles fermés ou d’outils spécifiques au cloud. Cela limite la capacité à s’adapter, à faire évoluer ou à partager librement des données. Le transfert de données entre les plateformes devient complexe, coûteux, voire irréalisable. Le verrouillage étouffe non seulement l’innovation, mais augmente également le coût total de possession et les risques à long terme.
Réconcilier performance, flexibilité et visibilité : des pistes
Pour surmonter ces freins, il faut sortir d’une logique purement capacitaire. Ce n’est pas tant le stockage qui manque, mais la capacité à l’orchestrer intelligemment. Aujourd’hui, il paraît indispensable de créer une infrastructure de données pour le HPC qui…
* s’adapte à la simultanéité sans compromettre le débit ;
* fournit un espace de noms global, unifiant tous les niveaux de stockage (du Tier 0 au cloud) ;
* automatise le cycle de vie des données, en déplaçant les datasets froids hors des zones critiques sans perturber l’accès ;
* traite l’archivage comme une extension dynamique de l’environnement de données actif, accessible instantanément en cas de besoin et transparente pour l’utilisateur ou l’application;
* éviter les verrous propriétaires, pour faciliter la collaboration inter-sites ou cloud/hybride.
Les organisations qui continueront à renforcer leur puissance de calcul sans reconfigurer leur infrastructure de données risquent de tourner à vide. La clé du HPC de demain, ce n’est pas d’avoir plus de GPU, c’est de s’assurer que les données arrivent au bon endroit, au bon moment, avec la bonne agilité.
____________________________
Par Delphine Ducastel-Boulon, Senior Director France, Afrique, Luxembourg et Suisse chez DataCore