Yves Robert, chercheur en algorithmique est l’un des spécialistes mondiaux du calcul haute performance, est le premier européen à recevoir le prix IEEE TCSC (Technical Committee on Scalable Computing) qui récompense les travaux d’un chercheur dans ce domaine. Petit retour sur ses travaux de recherche.
Quels sont vos principaux thèmes de recherche ?
Mes travaux portent essentiellement sur le développement d’algorithmes à destination des plateformes de calcul haute performance (High Performance Computing – HPC). L’architecture des supercalculateurs les plus puissants se compose de milliers de processeurs comprenant chacun 8, 16 voire 64 cœurs. Afin d’optimiser la puissance de calcul, tous les processeurs doivent travailler en parallèle. L’un de mes thèmes de recherche consiste à créer un algorithme permettant de réaliser en parallèle des calculs scientifiques et plus particulièrement d’algèbre linéaire, qui sont par nature très séquentiels. L’enjeu est de taille, car la résolution de systèmes linéaires représente aujourd’hui près de 80 % du temps de calcul des applications scientifiques.
Vous travaillez aussi au développement de techniques de résilience. De quoi s’agit-il ?
Plus le nombre de processeurs présents dans un supercalculateur augmente, et plus le risque de défaillance de l’un d’entre eux s’accroît. Un processeur qui s’arrête, et c’est la résolution d’un programme lancé depuis plusieurs heures qui est compromise. Pour éviter cela, nous développons des algorithmes destinés à limiter les effets d’une panne matérielle. Par exemple, en instaurant des sauvegardes ponctuelles effectuées aux moments où les processeurs sont les moins sollicités, de manière à limiter le ralentissement du programme. Les nouveaux supercalculateurs nous lancent un défi supplémentaire. Leurs mémoires sont en effet sujettes à des pannes dites « fantômes », causées notamment par les rayons cosmiques. Difficilement détectables, elles provoquent des erreurs de calcul qui faussent le résultat final. Toute la difficulté consiste à développer des algorithmes capables de détecter précisément à quel moment a eu lieu la défaillance, de manière à sélectionner une sauvegarde saine à partir de laquelle redémarrer les calculs.
Quand avez-vous débuté vos travaux sur les algorithmes destinés aux HPC ?
En 1982. Mais lorsque j’ai commencé à m’intéresser aux algorithmes de résolution des systèmes linéaires, les HPC n’existaient pas encore sous leur forme actuelle. A l’époque, les ordinateurs fonctionnaient selon le principe de la mémoire partagée. La plupart des chercheurs ne croyaient pas au parallélisme à mémoire distribuée, autrement dit aux machines dont chaque processeur dispose de sa propre mémoire et peut communiquer avec tous les autres.
Nous avons eu de la chance puisque ces supercalculateurs sont finalement devenus la norme. Depuis, nous n’avons cessé de suivre l’évolution des technologies de manière à proposer les algorithmes les plus adaptés aux nouvelles architectures. Mes travaux sur la résilience sont plus récents, cela fait 3 ou 4 ans que je m’y consacre. Dans ce domaine, je travaille au développement d’algorithmes conçus pour répondre aux besoins des futurs supercalculateurs Exascale, qui pourraient arriver avant la fin de la décennie.