À l’occasion d’une visite à l’institut Gustave Roussy, le centre de recherche contre le cancer de Villejuif, le plus important en Europe, nous avons pu mesurer la part grandissante de la recherche qui, pour une bonne part, repose sur l’informatique.

L’objet de cette visite était de mettre en évidence les usages de l’informatique dans la recherche et l’utilité de la fondation Gustave Roussy qui participe à hauteur de 6 à 7 % au budget du centre hospitalier grâce à des dons de mécènes et des dons de particuliers. À Villejuif, prés de 2 600 professionnels de la santé soignent chaque année près de 47 000 adultes et enfants atteints de cancer. Le centre concentre aussi les analyses et les travaux effectués dans différents autres hôpitaux et cliniques, brassant ainsi plusieurs dizaines de milliers de dossiers d’analyse.

Au cœur du troisième plan cancer de 2014 -2019

« La médecine de précision » basée en partie sur la biologie des tumeurs, progresse, mais pour les 250 chercheurs de Gustave Roussy qui travaillent sans relâche, la guerre contre la maladie est loin d’être gagnée. En France, chaque année, environ 149 000 personnes, dont 85 000 hommes et 63 000 femmes meurent du cancer, soit environ 410 personnes chaque jour. Ce sont les cancers du sein et de la prostate qui sont les plus meurtriers. Mais la recherche et la prévention avancent et l’on est déjà dans le troisième plan cancer qui se déroulera jusqu’en 2019. Celui-ci favorise une quarantaine de projets menés de front avec une emphase croissante sur la prévention et détection. On détecte par an environ 350 000 nouveaux cas de cancers en France et plus les soins interviennent tôt, plus les chances de guérison sont importantes. Parmi ces différents malades, près de 60 000 ont été analysés via le séquençage génomique et ce nombre ne fait que croître chaque année. Ces personnes traitées en France voient leurs chances d’obtenir un traitement spécifiquement adapté à leur maladie. Car il n’y a pas, par exemple, qu’un seul cancer de la prostate ou du poumon, il en a des dizaines de variétés, ce qui laisse espérer des traitements de plus en plus spécialisés. Les médicaments les plus récents, dits de « thérapie ciblée » agissent plus spécifiquement sur les cellules des tumeurs ou celles de leur environnement, ce qui limite les effets secondaires que l’on connaît avec les chimiothérapies.

Le génome au cœur de la recherche

Pour analyser et traiter via l’analyse Génomique Haut débit, les séquenceurs à base d’ordinateurs permettent d’identifier les 3,2 milliards d’éléments qui constituent la base de notre ADN, la source originale étant les 23 chromosomes que nous ont légué nos deux parents à notre création.schema-ADN-ARN Précisément, c’est le séquençage de fragments de l’ADN, les éléments essentiels, les ARN, qui permettent d’obtenir toutes les informations des séquences présentes, à un moment donné, dans un tissu. Pour cela, il faut extraire les séquences d’ARN pour le tissu étudié. Comme il n’est pas possible de séquencer directement toutes les chaînes d’ARN en une seule fois du fait de leur longueur, elles sont partagées en un nombre de petites séquences de taille identique appelées « reads ». Ces « lectures » qui peuvent atteindre des volumes énormes d’informations sur les plus gros séquenceurs seront comparées avec d’autres éléments, ceux de génomes sains, de référence. Cette comparaison, ce mapping permet de caractériser les maladies à un moment précis et de constituer des bases de données de référence énormes.

Les séquenceurs NG ont changé la nature des recherches

Cette évolution dans l’analyse de plus en plus rapide a permis de diviser le coût d’un séquençage par mille depuis quelques années. Si l’on compare ces travaux à ce qui se faisait au début du 21e siècle, le saut est encore plus important. Le séquençage à très haut débit, encore appelé « Next Generation Sequencing » ou « Deep Sequencing », est réalisé sur différents appareils essentiellement américains comme le Lifetech Ion qui est capable de gérer un million de fragments d’ADN.

ACH_1012ok

Il générera à la fin d’une analyse classique près de 400 Mo d’informations. C’est déjà la deuxième révolution du génome (image ci-dessous rappelant les différentes étapes de la recherche biologique). Avec des Séquenceurs de la société Illumina (Genome Analyzer II et HiSeq 2000), on passe à des volumes de données de 16,5 Go à 32 Go, des volumes d’informations énormes qu’il faudra traiter ensuite selon des protocoles homogènes.Capture d’écran 2015-09-29 à 11.00.57

Si le passage de l’analyse chimique à des informations digitales tient à ces machines, les « New Generation sequencer », leurs interprétations et les statistiques doivent ensuite entrer dans des processus informatiques, des workflows caractéristiques où chaque laboratoire apporte son savoir faire. Issus de développements effectués en Open Source, les programmes de traitement que l’on pourrait ranger dans la catégorie Big Data sont nombreux et correspondent, au fur et à mesure de leurs évolutions, à des recherches de plus en plus spécifiques. « C’est sur ce cas précis que les systèmes comme ceux de Dell, l’un des mécènes du centre, vont nous aider à optimiser la vitesse et l’efficacité des analyses de séquences d’ADN pour identifier les altérations génomiques », nous a expliqué Daniel Gautheret, Professeur à l’Université Paris Sud. (photo ci-desssous)arton172

Un cluster pour analyser les résultats des recherches

Mis en service depuis 3 mois, le cluster Dell de type Dell Genomic Data Analysis Plateform a permis d’analyser les séquences d’une vingtaine de tumeurs pédiatriques dans le cadre des essais cliniques BIOMEDE et MOSKIDO menés à Gustave Roussy par le Docteur Grill et le Professeur Soria, offrant ainsi de nouvelles perspectives de recherche.

Selon Daniel Gautheret, « En 2014 sur une grappe de huit nœuds sur des échantillons d’analyse de 24 personnes, le workflow durait 35 heures. Cette année, le même traitement ne dure plus que 25 heures et est capable d’analyser 96 personnes en une seule procédure ». Les différents programmes ne sont pas tous optimisés et ne tirent pas souvent profit des capacités multicoeur des derniers processeurs Xeon. En terme d’entrées sorties, des limitations existent aussi. C’est dans un rack de 42U que le système en cluster qui offre 12,43 téraflops gère ces application d’analyse. La puissance de calcul nécessaire aux études est fournie par 16 serveurs Dell PowerEdge R630 et un serveur Dell PowerEdge R820, associé à des systèmes de stockage Powervault (image ci-contre). IMG_1478« Nous allons pouvoir accélérer les processus de recherche en laboratoire afin de trouver des traitements adaptés à des cas jusqu’alors inconnus », déclarait Marc Mendez-Bermond, qui s’occupe des solutions HPC chez Dell.

Interrogé sur l’utilisation possible de ces équipements pour la gestion quotidienne de l’hôpital, la réponse a été négative, les programmes et la nature même du cluster rendant difficile les mélanges logiciels. Seul le partage des armoires de stockage a été envisagé. La bio-informatique et la génomique n’en sont paradoxalement qu’à leurs débuts et la prudence est toujours de rigueur.

Mais, il y a des cas ou l’altération du génome paraît encore plus insupportable, c’est dans les cas de cancers des enfants.

Des cancers spécifiques que l’on ne retrouve pas chez l’adulte

cancer-enfant
1700 cas de cancer chez l’enfant en France

S’il ne concerne que 1 à 2 % de l’ensemble des cancers, la violence de la maladie face à la totale innocence des jeunes malades justifie que l’on se révolte pour conduire une recherche spécifique. Dans le monde, ce sont près de 100 000 enfants qui meurent chaque année du cancer, souvent sans aucun soin efficace, dans les pays en voie de développement. C’est ce qui a motivé la firme Dell à proposer du matériel de recherche aux différents centres comme de celui de TGen aux USA. Le système informatique fondé sur une architecture HPC qui est mis au service du séquençage génomique a été spécialement créée pour Gustave Roussy. Son but est d’optimiser et d’accélérer l’étude des mutations des tumeurs cancéreuses infantiles. La famille de Michael Dell a été profondément marquée par cette maladie. La firme texane n’est pas la seule à investir des dizaines de millions dans la lutte contre le cancer, mais son investissement pour ce seul domaine est unique. Selon l’assistance publique, on dénombre en moyenne 1700 nouveaux cas de cancers chez l’enfant de moins de 15 ans par an, et 700 chez les adolescents entre 15 et 19 ans. Certaines formes de cancers sont spécifiques à l’enfant et, inversement, la plupart des cancers de l’adulte n’existent pas chez l’enfant. Heureusement 80 % de guérison interviennent en général 5 ans après le diagnostic, mais le comportement psychique et la scolarité des enfants sont souvent perturbés. La firme Dell incite aussi ses collaborateurs à s’impliquer dans les structures d’accompagnements, souvent privées, car au delà de la maladie d’un seul enfant, ce sont des familles entières qui souffrent en silence.