Plus de 200 000 séquencements de génome humain ont déjà été réalisés dans le monde. Rien n’a été prévu pour faire des analyses et des comparaisons sur ces données alors qu’elles pourraient être si utiles.

Le projet génome humain est un programme lancé en 1988 dont la mission était d’établir le séquençage complet de l’ADN du génome humain. Son achèvement a été annoncé le 14 avril 2003. Il a donc fallu 15 ans pour mener à bien un tel projet qui aura coûté près de 4 milliards de dollars et mobiliser des milliers de chercheurs. Aujourd’hui, séquencer l’ADN c’est-à-dire dénombrer 3,2 milliards de paires de bases qui constituent le génome d’une seule personne s’effectue sur une machine sophistiquée mais dont l’utilisation est relativement simple.

Quant aux coûts, ils ont suivi une courbe plus rapide que celle correspondant à la loi de Moore. Le séquençage coûte aujourd’hui de l’ordre du millier d’euros et continue à baisser rapidement. Comme le rappelle le docteur Laurent Alexandre, Chirurgien-urologue et neurobiologiste, fondateur de Doctissimo, Président de DNAvision, « en dix ans, le coût du séquençage de l’ADN a été divisé par un million. Jamais aucune activité humaine, pas même l’industrie des circuits intégrés, n’a connu une évolution aussi foudroyante[1] ».

Des estimations sur les possibilités du parc de machines actuelles conduiraient à la production de 85 po de données en 2015. A titre de comparaison, toutes les copies maîtresses des films et vidéos que détient Netflix correspond à moins de 3 Po de données[2].

Etant donné l’augmentation des performances des équipements, ce sont, à terme, des millions de génomes humains qui vont être répertoriés. Le problème principal est que rien n’a été prévu pour faciliter l’échange et la comparaison qui permettrait de mieux comprendre les maladies et de trouver d’éventuels traitements. Cette limitation ne s’expliquerait pas seulement pour des raisons techniques mais plutôt parce les scientifiques seraient assez réticents à partager leurs informations, en particulier pour des raisons liés à la protection des données personnelles.

Pour apporter une réponse à cette contrainte, la Global Alliance for Genomics and Health (connue aussi sous l’appellation GA4GH) est une association à but non lucratif regroupant 256 membres a été constituée en 2013 pour élaborer les protocoles, les API et les formats de fichiers facilitant l’analyse des données ADN existantes dans les différents serveurs. La Global Alliance se présente comme le W3C[3] qui s’assure de la compatibilité des technologies du Web.

Dans un livre blanc intitulée Creating a Global Alliance to Enable Responsible Sharing of Genomic and Clinical Data. Dans ce document, la Global Alliance constate que le plus souvent les données d’ADN sont analysées de manière isolée limitant ainsi leur efficacité. Les règles éthiques n’ont pas été pensées pour permettre l’échange et la comparaison des données. Et s’exprimait l’association en 2013, il faut se préoccuper de ce problème dès aujourd’hui avant que ne se mettent systèmes propriétaires et incompatibles entre eux ne permettant pas l’échange des données. « Il est ni nécessaire ni souhaitable de limiter la diversité des approches que les entreprises vont développer, explique la GA4GH dans son livre blanc. Le World Wide Web est un écosystème qui autorise et supporte des solutions de type ouverte et à but non lucratif telles que Wikipedia et des solutions de type « walled gardens » telles Facebook et eBay. Les individus doivent pouvoir choisir comment leurs données personnelles sont utilisées ».

La GA4GH s’est donné comme objectif de définir les normes « des systèmes de stockage sécurisés, des contrôles d’accès et de partage de données à de multiples, des outils de traitement qui supportent les principaux équipements de séquençage, une architecture informatique et des API supportant les services et Apps innovantes ». Parallèlement au Web, les travaux liés à cet Internet de l’ADN s’inspire de ceux réalisés dans le domaine du big data. Par exemple, l’API baptisée Genomics API a été développée sur le projet Avro d’Apache – qui fait partie du projet hadoop – dont l’objectif est de fournit un format compact d’échange des données binaires pour la sérialisation. Avro utilise JSON, le format de données textuelles dérivé de la notation des objets du langage JavaScript, pour définir un schéma sans langage spécifié qui assure l’interopérabilité des langages.

Sur le plan technique, il parait difficile d’envisager une solution qui centraliserait les données existantes ce qui imposerait une solution de type peer-to-peer qui permet de travailler sur des données disséminées sur de très nombreux systèmes. Parmi les idées qui sont avancées, la possibilité pour les chercheurs de générer une requête sur les systèmes existants en fonction de niveau d’accréditation. Plutôt que de centraliser les données, ce qui poserait des problèmes techniques et éthiques, afin de générer des requêtes sur une grande base de données ce sont les requêtes qui sont poussées vers les données. Parmi les projets lancés par la GA4GH, on peut aussi citer le développement d’un moteur de recherche ad hoc baptisé Beacon. Pour concevoir ce moteur spécialisé, les développeurs se sont appuyés sur la vingtaine de bases de données de génomes publiques. C’est donc tout un champ de recherches qui s’est ouvert aux confins des plusieurs disciplines et dont les applications sont très prometteuses.

Plus de 3 milliards de paires de bases
L’acide désoxyribonucléique (ADN) est une molécule, présente dans toutes les cellules vivantes, qui renferme l’ensemble des informations nécessaires au développement et au fonctionnement d’un organisme. C’est aussi le support de l’hérédité car il est transmis lors de la reproduction, de manière intégrale ou non. Il porte donc l’information génétique (génotype) et constitue le génome des êtres vivants.
La structure standard de l’ADN est une double-hélice droite, composée de deux brins complémentaires. Chaque brin d’ADN est constitué d’un enchaînement de nucléotides, eux-mêmes composés de bases azotées, d’oses (désoxyribose) et de groupes phosphate. On trouve quatre nucléotides différents dans l’ADN, notés A, G, C et T, du nom des bases correspondantes. Le génotype est inscrit dans l’ordre dans lequel s’enchaînent les quatre nucléotides. Ces nucléotides se regroupent par paires spéciales :
– A avec T ;
– T avec A ;
– C avec G ;
– G avec C.
Aucune autre paire n’est possible (sauf dans le cas de mutations génétiques).
(Source : Wikipedia)

 

___________
[1]
ADN: Année Zéro
[2] Internet of DNA : A global network of millions of genomes could be medicine’s next great advance.
[3] Le World Wide Web Consortium, (W3C), est un organisme de normalisation à but non lucratif, fondé en octobre 1994 chargé de promouvoir la compatibilité des technologies du World Wide Web telles que HTML, XHTML, XML, RDF, SPARQL, CSS, XSL, PNG, SVG et SOAP. Fonctionnant comme un consortium international, il regroupe au 26 février 2013, 383 entreprises partenaires.