Le volume des données que les hommes créent chaque jour n’en finit pas de croître et de plus en plus d’activité humaine s’appuie sur une analyse de plus en plus fine des données disponibles. Le seul problème est que les médias sur lesquels nous stockons ces données n’ont jamais été aussi fragiles. C’est là le paradoxe d’une société qui a fait le pari du tout numérique.

19 mémoire 2
La durée de vie moyenne d’une inscription sur la pierre est de 10 000 ans. Sur le parchemin de 1000 ans. Sur une pellicule photo de 100 ans. Sur le vinyle de 50 ans. Avec l’informatique, notre mémoire se heurte à une fragilité que l’on n’avait pas vraiment prévue. D’ailleurs des technologies ont déjà disparue. Les pionniers de l’informatique personnelle qui ont sauvegardé des données personnelles sur des disquettes 5,25 ou 3,5 pouces sont confrontés à ce problème. Sans parler des problèmes de formats de fichiers et des logiciels qui permettent de lire ces fichiers.

19 mémoire 1

Le pari du tout numérique part du principe que les informations seront conservées peut-être pas indéfiniment, mais très longtemps. Est-ce si sûr ? Avec en plus une sorte de perte du réel dans les esprits. L’Internet et le cloud sont des termes trompeurs et distillent l’idée d’espace purement virtuels, éthérés et immatériels alors qu’ils reposent bien sur des data centers, des millions de serveurs, de routeurs, de câbles… Imagine-t-on une seule seconde l’ensemble des dispositifs matériels qui sont sollicités par ma moindre requête sur un moteur de recherche sur Internet. Sommes-nous condamnés à copier et sans cesse recopier, répliquer les données afin de garantir leur pérennité, leur intégrité et leur sécurité ?

19 mémoire 4Le CD-ROM et ses dérivés que l’on pensait inusable et inaltérable est en fait un support fragile et instable dont la durée de vie est très courte. Avec l’idée qu’il ne s’use pas car il est lu par un rayon laser. Les bibliothèques et les centres d’archivages se sont rués sur ce support remplaçant un peu vite les bandes magnétiques considérés comme d’une autre époque.

Dès 2003, les chercheurs du Laboratoire National de Métrologie et d’Essais de Paris (LNE) ont tiré le signal d’alarme. Jacques Perdereau chercheur au LNE, raconte la grande surprise du laboratoire en découvrant que les gravures sont altérées assez rapidement contrairement à ce que les fabricants avaient prévu et annoncé. Des échantillonnages et des tests de chocs thermiques et hygrométriques ont montré que 15 % des CD-ROM avaient une durée de vie moyenne comprise entre 1 et 5 ans et 85 % de 20 ans et plus. D’où la conclusion que les CD-ROM ne sont clairement pas le support adapté à l’archivage.

19 mémoire 5Qu’en est-il des disques magnétiques dont Frank Laloë, directeur de recherche émérite au CNRS, rappelle que, toutes proportions gardées, la tête de lecture est l’équivalent d’un concorde qui volerait à un mètre de la surface du sol et que le moindre grain de poussière peut causer le crash de la tête et la perte des données. Les disques sont sensibles aux chocs et les constructeurs ne les garantissent pas en général plus de 5 ans.

La mémoire flash ? Ce support relativement récent offre l’inconvénient rappelle Jacques Perdereau qu’il est limité en nombre de lecture, 100 000 en moyenne qui sont rapidement atteints dans le cadre du fonctionnement d’un système informatique. Ces supports offrent une durée de vie de conservation de 5, 10, voire 20 ans. Donc ce n’est pas du très long terme. En tous cas, totalement insuffisant pour traiter certains problèmes comme par exemple le suivi des déchets nucléaires.

Et pourtant c’est la question que doit traiter l’ANDRA (Agence National pour les Déchets Radio-Actifs) qui gère des produits dont la durée de vie, et donc de nocivité, s’exprime en centaine d’années. Imagine-t-on être confrontés à un tel phénomène en découvrant les pyramides d’Egypte ou les temples Mayas ? Chaque fût qui dans lequel sont scellés des déchets radio-actifs sont référencés par des codes barre et enfouis dans des grandes cuves en béton. Mais comment archiver ces données ? Quel support l’ANDRA a-t-elle choisi ? Ô surprise, les bons vieux encre et papiers. Pas n’importe lesquels évidemment, des papiers sont des papiers permanents sans additifs de blanchiment et les encres sont des encres acryliques stables sur une très longue durée. Par ailleurs, l’ANDRA réfléchit à enfouir des informations sur des supports encore à définir dans les matières issues des très grandes profondeurs, qui sont excavées et qui ont des propriétés spécifiques.

19 mémoire 6

L’autre exemple est celui du collisionneur de particules du CERN. L’analyse des collisions des particules que réalise régulièrement le LHC crée des volumes considérables de données et ce malgré les filtres qui sont appliqués et qui sélectionnent les données les plus utiles. Frans Meijers, chercheur au CERN explique que ces collisions génèrent 40 millions de photos par seconde soit l’équivalent de 10 000 DVD. Or il n’est pas possible de les analyser toutes tout de suite. Dans un premier temps, elles sont stockées sur des milliers de disques durs rangées dans des baies informatiques.

Mais elles sont ensuite archivées sur des bandes magnétiques gérées dans des systèmes de stockage robotisés. Frédéric Hemmer, chef du département des technologies de l’information du CERN, qui précise qu’actuellement le système comprend 50 000 bandes magnétiques, rappelle les avantages ce type de support : « il ne consomme pas d’électricité lorsqu’il n’est pas utilisé, il est fiable (environ mille fois plus que les disques magnétiques) et il n’est pas sensible au choc ». La densité du stockage des bandes ? Elle s’est considérablement améliorée, dans les labos, les fabricants ont montré des capacités de 50 To par cartouche. De quoi voir venir.

19 mémoire 8Et pourtant, malgré ces progrès, allons-nous être condamnés à ne plus pouvoir stocker les données que nous produisons ? Différentes pistes sont à l’étude. Hitachi en partenariat avec l’université de Kyoto effectue des recherches sur le quartz. « Les recherches ont commencé en 1996 lorsqu’on a découvert que l’on pouvait modifier la structure de ce métal de roche », raconte Yasuhiko Shimotsuma, professeur en chimie moléculaire.

Les avantages apport par ce cristal de roche est qu’il est résistant à la chaleur, à la lumière, aux ondes radio, aux acides… à presque tout. Par ailleurs, les données sont enregistrées dans la masse donc à l’abri des rayures et aux poussières. Et elles sont visibles avec un simple microscope optique. C’est le support d’archivage le plus stable qu’on ait jamais développé. Mais les capacités de stockage reste limité et coûtent encore très chers.

19 mémoire 9

19 mémoire 92Une autre voie, encore plus prometteuse cette fois est l’ADN. Ce support est minuscule, pas cher, a une durée de vie très longue et ne nécessite aucune énergie. Nick Golman, chercheur à l’European Bioinformatics Institute en Angleterre, travaille sur un projet consistant à transcoder des données informatiques, à base de 0 et de 1 dans le langage du vivant composé des quatre lettres A, C, T et G. IL est ainsi possible d’enregistrer des données sur de l’ADN synthétique que l’on produire chimiquement. Le laboratoire a codé des fichiers textes, photos et vidéo et les a envoyé au laboratoire EMBL d’Heidelberg pour vérifier qu’ils pouvaient être décodés et renvoyés pour comparaison avec les originaux.

L’expérience s’est révélée concluante. « Pour conserver les propriétés de l’ADN, trois paramètres comptent, explique Jügen Zimmermann : il doit est conserver au froid, au sec et à l’abri de la lumière ». Si ces conditions sont réunies, les capacités de conservation de l’information sont imbattables. On a récemment retrouvé l’ADN d’une espèce de chevaux de plus de 700 000 ans. Et l’ADN a pu être lu et les informations reconstituées. On n’en est encore qu’au stade expérimental car il s’agit là d’un procédé encore complexe et onéreux. Mais il résoudrait le problème du stockage  car il permettrait d’enregistrer toute l’information produite par les hommes dans un volume de 2 m².

Mais il faut résoudre encore un autre problème, le fait que l’information produite sur Internet est mouvante et éphémère, autrement dit qu’elle change tout le temps. Tous ces supports ne sont pas vraiment adaptés. Une tâche ardue lorsque l’on sait que le nombre de sites internet a dépassé le milliard en 2014. Ainsi, dans 100 ans, un chercher pourrait-il étudier les débuts du Web par exemple. Un comble puisque le Web s’était donné comme objectif de stocker la mémoire de l’Humanité ?

L’INA s’attelle à ce problème en stockant régulièrement quelque 10 000 sites internet grâce à des robots. D’un flux, l’institut enregistre une série d’instantanés censés tracer l’évolution de ces sites avec tous les changements qui interviennent : nouvelles photos, commentaires, liens… Ce sont ainsi 25 milliards de fichiers dont 7 milliards de pages Web qui ont été archivés à ce jour sur des bandes magnétiques.

19 mémoire 3
Un autre projet exemplaire est le Venise Time Machine (voir vidéo ci-dessous) qui entend analyser les 80 km de linéaires d’archi19 mémoire 93ves de l’Etat de Venise. Lancé par les Archives d’Etat et l’Ecole Polytechnique Fédérale de Lausanne, ce projet passe par l’inévitable numérisation de l’ensemble des documents. On libère ainsi les informations de leur support papier qui n’est pas du tout adaptée pour une analyse détaillée, commente Frédéric Kaplan, professeur à l’EPFL. Grâce à l’utilisation de diverses algorithmes, il est ainsi possible de découvrir les diverses interconnexions entre les personnes et de constituer des graphes permettant de reconstituer l’histoire de Venise dans ses moindres détails et de faire émerger des idées qui auraient été inaccessibles sinon.

19 mémoire 94

Nous sommes devenus une société du court terme. On s’est félicité des accords de la COP21 pour limiter la hausse de la température moyenne des océans de 2 degrés à horizon 2100. C’est dans 85 ans autrement dit demain. Alors que sera le monde dans mille ans ? Que seront devenues toutes données scientifiques, médicales, administratives… sur lesquelles nos sociétés actuelles sont entièrement construites. Ne faudrait-il pas lancer une initiative comparable au développement durable pour la pérennisation des données et leur transmission aux générations futures ?

 

__________

Article rédigé à partir de l’excellent documentaire « Nos ordinateurs ont-ils la mémoire courte » diffusé sur ARTE le vendredi 11 novembre 2015.