Avant Internet, c’est-à-dire pendant les années 70 et 80, les passionnés d’informatique et les chercheurs qui devaient déplacer des fichiers utilisaient le sneaker-net ou « réseau-basket »[1].
Avec l’avènement du Big Data, ce réseau fait son grand retour !
« Demandez à n’importe quelle entreprise du secteur des sciences de la vie, et vous verrez que le problème est bien réel », explique Talli Somekh, PDG de AppSoma, une startup dont la plate-forme d’analyse des données est dédiée à la bio-informatique. « C’est une question de physique. Certains jeux de données sont si volumineux qu’il est tout simplement impossible de les transférer sur le cloud. »
En fait, un nombre croissant d’entreprises parmi les plus importantes et les plus avancées technologiquement déplacent aujourd’hui des systèmes de stockage entiers d’un endroit à l’autre, simplement pour pouvoir partager des données.
Au cours de la première phase, nous avions assisté à l’avènement de technologies logicielles comme Hadoop et NoSQL, qui permettaient de traiter de très grandes quantités de données — une phase qui, bien sûr, est loin d’être terminée.
La deuxième phase a débuté avec la prolifération de capteurs peu onéreux et d’une grande fiabilité, ainsi que d’autres composants chargés de collecter des données produites dans le monde réel. Les applications logicielles conçues pour exploiter les flux vidéo, les formulaires manuscrits et autres « données sombres » (dark data[2]) entrent également dans cette catégorie : sans elles, les données, d’un point de vue pratique, n’existeraient pas.
Mais la demande en systèmes plus performants et dotés de capacités accrues nous pousse dorénavant vers la troisième phase de la révolution du Big Data qui se focalisera sur les infrastructures. En d’autres termes, nous avons besoin de nouveaux équipements matériels, de logiciels, de réseaux et de datacenters pour gérer les quantités de données astronomiques générées et analysées par les deux premières innovations. Les datacenters HyperScale, les réseaux définis par logiciel (SDN — Software Defined Networking) et les nouvelles technologies de stockage représentent les étapes initiales vers ce qui s’annonce comme un formidable cycle d’innovation.
Historiquement, les idées nouvelles doivent s’appuyer sur des infrastructures nouvelles. Si les automobiles ont radicalement changé notre vie, elles ont nécessité la construction de routes, d’autoroutes et de stations-service. Inventés quelques décennies plus tôt, les trottoirs ont soudain connu un nouveau développement. Les ampoules électriques ont transformé les nuits en jours, et la demande croissante en solutions d’éclairage est à l’origine d’investissements et d’innovations grâce auxquels les réseaux électriques ont fini par couvrir l’ensemble de nos pays.
Les avantages potentiels du Big Data côtoient la nécessité d’accomplir des progrès significatifs sur le plan des infrastructures de stockage et réseau nécessaires pour accompagner son essor. C’est le cas des caméras de sécurité. Dans les aéroports, les responsables de la sécurité commencent à envisager la possibilité de passer au format UltraHD ou 4K. Une telle résolution permet de rechercher facilement des informations précises et détaillées dans les flux vidéos, remplaçant les images noir et blanc granuleuses tout en réduisant les risques de sécurité.
Tout en respectant les données de confidentialité et l’anonymat des personnes, il est également possible d’utiliser des caméras 4K pour analyser le comportement des consommateurs ou la circulation des piétons. Car ce format n’est pas réservé aux téléviseurs XXXL présentés au salon au salon CES de Las Vegas !
Or, la résolution 4K exige un socle particulièrement solide. Une seule minute au format 4K représente environ 5,3 Go ! À Londres par exemple, 7 000 caméras de vidéosurveillance en 4K généreraient chaque jour quelque 52 pétaoctets, soit plusieurs fois le volume de données stockées dans la bibliothèque du Congrès de Washington.
Big Data au service des sciences
À Genève, des équipes de physiciens du CERN ont mis au point un système de distribution qui associe étroitement stockage flash et mise en réseau pour permettre à des centres de recherche du monde entier d’accéder aux quelque 170 pétaoctets de données générés par le grand collisionneur de hadrons (LHC). Ces systèmes informatiques ont la possibilité de transférer des données de disque en disque à l’intérieur d’un réseau étendu à un débit pouvant atteindre 100 Gbits/s (100G), ce qui permet aux physiciens des particules d’analyser les données à 73 Go/s. Ces informations ouvrent la voie à la découverte de nouvelles forces et particules qui nous aident à mieux comprendre la formation de l’univers.
Les sciences de la vie pourraient représenter le plus important de tous les défis. Un seul génome humain représente environ 200 Go de stockage brut. Le séquençage d’un million de génomes humains nécessiterait par conséquent environ 200 pétaoctets. En 2014, Facebook téléchargeait 600 téraoctets par jour. À ce rythme, il faudrait une année à Facebook — propriétaire de l’une des plus puissantes infrastructures de données au monde — pour charger un million de génomes humains !
« Et il ne s’agit là que des données brutes générées par le séquenceur de génomes ! », explique Talli Somekh. Une analyse approfondie multiplie les exigences de calcul, obligeant les chercheurs à atteindre un certain équilibre entre traitement local et sur le cloud.
Big Data et agriculture : La structure génétique du blé est plus variée que celles des humains
Les solutions de stockage traditionnelles assurent de solides performances, qui sont souvent doublées de coûts d’infrastructure plus élevés et d’une complexité que certaines entreprises résolvent en optant pour les environnements virtuels. La virtualisation a considérablement augmenté le retour sur investissement et l’utilisation d’infrastructures à base de serveur, mais même dans les activités cloud les plus efficaces comme Google, de 20 à 50 % des cycles de calcul passent en pertes et profits pour la simple raison que le processeur ne peut accéder aux données assez rapidement. C’est ce qu’on appelle le « temps de latence du système ». Et dans la plupart des datacenters actuels, ce temps de latence peut être encore plus élevé, ce qui peut coûter aux entreprises des millions, voire des milliards de dollars par an à cause du ralentissement des transactions.
Les disques durs, derniers éléments mécaniques présents dans les salles de serveurs avec les systèmes de climatisation, ont vu le jour en 1956, quelques mois seulement après l’apparition du premier ordinateur sans tube à vide. Les technologies et les architectures de datacenter traditionnelles ne sont tout simplement pas conçues pour le volume et la vélocité qui caractérisent les nouveaux défis soulevés par le Big Data.
Tenter de relever le défi avec des technologies de disque dur peut également se solder par un désastre financier et environnemental. Selon les calculs du Conseil de défense des ressources naturelles (NRDC — Natural Resources Defense Council), les centres de données en service aux États-Unis ont consommé 91 milliards de kilowatts-heure en 2013, soit deux fois plus que les foyers new-yorkais ! Faute de mesures appropriées, la barre des 140 milliards de kilowattheures sera bientôt atteinte.
La technologie « flash » utilisée dans les SSD réduit de plus de 90 % la superficie occupée par le matériel, tout en multipliant par 20 le débit en entrée-sortie.
Le Big Data est à n’en pas douter l’un des concepts magiques de notre époque. Sa capacité à nous fournir des données plus pertinentes et permettre de mieux comprendre le monde qui nous entoure augmente notre aptitude à créer une société meilleure. Mais d’énormes efforts vont également être indispensables en coulisses pour créer des solutions permettant de manier ces mines de Big Data sous une forme à la fois compacte, rentable, fiable et respectueuse de l’environnement.
[1] Méthode de transfert de fichier sans réseau informatique, qui fonctionne par exemple par l’intermédiaire de clés USB ou de disques durs externes
[2] Définies par Gartner comme « les ressources en informations que les entreprises collectent, traitent et stockent au cours de leurs activités courantes, mais qu’elles n’utilisent généralement pas à d’autres fins » Ontrack
__________
Christophe Vaissade est Directeur Europe du Sud, SanDisk