Organiser les données n’est pas une mince affaire. Selon le cabinet d’analyse IDC, la taille de l’univers numérique double tous les deux ans. D’après les prévisions actuelles, elle devrait atteindre 44 000 milliards de gigaoctets en 20201. Et les toutes dernières données d’IDC évoquent le chiffre de 180 000 milliards de gigaoctets en 2022.

Dans la plupart des organisations, le volume des données non structurées augmente pour atteindre des niveaux sans précédent. Dans une récente étude d’ESG (Enterprise Strategy Group), 47 pour cent des personnes interrogées indiquaient que les données non structurées consommaient plus de la moitié de leur capacité de stockage. De plus, 46 pour cent précisaient que le volume de ces données augmentait de plus de 20 pour cent par an2.

Le choix de l’emplacement de stockage des données obéit souvent à des raisons pratiques. Brendan Witcher, analyste chez Forrester Research3, constate qu’il est fréquent, dans une organisation moyenne, que les données soient réparties entre 15 à 30 systèmes différents. Et encore ne faisait-il référence qu’aux seules données client.

Que veut dire tout cela ? Cela signifie que les fichiers sont dispersés ; les entreprises stockent les données structurées et non structurées sur de multiples plates-formes, systèmes de fichiers et périphériques de stockage. La localisation des fichiers se révèle donc difficile. Les recherches font perdre du temps, la productivité souffre et la situation empire à mesure que le volume des données augmente.

Les silos de fichiers créent un problème de gestion des données que les métadonnées peuvent résoudre. Avec les métadonnées, vous pouvez en effet transformer ces silos en ressource précieuse et à valeur ajoutée pour l’entreprise.

Marquage logique des données

Les métadonnées sont des données qui fournissent des informations sur d’autres données. Par exemple, l’auteur, la date de création, la taille du fichier, l’emplacement, le client, les projets associés, la date d’expiration et la date de modification sont des métadonnées car ces informations décrivent et enrichissent le contexte d’autres données.

Les métadonnées peuvent être créées manuellement ou générées par une application. Dès leur création, elles sont reliées à un fichier par un traitement appelé « tagging ». La façon dont vous les utiliserez dépendra de vos besoins. Mais si vous marquez vos données de manière logique, vous pourrez analyser tous vos fichiers et rechercher les « tags » répondant à des critères précis.

Une vue unifiée des données

Les applications, les analyses computationnelles, les capteurs, les caméras, les séquenceurs de génome et de nombreux autres types de traitements et d’appareils intelligents génèrent des données. Dans le cadre d’un workflow technique type, des données brutes sont générées puis ingérées à partir d’une ou de plusieurs sources. Elles passent ensuite par plusieurs étapes de traitement faisant souvent intervenir divers systèmes. Au terme du traitement, on obtient un produit. En définitive, les éléments d’un projet sont dispersés entre plusieurs systèmes de stockage.

Comment assurer le suivi de tous les fichiers associés à un projet ? Comment déterminer la capacité de stockage consommée par un projet ? Il est difficile de répondre à ces questions lorsque les fichiers sont répartis entre plusieurs systèmes de stockage.

Mais si vous marquez les fichiers avec des métadonnées pertinentes, vous disposerez des informations nécessaires pour obtenir ces réponses. Vous pouvez analyser les métadonnées de tous vos fichiers et les organiser de manière à apporter les éclairages nécessaires. Et vous pouvez ensuite utiliser les informations pour mieux gérer vos fichiers et votre stockage.

Mais pour commencer, vous avez besoin d’une vue unifiée de vos données. Il vous faut une visibilité sur l’ensemble de votre infrastructure de stockage, à partir d’une vue unique permettant d’assurer la gestion, indépendamment des différences au niveau des plates-formes ou des structures de fichiers. Vous savez ainsi que vous indexez tous les fichiers de votre entreprise.

Stocker les données au meilleur endroit

Près de la moitié des organisations étudiées par ESG indiquaient que le volume des données non structurées augmente de plus de 20 pour cent par an ; si cette croissance s’établit à 27 pour cent pour une organisation donnée, l’empreinte de stockage de celle-ci doublera en trois ans.

En général, les organisations mettent en œuvre une infrastructure de stockage en se fondant sur leurs besoins initiaux. Trop souvent, les données sont stockées en faisant au plus simple, sans réflexion sur le coût ou la croissance future. Cette démarche peut s’avérer très onéreuse et engendrer des problèmes de financement. Dans l’enquête d’ESG, près de 9 personnes interrogées sur 10 s’attendaient à des difficultés de financement des investissements nécessaires pour accompagner la croissance des données non structurées4.

Une mauvaise planification du stockage engendre des dépenses excessives dans l’infrastructure. Si vous ignorez où se trouvent vos données ou si vous ne gérez pas celles-ci efficacement, il est tentant de céder à la facilité en installant un système de stockage hautes performances surdimensionné par rapport à vos besoins. De plus, une telle infrastructure est souvent mise à rude épreuve lorsqu’il faut stocker des pétaoctets de données, n’ayant pas été conçue pour être  sauvegardée et gérer un environnement de stockage à cette échelle.

Les données devraient être stockées là où elles peuvent apporter le plus de valeur à votre organisation. Dans la recherche scientifique, par exemple, les performances sont importantes. Les solutions de calcul hautes performances (HPC) exigent que les données puissent être analysées très rapidement. Et les performances du stockage doivent suivre. Les fichiers actifs devraient donc résider sur un disque hautes performances ou un dispositif de stockage flash. Et les données inactives devraient être stockées sur un média moins cher pour faire baisser les coûts de stockage.

Le stockage multiniveau est conçu pour optimiser les performances et le coût. Dans une configuration multiniveau, la capacité de stockage totale est répartie entre des médias différents. Les fichiers actifs sont stockés sur un disque hautes performances ou un dispositif de stockage flash, et la capacité restante dévolue aux autres fichiers est fournie par des technologies et des médias moins onéreux comme le Cloud, le stockage objets, le disque ou la bande.

Les métadonnées jouent un rôle important dans un environnement multiniveau. Les fichiers sont transférés entre les niveaux sur la base des métadonnées des systèmes et des règles définies par l’utilisateur. Tant que les fichiers restent visibles, des recherches portant sur les métadonnées permettront d’identifier les fichiers nécessaires, où qu’ils soient stockés dans l’infrastructure. Cela aura pour effet de réduire les coûts de stockage au minimum et d’améliorer la productivité.

Visualisation des métadonnées

Si vous avez marqué vos fichiers avec soin, vous pouvez maintenant organiser vos données en recourant à la visualisation des métadonnées. Cela implique d’analyser les métadonnées des fichiers et de visualiser les résultats de ce processus. Les données peuvent être présentées dans des diagrammes ou des graphiques à des fins d’analyse ou pour prendre des décisions avisées en matière de stockage. Vous avez la possibilité de gérer les fichiers sur la base de regroupements logiques plutôt que sur de seuls regroupements physiques. Vous pouvez identifier l’emplacement de stockage de vastes ensembles de fichiers, mais aussi connaître la capacité de stockage consommée par chaque projet. Et lorsque vous avez terminé un projet, vous pouvez localiser tous les fichiers associés et les archiver sur bande ou dans le Cloud, libérant ainsi un espace de stockage plus onéreux.

___________
Gabriel Chaher est Vice-Président Global Market Development chez Quantum

Sources :

1 Reinsel, David ; Gantz, John ; Rydning, John. Data Age 2025: The Evolution of Data to Life-Critical. Don’t Focus on Big Data; Focus on the Data That’s Big. Livre blanc IDC parrainé par Seagate. Avril 2017.

2 Survey on Unstructured Data and its Implications. Enterprise Strategy Group, 2017.

3 Nicastro, Dom. « Let’s Get Personal: Content Experts Share Their Advice. » CMSWire.com. Publié le 2 mars 2016. Consulté le 30 octobre 2017. https://www.cmswire.com/digital-experience/lets-get-personal-content-experts-share-their-advice/

4 Survey on Unstructured Data and its Implications. Enterprise Strategy Group, 2017.