Dans un monde numérique où les flux de données ne cessent de croître, la réduction de ces données devient une problématique majeure pour les organisations. Déduplication et compression des données sont bien plus que de simples commodités. Elles constituent un avantage concurrentiel, influant sur les coûts de stockage, l’efficacité énergétique et l’optimisation de la restauration en cas d’attaques majeures.

Le défi de la réduction des données est un problème croissant pour les organisations aujourd’hui. Avec la transformation numérique en toile de fond, la quantité d’informations que nous stockons continue de croître rapidement et il est devenu de plus en plus difficile de gérer les données dont nous avons réellement besoin. Cette situation peut entraîner de nombreux problèmes de stockage, comme l’impossibilité de localiser des éléments importants, la surcharge de nos systèmes par des informations redondantes, ou encore le temps associé aux mouvements de données.

La réduction des données se présente comme une solution indispensable à la vue des énormes flux de données que l’on rencontre dans certains secteurs aujourd’hui. Tout simplement, celle-ci maximise la capacité de votre stockage en ayant la possibilité d’importer autant de données que possible dans un stockage physique. Seulement, la déduplication et la compression des données, les deux techniques principales, ne doivent pas être prises pour de simples commodités.

Deux technologies complémentaires

Au cours des vingt années qui se sont écoulées depuis que Data Domain a introduit la déduplication dans les datacenters, cette dernière et sa grande sœur, la compression, sont devenues monnaie courante dans toute une gamme de solutions de stockage. Malheureusement, cela a conduit de nombreux utilisateurs à considérer ces techniques de réduction des données, comme une simple case à cocher, comme si toutes étaient égales, alors que ce n’est pas le cas.

À la base, la compression des données est une technique qui échange de la puissance de calcul contre de la capacité de stockage. Lorsqu’un architecte de stockage peut échanger un peu de calcul contre une augmentation significative de la capacité effective, c’est une technique précieuse. Quant à la déduplication, elle reconnaît les blocs de données identiques dans un ensemble de données et, grâce à une utilisation intelligente des pointeurs de métadonnées, ne stocke qu’une seule copie de chaque bloc de données. Mais aujourd’hui, toutes les techniques de compression et de déduplication ne se valent pas. Certaines technologies matérielles activent la déduplication et la compression par défaut, d’autres permettent aux administrateurs de les activer, généralement au prix d’un compromis sur les performances. Ces différences et ces compromis peuvent avoir un impact considérable sur la performance, la consommation d’espace, et bien sûr la simplicité opérationnelle.

Suivant les techniques utilisées, et selon le type de données réduites, les gains en matière de réduction peuvent ainsi varier très significativement. Par exemple, en utilisant l’une ou l’autre des techniques, le gain en réduction de données peut varier de 20 à 40%. Rapporté aux coûts globaux du stockage des données et des performances, le choix de technologies de compression et de déduplication de pointe peut ainsi devenir un enjeu stratégique pour les entreprises. Les technologies utilisées peuvent également faire varier la vitesse de restauration, ce qui est aujourd’hui un atout crucial face à l’essor des menaces de type ransomware. La restauration de quelques applications ne pose généralement pas de problème, des contraintes fortes se posent lorsqu’une restauration massive est nécessaire en cas d’attaque majeure. Dans ce cas, le type de support utilisé pour stocker les sauvegardes fait une grande différence. Les disques durs mécaniques peuvent souffrir dans le contexte d’une réhydratation de données dédupliquées en comparaison des disques flash. Une autre manière de voir les choses: les systèmes et technologies historiques ont été conçus pour répondre aux exigences des sauvegardes, alors que les technologies (algorithmes, architectures matérielles) plus récentes sont beaucoup plus optimisées pour permettre des restaurations à grande échelle.

La performance en question

Il existe aujourd’hui beaucoup d’aspects très techniques qui permettent d’influencer les performances de la compression et de la déduplication des données. L’idée ici n’est pas de les détailler, mais de donner un aperçu des points qui doivent attirer l’attention quand une solution est choisie. Concernant la compression, Z standard est massivement utilisé dans l’industrie du stockage. Pour autant, cette approche simple peut être largement améliorée en utilisant des techniques complémentaires. Un bon exemple est l’utilisation de technologies dites “data-aware”. Ces approches vont tirer partie de la connaissance des données pour appliquer un algorithme adapté à la nature des données (à l’image de MP3, très efficace pour les enregistrements audio). À ce stade, il est important de préciser que l’ensemble des techniques utilisées doivent garantir une restitution de données sans perte lors de la décompression. On parle de compression “lossless”

Concernant la déduplication, la gestion des métadonnées est un élément important, notamment à l’ère des systèmes distribués. Elles permettent de récupérer simplement les données à partir des données réduites. il faut être attentif à la manière dont ces éléments sont stockés, sécurisés, etc. Par ailleurs, le scope sur lequel cette déduplication est faite est crucial, plus de domaine de déduplication est grand, meilleure sera la réduction obtenue. Enfin, il existe plusieurs approches dont les gains diffèrent grandement: déduplication à bloc fixe, variable, ou encore adaptative.

En somme, ce qui peut paraître aujourd’hui comme une simple fonctionnalité basique des solutions de stockage ne doit absolument plus être négligée. Comme dit plus haut, les performances des méthodes de compression et de déduplication sont aujourd’hui très variables et peuvent avoir un impact considérable directement sur l’activité de l’entreprise. Malgré cette variabilité, la réduction de données dans son ensemble offre des avantages primordiaux pour les entreprises aujourd’hui : coûts de stockage physique, économie d’énergie mais aussi principalement, la maximisation et l’amélioration du stockage et des dépenses associées.
____________________________

Par Bertrand Ounanian, Senior Sales Engineer SEUR de Vast Data

 

À lire également :

« Analytics et ML changent le stockage : ils requièrent un accès rapide à toutes les données »

Sauvegarde full-flash : nouveau paradigme de la protection des données

Vast Data annonce une ambitieuse mise à jour de son VAST OS

Moderniser son infrastructure informatique avec l’hyperconvergence