Dans un monde où la variété et le volume des données explosent, les architectures permettant le Data Mesh représentent l’avenir des nouveaux modes de consommation des données. Mais comment les entreprises peuvent-elles se préparer à le mettre en œuvre et à l’adopter ?

Aujourd’hui, chaque organisation se doit de piloter de plus en plus son activité par les données. L’explosion du volume d’informations apporte un fort potentiel d’exploitation, mais constitue une arme à double tranchant pour nombre d’entreprises. En effet, elle induit une plus grande complexité, en particulier en raison des défis liés à l’agrégation de données provenant de différentes sources, mais liés à la gouvernance et à la sécurisation de celles-ci.

Des données de plus en plus dispersées et en croissance exponentielle

Ce n’est pas seulement le volume de données qui a augmenté au fil des années. C’est aussi leur variété, avec la multiplication incessante des data lakes, leur duplication dans ces derniers, les applications et d’autres sources, le tout dans différents formats et protocoles. Certaines de ces sources sont d’une taille considérable : les clics, l’Internet des objets (IoT) ou encore les flux de données générées en continu par les utilisateurs sont difficiles à maîtriser.

Ces données sont organisées dans de multiples entrepôts et applications, tantôt sur site, tantôt dans le cloud, ou dans des environnements multicloud. Face à différents besoins métier, le stockage des données analytiques est souvent éparpillé entre diverses plateformes, au contenu similaire ou redondant dans bien des cas.

Cela se traduit par l’exécution de différents processus analytiques sur des systèmes distincts, ce qui aboutit typiquement à la création de silos. La répétition de l’extraction, du nettoyage et de la transformation des mêmes données dans chaque silo cause des retards, des incohérences et des goulets d’étranglement pour les différentes équipes. En conséquence, les objectifs de flux en temps réel, de démocratisation des données et d’évolutivité ne sont tout simplement pas atteints.

Les architectures de données de demain

Le data mesh s’affirme comme un nouvel espoir pour les entreprises cherchant à comprendre et à utiliser véritablement leurs données. Il a pour but d’éliminer les goulets d’étranglement et de rapprocher les prises de décisions concernant les données de ceux qui les comprennent. Il propose un mode d’organisation basé sur des infrastructures unifiées permettant aux domaines de créer et de partager des produits de données, tout en appliquant les normes en matière d’interopérabilité, de qualité, de gouvernance et de sécurité.

Le cœur de cette philosophie est un modèle distribué dans lequel chaque unité de l’entreprise – un « domaine » – a ses propres responsables de produits de données. Cela permet à l’entreprise d’accroître la vitesse d’analyse et de passer à l’échelle. En effet, les domaines savent mieux comment utiliser leurs propres données, ce qui réduit le nombre d’itérations jusqu’aux résultats et améliore la qualité de ceux-ci.

Au lieu d’être un produit secondaire, les données deviennent un produit autonome décentralisé, pouvant être consommé par quiconque dans l’entreprise. Cela a également pour effet d’éliminer le goulet d’étranglement que constitue l’infrastructure centralisée et d’apporter aux domaines l’autonomie nécessaire pour employer les outils les mieux adaptés à leurs besoins.

Sans aucun doute, les architectures permettant le data mesh représentent l’avenir des nouveaux modes de consommation des données. Mais comment les entreprises peuvent-elles se préparer à le mettre en œuvre et à l’adopter ?

« Mesh » pas peur avec la virtualisation des données

Une fois qu’une entreprise a décidé que l’approche data mesh était la voie à suivre, ses responsables informatiques doivent alors déterminer quelles organisations et technologies peuvent contribuer à sa mise en œuvre. La virtualisation des données et ses outils de gouvernance sont les parfaits candidats à cet égard, car ils ont été spécifiquement conçus pour superposer à des systèmes distribués multiples une couche de données unifiée, administrée et sécurisée.

Il s’agit pour ce faire de créer des modèles virtuels par-dessus toute source de données. Ces modèles logiques appliquent une couche sémantique, exposant l’ensemble des données sous une forme métier intelligible, tout en affranchissant leurs consommateurs de la complexité liée à l’emplacement et au format des sources. La simplicité d’utilisation et la réplication minimale permises par la virtualisation accélèrent nettement la création de produits de données par rapport aux solutions classiques.

Les solutions les plus avancées sur le marché permettent l’accès aux produits de données via différentes méthodes (SQL, REST, OData, GraphQL, MDX…) sans obliger le développeur à écrire du code. Elles permettent aussi la mise en œuvre de règles de gouvernance et de sécurité. Les produits de données peuvent aussi être automatiquement exposés dans un catalogue global d’entreprise, faisant office de « place de marché » pour cette dernière où ils peuvent être introspectés et découverts par les utilisateurs.

La virtualisation des données répond également aux impératifs de gouvernance. Non seulement elle réduit la duplication des données et offre un unique point d’accès, mais sa couche virtuelle permet aux entreprises d’automatiser l’application de règles de sécurité communes. Par exemple, les responsables peuvent masquer les indications de salaire dans tous les produits de données sauf si l’utilisateur exerce un certain rôle dans les RH ou se situe à un certain niveau dans la hiérarchie.

Indubitablement, le data mesh apporte une nouvelle approche sans équivalent à l’appui des systèmes décisionnels et analytiques. L’accent mis sur la diffusion, la gestion et l’utilisation des données, afin de réduire les silos au minimum, d’éviter la redondance et d’assurer la cohérence, permettra d’éliminer les goulots d’étranglement qui entravent les entreprises depuis des décennies. En mettant en œuvre de telles architectures s’appuyant sur des technologies modernes telles que la virtualisation des données, les entreprises pourront franchir un nouveau pas et exploiter véritablement tout le potentiel de leurs données.
___________________

Par Vincent Fages-Gouyou, EMEA Product Management Director chez Denodo

 


À lire également :

12 tendances Tech à évaluer pour accélérer

10 tendances technologiques vues de Chine…

Centraliser : l’alternative aux silos de données

Métiers & Data : de la difficulté des métiers à s’approprier les données

La gouvernance de la data : un enjeu majeur