Entre multicloud, machine learning, cybersécurité et RGPD, les entreprises ne peuvent plus faire abstraction d’une contraignante mais nécessaire gouvernance de la donnée. Un marché en pleine réinvention que Microsoft adresse enfin avec Azure Purview.

« La Data est le nouvel or noir » dit-on. Les entreprises depuis quelques années se recentrent peu à peu sur leurs données et leur valeur. Mais la donnée est, dans la pratique, incomplète, incohérente, répartie, souvent mal sécurisée et de plus en plus soumise à des réglementations diverses (et parfois conflictuelles). Cantonnée il y a encore 10 ans à la gestion de la qualité, la gouvernance de la donnée a épuisé bien des entreprises : projets trop vastes, trop longs, au ROI difficile à quantifier, remettant en cause les silos humains et techniques… Mais aujourd’hui, elle change de visage pour s’adapter aux réalités du multicloud, du RGPD et des besoins multiples engendrés par le décisionnel, le machine learning et l’IA. Les entreprises doivent plus que jamais décloisonner leurs silos de données, cartographier leur patrimoine informationnel qu’il soit structuré ou non, mettre en relation les multiples sources tout en veillant aux contraintes de sécurité et à celles de conformité et d’anonymisation imposées par les régulations européennes et internationales à l’instar du RGPD.

Le grand absent

De ces besoins a émergé une « Gouvernance 2.0 » portée par des outils de « Data Discovery », de « Data Catalog », de « Metadata Management », de « Data Security Management ». Informatica, IBM, Oracle, SAP, Collibra, Talend, Alation, GDE, Alex Solutions, Adaptive, SAS, Trilium, ASG, Tibco, Reltio, EnterWorks, Riversand ou encore des jeunes pouces comme Zeeneo sont des noms fréquemment évoquées par Gartner ou Forrester dans leurs études sur le sujet.

Étrangement, un acteur phare de la Data était jusqu’ici absent de ce marché de la gouvernance de la donnée : Microsoft.

Une plateforme ambitieuse

L’éditeur vient d’annoncer la « public preview » (gratuitement accessible jusqu’à janvier 2021) d’Azure Purview, sa première véritable plateforme cloud de gouvernance de la donnée destinée à découvrir, cataloguer, tracer, gérer, mettre en conformité et protéger la donnée de façon centralisée, d’où que celle-ci provienne et où que celle-ci soit stockée.

L’offre repose principalement sur une plateforme de « data catalog » (dénommée PurView Data Map) permettant d’automatiser la découverte, l’extraction et la classification des données à partir de différentes sources (à commencer par les divers stockages et bases Azure dont Azure Synapse le datawarehouse-datalake nouvelle génération désormais en General Availability mais aussi les espaces AWS S3).

Au cœur de cette plateforme une intelligence à base de règles dynamiques et statiques permet de comprendre la donnée, sa provenance, sa criticité, son niveau de confidentialité, qui y a accès et comment elle peut être déplacée et partagée. Elle permet de définir des règles à appliquer pour que, par exemple, des données personnelles apparaissent systématiquement masquées pour tel ou tel groupe d’utilisateurs. La plateforme est compatible avec les API Apache Atlas.

Azure Purview offre également une interface de recherche avancée pour datascientists (en s’appuyant sur des métadonnées, ou des termes techniques et métiers) et des vues graphiques pour comprendre les relations ou déterminer si les données proviennent de source de confiance.

Enfin, Azure Purview procure une vision centralisée du patrimoine informationnel pour aider les CDO à gouverner efficacement l’usage des données, les accès et les partages.

Bien évidemment, Azure Purview offre des mécanismes d’intégration avancée avec Azure Synapse Analytics, Azure Synapse Studio (un outil de préparation, de transformation et de gestion des données), Azure Machine Learning et Power BI mais l’offre présente déjà plus de 120 connecteurs vers des systèmes tiers.

L’arrivée de Microsoft sur ce marché promet de bousculer les lignes actuelles et annonce déjà une consolidation de ce marché où de nombreux petits acteurs côtoient de grands éditeurs. Elle est surtout le signe que les entreprises ne peuvent plus désormais de gouvernance de la donnée…