À l’occasion de sa conférence Re:Invent, AWS a inauguré deux nouveaux services « data » : Datazone, dédié à la gouvernance, et Clean Rooms pour partager des données sensibles tout en les protégeant.
Les hyperscalers ne cessent d’enrichir leurs services de données non seulement en multipliant les bases serverless et les outils d’analyse mais aussi en y ajoutant toutes sortes de briques d’intégration et de gouvernance. Ce faisant, ils font tous de leurs clouds des data clouds…
Et AWS ne fait pas exception à la règle. D’ailleurs, les principales annonces de ce Re:Invent 2022 sont très orientées sur la data que ce soit pour en optimiser les fondations (avec les nouvelles couches réseau optimisées et les nouvelles instances survitaminées), pour en fluidifier les analyses (avec les intégrations RedShit « zero-ETL ») ou pour mieux en gouverner le cycle de vie et les usages.
Dans cette perspective, deux nouveautés doivent attirer votre attention : Amazon DataZone et Clean Rooms…
DataZone : les bonnes données pour prendre les bonnes décisions
Avec Amazon DataZone, AWS veut trouver une solution à un problème de plus en plus prégnant. D’un côté les data-scientists produisent des données. De l’autre des utilisateurs métiers utilisent les données pour prendre des décisions avisées. Mais les seconds ont souvent bien du mal à trouver les productions des premiers d’autant que des contrôles d’accès trop généraux ou des politiques de gouvernance trop strictes peuvent leur en empêcher. Alors, comment rendre la donnée découvrable tout en y apposant le bon niveau de sécurité et de gouvernance, avec une granularité qui n’impacte ni les métiers ni la sécurité ?
« Pour libérer toute la puissance et la valeur des données, nous devons permettre aux personnes et aux applications concernées de trouver, d’accéder et de partager facilement les bonnes données lorsqu’elles en ont besoin, tout en assurant leur sécurité » explique Adam Selipsky, CEO d’AWS dans son Keynote. « DataZone vous permet de libérer les données dans toute l’organisation en toute sécurité en facilitant la gestion et le contrôle de l’accès aux données par les administrateurs et les responsables des données. Le service facilite la tâche des data-engineers, data-scientists, product managers, data-analysts et autres utilisateurs métiers dans la découverte, l’utilisation et la collaboration autour de ces données afin de générer des idées et de la valeur… »
Amazon DataZone est un service de gestion de données conçu pour aider de larges groupes d’utilisateurs à trouver, organiser et partager facilement des données au sein de leur organisation, mais aussi simplifier l’usage des outils d’analyse d’AWS, le tout en veillant à ce que ces données soient gérées de manière appropriée.
Concrètement, les producteurs de données via le portail web d’Amazon DataZone vont configurer leur propre catalogue de données d’entreprise et définir leur taxonomie de données, en configurant des politiques de gouvernance et en se connectant à une gamme de services AWS (par exemple, Amazon S3 et Amazon Redshift), de solutions partenaires (par exemple, Salesforce et ServiceNow) et de systèmes « on premises ». Amazon DataZone élimine la nécessité de maintenir manuellement à jour le catalogue en utilisant une IA pour collecter et suggérer des métadonnées. Cette IA s’entraîne automatiquement sur la taxonomie et les préférences de l’entreprise afin de s’améliorer au fil du temps.
Une fois le catalogue configuré, les consommateurs de données peuvent utiliser le portail web Amazon DataZone pour rechercher et découvrir des actifs de données, examiner les métadonnées pour en saisir les contextes et demander l’accès à ces jeux de données. Dès qu’il est prêt à analyser les données, l’utilisateur crée alors un projet de données Amazon DataZone : il s’agit d’un espace partagé dans le portail web où les utilisateurs peuvent extraire différents ensembles de données, partager l’accès avec des collègues et collaborer à l’analyse.
Amazon DataZone est bien évidemment nativement intégré aux services d’analyse AWS, tels que Amazon Redshift, Amazon Athena et Amazon QuickSight.
Amazon DataZone fournit également des API pour s’intégrer à des solutions personnalisées ou à des partenaires comme DataBricks, Snowflake et Tableau, afin que les clients puissent facilement publier, rechercher et travailler avec toutes leurs ressources de données.
Clean Rooms pour analyser en toute sécurité les données sensibles
Que ce soit pour optimiser des campagnes publicitaires, faire les bons investissements financiers, ou analyser des données de santé de recherches cliniques, une entreprise est presque toujours amenée à collaborer avec différents partenaires et à croiser leurs données avec les siennes. Toute la difficulté étant de partager des informations utiles sans pour autant dévoiler les données sensibles sous-jacentes. Et pour lever cette difficulté, AWS propose un nouveau service : Clean Rooms.
« Les Clean Rooms sont des environnements protégés où plusieurs parties peuvent analyser des données combinées sans jamais exposer leurs données brutes » détaille Adam Selipsky, CEO d’AWS. « Sans un service adéquat, de telles salles blanches sont difficiles à construire et peuvent prendre des mois à développer ». AWS Clean Rooms permet aux entreprises de créer de tels environnements collaboratifs en quelques minutes et de lancer leurs premières analyses dans la foulée en s’appuyant sur les services AWS. Il suffit depuis la console AWS de choisir les partenaires avec lesquels on veut collaborer, de sélectionner les ensembles de données et de configurer les restrictions en fonction des participants. Si les partenaires utilisent les services de données d’AWS il n’y a pas besoin de déplacer leurs données vers son propre environnement. Lors de l’exécution des requêtes d’analyse, AWS Clean Rooms lit les données là où elles sont (en étant capable de maintenir les chiffrements en place) et applique des règles de filtrage et masquage nécessaires pour les protéger.