En seulement quelques années, Hadoop est passé du stade expérimental à celui de déploiement massif dans les entreprises, accompagnant la multiplication de leurs projets Big Data. Celles-ci sont aujourd’hui nombreuses à embrasser le framework open source, que ce soit pour optimiser leur data warehouse, processus marketing ou encore pour détecter les fraudes et anomalies.
Aujourd’hui implémenté dans plusieurs des organisations les plus sensibles du monde, que ce soit au sein des gouvernements, dans le domaine de la santé ou des services financiers, le niveau de sécurité que Hadoop est à même de fournir aux entreprises n’a plus lieu d’être remis en doute.
Déployer correctement les capacités de sécurité
Hadoop fournit des capacités natives de sécurité à travers plusieurs options. Tout d’abord, le support du protocole Kerberos permet l’authentification automatique des utilisateurs auprès des services réseau, éliminant ainsi la nécessité de renseigner tout mot de passe. Pour les entreprises qui n’utilisent pas Kerberos, l’authentification native est également possible, offrant une configuration simplifiée et le même niveau de sécurité que Kerberos.
Aussi, des contrôles d’autorisation permettent de configurer les paramètres d’accès pour chaque utilisateur. Les Expressions de Contrôle d’accès (Access Control Expressions) permettent notamment de gérer les accès de façon flexible, sur une logique de requêtes basées sur le « et » et le « ou ». Exemple : Un utilisateur X se verra donner l’accès aux données correspondant aux requêtes « service commercial » OU « service marketing ».
La sécurité sur Hadoop peut également passer par le support de l’audit. A travers l’enregistrement des logs d’accès aux données et des opérations réalisées, l’audit va jouer un rôle clé pour mieux comprendre le comportement de l’utilisateur à l’intérieur du système, analyser sa conformité aux politiques internes et identifier les activités suspectes.
Le chiffrement est également supporté, même s’il est souvent mal appréhendé : il est parfois utilisé, à tort, comme moyen de contrôle d’accès, alors qu’il devrait être utilisé pour protéger les données transmises sur le réseau (les données en mouvement). Les données au repos peuvent être chiffrées pour assurer leur sécurité, y compris en cas de vol des supports de stockage physique. En outre, l’utilisation du chiffrement des données « au repos » permet de masquer les données sensibles contenues dans les fichiers stockés dans le cluster Hadoop. Ceci permet de rendre accessibles les données moins sensibles contenues dans ces mêmes fichiers pour des besoins applicatifs et analytiques.
Les entreprises ont également la possibilité de gérer leur traçabilité à travers des « zones de préparation » (staging areas ou landing zone). Une configuration de ce type peut notamment suivre le schéma suivant : une première zone où les données brutes entrantes sont importées, puis préparées/nettoyées, suivie d’une phrase de processing, et enfin d’une zone où les données sont prêtes pour les requêtes. Dans ce contexte, les snapshots, ou instantanés, peuvent capturer des « photographies » de chaque zone de préparation afin que l’historique de la transformation des données soit préservé. Les snapshots sont également précieux pour assurer une reprise sur incident et une restauration à un état antérieur, ce qui permet de raccourcir la durée de récupération.
Enfin, Hadoop rend également possible le déploiement d’une architecture multi-tenante – permettant à un logiciel d’être utilisé par plusieurs services de l’entreprise à partir d’une seule installation – de façon totalement sécurisée. Pour ce faire, les entreprises ont tout intérêt à se tourner vers des solutions qui supportent ce type d’architecture de façon native et se basant sur un cluster unique, garantissant ainsi la protection de données et des processus, plutôt que vers des solutions imposant la mise en place de plusieurs clusters, qui vont rendre l’architecture bien plus complexe et vont par conséquent augmenter le risque d’erreur et de faille.
Une sécurité avancée pour répondre aux besoins métiers
Dans certains modèles de déploiement, un cluster Hadoop peut être sécurisé avec des pare-feu et d’autres mécanismes de protection réseau n’autorisant que les utilisateurs de confiance à y accéder. C’est le type d’implémentation le plus basique et il ne dépend pas de capacités de sécurité spécifiques à Hadoop. Au-delà, un modèle de déploiement peut interdire les ouvertures de sessions directes sur les serveurs du cluster, tout en laissant les utilisateurs accéder aux données via des nœuds en bordure intégrant les contrôles de sécurité Hadoop de base.
Dans une approche plus sophistiquée, les contrôles de sécurité natifs d’Hadoop peuvent donner accès à plus d’utilisateurs, tout en limitant l’accès aux données aux utilisateurs autorisés. Dans des environnements encore plus avancés, les capacités de sécurité d’Hadoop sont pleinement déployées conjointement avec des outils de surveillance et d’analyse sur les clusters Hadoop pour détecter et prévenir les intrusions et les activités suspectes.
Le manque de standard impose la personnalisation
Les options de gestion des contrôles d’accès sont nombreuses avec Hadoop. Cependant, étant donné qu’il n’existe aucun standard en la matière, les professionnels de la sécurité doivent investiguer davantage pour déterminer l’option la plus adaptée à leur organisation.
Le manque de standard ne devrait pas freiner les ambitions d’adoption des organisations. La variété des approches de sécurisation disponibles permet de choisir finement l’application des mécanismes de protection aux personnes et aux processus, comme dans tout système d’entreprise. Surtout, Hadoop anime déjà un grand nombre d’environnements de production avec des données sensibles. Ce qui se traduira naturellement par l’amélioration continue de ses capacités de sécurité à mesure que l’adoption progressera.
___________
Tugdual Grall est Evangéliste Technique chez MapR Technologies