Aujourd’hui envisager de classifier ses données parait être une étape nécessaire pour permettre aux entreprises modernes de mieux protéger leur exposition aux risques de fuite ou de perte. Identifier celles qui doivent être classifiées permet de mesurer l’exposition au risque et de savoir dans quelle mesure ces données sont ou non sous le contrôle de l’organisation. Comprendre où sont stockées les données les plus sensibles et comment elles sont utilisées permet de mieux définir leur exposition aux risques et d’adapter ainsi les protections nécessaires au contrôle de ces risques… Quels moyens permettent d’identifier les données sensibles d’une entreprise et les protéger ?
Qu’est-ce que la classification de données ?
La classification des données est un processus de catégorisation cohérente des données sur la base de critères spécifiques et prédéfinis, afin qu’elles puissent être utilisées et protégées plus efficacement. Le processus de classification facilite la localisation et la récupération des données, point très important lorsqu’il s’agit de la gestion des risques, de la conformité et de la sécurité des données, ou encore l’adaptation aux réglementations telles que GDPR et PCIDSS.
La classification des données n’a d’intérêt que si elle permet d’associer une donnée à un niveau de risques et aux conséquences de son exposition à ce risque. En d’autres termes, elle permet de plus facilement mesurer les conséquences d’une perte de données et son impact sur la société. Elle permet également de diriger le choix des méthodes de contrôle et de protection adaptées. On pourra alors segmenter les efforts et adapter les processus métiers en fonction de la donnée pour limiter les risques d’usage ou d’accès non recommandés. Cela implique également que les utilisateurs soient sensibilisés aux comportements à suivre en fonction des données et à la signification du niveau de classification pour l’entreprise.
Comment mettre en œuvre une stratégie de classification efficace ?
Bien entendu, il n’existe pas une stratégie de classification unique. Chaque entreprise ou organisation aura différents besoins à satisfaire. Bien que ce ne soit pas indispensable, une labellisation simplifie le traitement, la recherche et le contrôle des données concernées. Une identification simplifiée des données impactant également le coût générale de leur traitement, leur stockage et leur sauvegarde. Afin d’assurer la mise en place d’une stratégie d’identification et de classification des données, il sera possible de s’inspirer d’un plan suivant les 5 points suivants :
1) Définir une politique de classification des données
La politique est une étape clé dans le succès d’une classification réussie. Elle permet de définir le cadre à suivre et dans la mesure du possible, de standardiser la méthode d’identification et de labélisation. Cette politique est également le support de formation à destination des utilisateurs et des employés. Si la labellisation manuelle est pratiquée les utilisateurs pourront s’y référer pour décider du niveau qu’ils doivent appliquer.
2) Établir le champ d’application
Il est important d’établir le champ d’application dès le début de ce processus pour adapter l’effort et éviter le débordement. Cette étape est particulièrement importante lorsque l’on intègre également au champ d’application les partenaires et les tiers. Quelles sont les entités qui seront prises en compte ? Les données héritées et archivées au cours de la vie de l’entreprise sont tout aussi importantes. Comment seront-t-elles protégées et stockées ? Tout ce qui est hors du champ d’application devra être clairement indiqué.
3) Définir quelles sont les données sensibles du champ d’application
Une fois la politique et le champ d’application des données établis, la tâche suivante consiste à identifier toutes les données sensibles de l’entreprise qui nécessitent une classification et une protection au sein du champ d’application. Tout d’abord, il faut déterminer les critères d’identification des données recherchées : informations personnelles identifiables, numéros de carte de paiement, dossiers de santé, adresse IP si on se base sur le contenu. Il est aussi possible d’identifier certains contextes suffisants comme des partages source, des applications métiers ou des personnes susceptibles de produire de la donnée sensible. On pourra tout aussi bien déléguer l’identification à l’utilisateurs via un outil de labellisation manuelle. Et bien entendu il est aussi possible de combiner ces techniques. Il s’agit d’une étape continue si on tient compte de l’évolution ou la production constante des données.
4) Évaluer quelles sont les solutions adaptées
Lorsque vient le moment d’identifier une solution de classification de données appropriée, il existe de nombreuses options. La plupart des solutions existantes sur le marché aujourd’hui, sont automatisées et la classification peut être contextuelle (type de fichier, emplacement, etc.) et/ou basée sur le contenu (empreinte digitale, RegEx, etc.). Cette option peut être coûteuse et nécessiter un haut degré de réglage, mais une fois opérationnelle, elle est extrêmement efficace et la classification peut être répétée aussi souvent que désiré.
Une alternative aux solutions automatisées est une approche manuelle qui permet aux utilisateurs de choisir eux-mêmes la classification de l’information. Cette approche repose sur un expert pour diriger le processus de classification et peut prendre beaucoup de temps. Mais dans les entreprises où le processus de classification est complexe et/ou subjectif, une approche manuelle peut souvent être préférable.
Une dernière option consiste à externaliser le processus de classification auprès d’un prestataire de services ou d’une société de conseil. Cette approche est rarement la plus efficace ou la plus rentable, mais elle peut fournir une aide ponctuelle et donner à l’entreprise une bonne idée de sa situation en termes de risque et de conformité.
5) Assurer l’adaptation continue de la politique de classification
Enfin on s’assurera la possibilité de contrôler et mesurer l’impact de la politique de classification sur le niveau de protection des données. En effet, la classification seule n’améliore pas le niveau de protection mais permet surtout d’orienter les efforts. Il est donc nécessaire de rendre les processus ou les solutions de contrôle sensible à la classification. On pourra ainsi utiliser l’inspection des différents flux (messagerie, web) ou encore des solutions de DLP ou d’EDR en mesure d’adapter leur réaction en fonction de la sensibilité des données. A partir de là il sera même possible d’intégrer la notion de sensibilité des données dans les processus de gestion d’incidents au niveau SOC (Security Operation Center). En fonction des incidents et risques effectivement constaté, on pourra faire évoluer la politique de classification mais surtout le contrôle des usages en mode dynamique pour faire vivre l’infrastructure de sécurité en fonction des données à protéger et pas uniquement selon des contraintes techniques.
Les données jouant désormais un rôle central dans presque toutes les entreprises, la possibilité de les suivre, de les classer et de les protéger n’est plus un luxe. Une stratégie efficace de classification des données doit constituer la fondation de toute initiative de sécurité moderne, permettant aux entreprises d’identifier rapidement leurs données les plus précieuses et de garantir leur sécurité en tout temps.
__________
Vincent Dely est Solutions Architect chez Digital Guardian