Le coronavirus a eu un effet d’accélération de la transformation digitale. En l’espace de quelques jours, les entreprises ont dû se plier à une façon de travailler totalement inédite et prendre des dispositions en urgence pour gérer la mise en place massive du télétravail – alors que pour certaines la quasi totalité du personnel travaillait exclusivement sur site jusque-là…

Pour relever le défi, les entreprises ont dû recourir rapidement à de nouvelles technologies, et mettre en place de nouvelles règles, pour permettre à leurs salariés de travailler à distance en conservant le plus possible leurs habitudes de bureau. Conséquence : il a fallu rendre accessibles hors des locaux des outils jusque-là confinés au périmètre du réseau de l’entreprise. Certains ont opté pour un VPN, d’autres pour des connexions SSL via des applications web, etc.

Mais malgré tous ces changements, les logs, eux, continuent d’être collectés, que les utilisateurs soient dans les locaux de l’entreprise ou dans leur salon.

Pourquoi gérer les logs est-il indispensable ? 

Les logs sont des jeux de données relatives à l’activité et aux performances des applications, systèmes et utilisateurs. Ce sont de précieux outils pour la sécurité de l’entreprise, mais ils servent également à surveiller les performances globales de certains outils et applications. Normalement, les logs alimentent le système SIEM (Security Information and Event Management / gestion des informations et événements de sécurité) de l’entreprise pour faciliter l’identification des activités à risque ou suspectes.

Fait intéressant, la plupart des entreprises n’archivent pas tous les logs de leurs postes de travail, préférant stocker uniquement les plus importants. Il s’agit généralement de ceux ayant trait aux serveurs, aux accès à distance, aux systèmes à plusieurs utilisateurs et aux applications web. Collectés dans un SIEM, ils permettent d’effectuer des analyses en temps réel.

L’autre avantage d’un archivage limité aux logs les plus importants, est la maîtrise des coûts.

Ce modèle a longtemps été viable, surtout compte tenu du fait que le coût de maintenance d’un SIEM dépendait généralement du nombre de gigaoctets de logs par jour ou de l’espace total nécessité par le client.

La transformation digitale rebat les cartes

Le fait que des entreprises passent de 50 à 5 000 salariés en télétravail en quelques semaines a bouleversé la situation. Les logs envoyés au SIEM ont des origines diverses : points d’accès externes tels que les machines distantes, serveurs, autres services (Terminal Server, etc.). Pendant le confinement, des entreprises dont seule une infime partie du personnel générait jusque-là des logs d’accès à distance, se sont retrouvées confrontées à un flux exponentiel de logs alimentant leur SIEM.

L’accélération très rapide de la transformation digitale, et l’adoption généralisée du télétravail, s’est opérée de façon brutale, empêchant la mise en place progressive de procédures de sécurité. Les capacités de prise en charge des utilisateurs externes ont rapidement saturé. Cette multitude de changements simultanés entraine des difficultés de gestion – encore aujourd’hui – même pour les grands fournisseurs réseaux mondiaux.

Cette évolution rapide ne concerne pas que le mode de fonctionnement des entreprises. Les lois sur la protection de la vie privée incluent désormais certains logs dans la définition des données personnelles. À ce titre, les logs doivent donc être chiffrés et sécurisés.

La gestion centralisée des logs, la solution ?

Le concept de gestion des logs a longtemps été négligé. Ces dernières années, bon nombre d’entreprises se contentaient de stocker leurs logs dans leur SIEM sans plus de considération ; une approche désormais intenable, compte tenu de l’augmentation considérable du volume de logs à collecter.

La résolution du problème peut passer par le déploiement d’une solution de gestion centralisée des logs (CLM – centralised log management) qui rassemble toutes les données des logs au sein d’un puits de logs central. En bref, une CLM est conçue pour faciliter la vie des entreprises et réduire le coût des SIEM, ceux-ci étant peu adaptés à la gestion des logs.

En effet, une fois transférés à un SIEM, les logs sont parfois fragmentés ou incomplets, ce qui nuit aux activités de surveillance et de réponse aux incidents. Une CLM élimine le besoin d’embaucher du personnel dédié, puis de le former et lui fournir une assistance dans le cadre du déploiement et de l’exploitation d’un SIEM. Elle diminue aussi les coûts liés aux fournisseurs de SIEM et réduit le risque de mettre en danger l’infrastructure du SIEM en y stockant des logs non gérés.

La collecte de données fragmentées se mue ainsi en collecte de données unifiées. Si la structure du SIEM est menacée en raison d’un volume considérable de données, on peut désormais réduire les coûts en filtrant ces dernières et en ne conservant que le nécessaire.  Ce système permet aussi de mettre un terme à la stratégie dépassée consistant à laisser les équipes informatiques disposer de leur propre source de données, en dirigeant plutôt celles-ci vers l’équipe appropriée via la CLM.

Le nettoyage des données

Une fois enregistrées, les données doivent faire l’objet d’un parsing.  Cette opération consiste à analyser une chaîne de données ou à extraire certains éléments précis. En informatique, ce processus permet d’établir une structure pour les données souhaitées. Dans cette optique, quelques mesures intéressantes peuvent être prises pour aider les équipes de sécurité, surtout dans le contexte actuel.

Avant d’analyser les éléments précis souhaités, mieux vaut filtrer le superflu. Ce concept s’avère utile à l’entreprise si l’on s’en sert pour supprimer les informations inutiles et indésirables des logs envoyés au SIEM. En d’autres termes, le parsing permet d’éliminer les informations superflues d’un log, en le réécrivant à la volée pour diminuer la taille du fichier et renforcer l’utilité des données.

Quels sont les types d’informations superflues ?

On peut par exemple citer l’horodatage ajouté par de nombreuses applications dans le log de leur système pour indiquer qu’elles sont en ligne. Si ce type d’information n’est pas utile aux auditeurs de sécurité, rien ne justifie que l’entreprise paye pour la stocker dans son SIEM. D’ailleurs, tant qu’on y est, pourquoi ne pas éliminer la totalité du texte superflu, voire mieux, appliquer un parsing à certains événements des logs ? Ce genre de mesures permet de réduire rapidement et facilement des coûts susceptibles de s’envoler pendant cette période si particulière.

Le parsing, le filtrage, le masquage et d’autres techniques de transformation dans une CLM permettent également aux équipes de sécurité de résoudre les problèmes de confidentialité liés à la gestion des logs, et d’éliminer les informations personnelles qui ne doivent pas être distribuées. Certains types de données personnelles peuvent ainsi être associés à un modèle et supprimés avant l’envoi du log au SIEM. Ces données peuvent également être masquées ou anonymisées. La résolution de ce problème pourrait devenir cruciale avec l’augmentation constante du volume de données personnelles collectées et le durcissement des législations en matière de confidentialité.

L’efficacité du stockage des données passe par celle de l’équipe

Si ce point n’est pas aussi important pour la transformation digitale à bien des égards, il faut garder à l’esprit le fait que ceux qui examineront les logs n’utiliseront pas forcément le SIEM, et n’auront pas nécessairement les compétences d’un administrateur Linux ou UNIX. Plus simplement, ils préféreront peut-être disposer d’une interface utilisateur graphique pour plus d’ergonomie.

Il faut connaître ceux qui devront pouvoir exploiter facilement la plateforme de gestion centralisée des logs, avant d’en choisir une, car cet outil n’est pas là pour la décoration.  L’équipe doit être capable de s’en servir.

Construire « l’autoroute des données »

Il est possible d’optimiser le SIEM et d’augmenter ses chances de respecter les obligations de conformité. Les sources de journalisation peuvent être multipliées et leur indexation facilitée.  Et grâce au chiffrement des données stockées, le responsable de la conformité devrait pouvoir s’épargner des nuits blanches.  Par ailleurs, hormis le SIEM, les données peuvent être transférées partout, notamment Apache Kafka, MongoDB, tout type de base de données et les systèmes de Big Data.  Il ne suffit pas d’optimiser le SIEM : il faut construire son autoroute des données, collecter les logs une seule fois, les envoyer à la destination souhaitée et réduire les coûts grâce à la gestion centralisée des logs.

Malgré la multitude de nouvelles technologies émergeant à l’heure de la transformation digitale, il ne faut jamais oublier l’importance d’une gestion efficace des logs. Les équipes de sécurité ne doivent pas se retrouver dans une situation les obligeant à avouer à la direction que les coûts liés au SIEM ont pris des proportions incontrôlables. Pour les gérer et même les diminuer sans perte d’efficacité, il suffit d’alimenter le SIEM uniquement avec les données nécessaires.
___________________

Par Hicham Bouali, Directeur Avant-Ventes EMEA de One Identity