Cet été, une mise à jour défectueuse du Falcon Sensor de CrowdStrike déclenchait une panne mondiale affectant 8,5 millions d’appareils Windows, révélant l’importance cruciale d’un vrai plan de résilience, donc de stratégies de sauvegarde et de reprise après sinistre, dans un monde numérique interconnecté.

En juillet 2024, une tentative de CrowdStrike, destinée à mettre à jour le « Falcon Sensor » pour la détection des menaces en temps réel et la protection des points de terminaison, a conduit à un crash système affectant 8,5 millions d’appareils Microsoft Windows et provoquant des perturbations informatiques et opérationnelles généralisées dans le monde entier.

Bien que cet incident n’ait pas été causé par une cyberattaque ou un logiciel malveillant, il souligne l’importance d’avoir une stratégie de sauvegarde et de reprise après sinistre complète et fiable pour éviter les perturbations des opérations commerciales.

CrowdStrike provoque un impact mondial immédiat

La panne a été d’abord détectée en Australie, avant que « l’écran bleu de la mort » ne se propage sur les appareils Windows dans le monde entier, perturbant non seulement les utilisateurs, mais aussi les entreprises et les fournisseurs de services critiques. Des rapports de perturbations ont émergé de divers secteurs, y compris la finance, l’informatique, la fabrication, et plus encore. En début d’après-midi, environ 2 600 vols aux États-Unis ont été annulés, tandis que plus de 4 200 vols ont été affectés dans le monde et ont dû recourir à des enregistrements manuels, selon le Wall Street Journal.

Comment les RTO (Recovery Time Objectives) impactent les opérations commerciales

Suite à cet incident, CrowdStrike a fourni un support technique et a publié un correctif pour aider à restaurer les opérations du système. Cependant, de nombreux systèmes utilisés par les organisations n’ont pas pu être récupérés automatiquement via un programme de réparation. La plupart du temps, les administrateurs informatiques ont dû démarrer manuellement chaque appareil affecté en mode sans échec et supprimer manuellement les mises à jour problématiques de CrowdStrike.

Bien que Microsoft ait introduit une solution « minimisant les processus » le jour suivant, qui a aidé à supprimer automatiquement les fichiers défectueux, l’opération de remédiation restait un processus laborieux avec un démarrage manuel des appareils individuels en WinPE via une clé USB.

De tels temps d’arrêt entraînent des perturbations opérationnelles, une perte de productivité, des coûts supplémentaires, des risques de conformité accrus, et finalement, une expérience client négative et une réputation d’entreprise ternie.

Un plan de protection en 5 points

Un tel incident doit encourager toutes les entreprises, voire tous les utilisateurs, à élaborer un plan de protection des données solide pour maintenir la continuité des activités en tout temps. Voici les 5 étapes clés d’un tel plan :

Sauvegardes complètes : Déployer une stratégie de sauvegarde qui couvre régulièrement toutes les sources et appareils sans données isolées est crucial pour les entreprises, en particulier celles opérant sur plusieurs plateformes ou outils.

Exercices de restauration réguliers : Les pannes d’équipement et de système ne sont jamais prévisibles. Tester en continu la récupérabilité des données de sauvegarde est essentiel pour vérifier l’efficacité et la disponibilité des plans de reprise après sinistre de l’organisation.

Récupération instantanée des VM : Virtualiser les services et restaurer les opérations aussi rapidement que possible garantit une réduction des temps d’arrêt et la continuité des activités.

Restauration multiplateforme : Dans le cas de CrowdStrike, seule une plateforme a été affectée. Les entreprises peuvent minimiser le risque de perte de données en s’assurant que toutes les données, applications et systèmes peuvent être récupérés et réintégrés sur plusieurs environnements.

Sauvegarde et récupération hors site : En plus de sauvegarder les données sur site, la mise en œuvre d’une sauvegarde hors site atténue les risques associés à la perte de données. Si une entreprise avait déployé une sauvegarde cloud hors site pendant l’événement CrowdStrike, elle aurait pu facilement reprendre les services à partir de ce site de sauvegarde hors site.

Les sauvegardes sont la clé de la résilience des données

Avoir un plan de sauvegarde et de reprise après sinistre sécurisé est la clé de la résilience des données et une étape cruciale pour toute entreprise poursuivant une transformation numérique.

L’incident de CrowdStrike met clairement en lumière l’importance d’établir une stratégie de sauvegarde robuste et de tester les sauvegardes régulièrement pour maintenir la continuité face à des circonstances imprévues.
____________________________

Par Ivan Lebowski, Sales Team Leader chez Synology

 

À lire également :

Quick Machine Recovery, l’arme anti incident Crowdstrike de Windows

Les excuses publiques de Crowdstrike devant le Congrès américain

Microsoft veut trouver une parade face aux incidents comme Crowdstrike

On sait pourquoi Crowdstrike a mis le monde en rade

6 leçons de la panne Crowdstrike faussement attribuée à Microsoft

Une mise à jour défectueuse de Crowdstrike crée la panique et la confusion. Microsoft n’y est pour rien...