Retour sur la méga-panne d’OVH

C’est une histoire d’eau qui a paralysé le 29 juin à partir de 18h48 50.000 sites hébergés dans le site P19 d’OVH à Paris. C’est ce que révèle la firme roubaisienne sur son blog, en appelant à la rescousse la loi de Murphy. La panne a été provoquée par une fuite de liquide de refroidissement, lequel a pénétré dans une baie VNX 5400 d’EMC qui ne devait pas se trouver là, la salle qui l’hébergeait précédemment étant en réfection. Ladite baie était d’ailleurs en sursis puisque OVH procède au remplacement de toutes les baies dotées d’un OS propriétaire, par des équipements maison. Pour ne rien arranger, l’outil de monitoring qui devait donner l’alerte et qui avait l’objet d’une mise à jour n’a pas fonctionné. Le premier technicien est ainsi arrivé dans la salle 11 minutes après la fuite. « Ce retard a très certainement accentué l’impact de l’incident », indique l’hébergeur sur son blog. La tentative de redémarrer la baie défectueuse a été un échec. De même que celui d’une baie ramenée en catastrophe de Roubaix, et ce malgré l’aide du constructeur.

Une procédure de restauration des données depuis les sauvegardes réalisées quotidiennement avait heureusement démarré en parallèle. Une procédure compliquée dans la mesure où il ne s’agissait pas seulement de migrer les données de backup depuis un stockage à froid vers un espace libre de la plateforme technique de l’hébergement mutualisé. Il fallait aussi recréer l’ensemble de l’environnement de production. Bien qu’opérationnel, ce processus n’était pas industrialisé. « Restaurer une table à partir du backup est trivial. Restaurer un très grand volume de tables, initialement réparties sur 99 VM, nécessitait davantage d’automatisation, sans quoi la restauration aurait demandé plusieurs journées », explique OVH. L’équipe en charge des backups a donc travaillé une partie de la nuit pour écrire la procédure. A 3 heures du matin, celle-ci a été lancée, en mode écriture uniquement, OVH espérant récupérer les données plus récentes, bloquées sur la baie défectueuse. Les chances de les récupérer s’amenuisant, à 15 heures les bases ont été finalement mises en lecture/écriture. A 23h40 la restauration de la dernière VM prenait fin, et tous les sites, à quelques exceptions près, redevenaient opérationnel. Tout rentrait cependant dans l’ordre peu après. Les clients ont toutefois perdu leurs données du jour, restées sur la baie en panne « ceci malgré toutes les actions entreprises avec les équipes support constructeur ».

OVH a décidé de faire un geste commercial. L’offre d’hébergement des utilisateurs concernés sera prolongée gratuitement de deux mois. « Il nous est apparu légitime de dédommager nos clients, au-delà de la clause limitative de responsabilité présente dans nos conditions générales de service », indique la firme d’Octave Klaba.

Pour éviter qu’un tel incident ne se reproduise, les équipes techniques impliquées réfléchissent aux mesures qu’il convient d’adopter. « Le constat a d’ores et déjà été fait qu’un principe essentiel chez OVH n’avait pas été respecté dans le cadre de l’exploitation de cette baie de stockage propriétaire : répartir le risque en multipliant les machines, ceci pour minimiser le domaine de panne. Nous finalisons donc actuellement la migration de la dernière baie de stockage propriétaire de notre parc », promet déjà l’hébergeur.

A lire également dans ChannelNews
Apple va dépenser près d’un milliard de dollars pour construire un datacenter propre au Danemark

Retour sur la méga-panne d’OVH

InfiormatiqueNews.fr

Rajouter InformatiqueNews.fr sur votre écran d'accueil