La multiplication des offres de sécurité dans le cloud a rendu l’expression PRA ( plan de reprise d’activité) dans le cloud de plus en plus courante. Il faut s’en méfier.
Il y a, à notre avis, un abus de langage car le vrai PRA passe par une duplication complète des serveurs et des applications mise à jour minute par minute et cela réclame un site secondaire, une installation complète, coûteuse, à une distance respectable du site primaire. Cela ne se limite pas à l’installation de systèmes de sauvegardes rapides liées à des applications à tolérance de pannes installées sur des ordinateurs proches les uns des autres pour des raisons de performances. Si l’on souhaite pour des raisons de performances conserver ses données à proximité des serveurs centraux, ces choix sont trés risqués. Si le centre de données est en partie endommagé ou carrément détruit, ce sont les serveurs et les systèmes redondants qui peuvent être aussi irrécupérables. Et selon des assurances comme la Maaf le précise sur son site Web: « 80% des entreprises ayant perdu leurs données informatiques font faillite dans les 12 mois qui suivent ».
Deux exemples de catastrophes qui font référence
La crise informatique du Crédit Lyonnais, à la suite de l’incendie du 5 mai 1996qui avait détruit les salles de marchés et une bonne partie du service informatique a crée un cas d’école. Une bonne partie des ressources de backup étaient sur le même site et une partie des archives et les traces des disfonctionnements des années folles du Crédit lyonnais sont parties en fumées. Et cela même si le site de secours avait très bien fonctionné mais sans pouvoir relancer l’ensemble de l’activité : une référence pour l’informatique des banques françaises. Mieux vaut dupliquer les sites et scinder les applications.
Savoir tenir à distance les sites de secours
On se souvient aussi que lors du tragique 11 septembre 2001, le site de secours de la banque Morgan Stanley dont les principaux bureaux se situaient sur 22 étages dans la première tour du World Trade Center avait été installé dans la seconde tour, à moins de 200 mètres de la première.
Ce souvenir effrayant d’une situation inimaginable a poussé pas mal d’entreprises a écarter leurs sites de sauvegardes de plusieurs kilomètres de leur site principal, car on le dit souvent ceux qui n’ont pas pu relancer leurs informatiques sont condamnés. Les incendies et les tonnes d’eau déversées par les pompiers, les explosions, les inondations et les tremblements de terre couvrent souvent des zones bien plus étendues que celles que l’on pouvait imaginer au départ. Cette évolution a favorisé l’éclosion du marché du PRA à 40 kilomètres des sites primaires. C’est à dire aux limites maximales des délais des temps de transaction. On parle souvent d’un milliseconde de retard par kilomètre, la vitesse de la propagation de la lumière, 300 000 kilomètres par heure et bien des sites de secours doivent se situer à moins de 40 kilomètres.
Les pannes aléatoires et rares minent aussi la vie des administrateurs
Mais il n’y a pas que les raz de marée ou les catastrophes naturelles (ci dessous Quimper) qui créent des angoisses aux administrateurs, les petites pannes créees par un disque défectueux, une alimentation anémique ou un logiciel infecté peuvent aussi créer des catastrophes. Elles sont plus insidieuses car on met un certain temps à les repérer si l’on n’a pas des outils de contrôle. Ce genre de problème peut paralyser votre système de backup. Plus courantes, les ruptures de fibres optiques liées à un écrasement, sont souvent difficiles à identifier. Tous ces petits désastres sont capables de détruire le cœur de l’entreprise si l’on ne dispose pas de système de reprise rapide.
Un PRA peut-être, mais à quel prix ?
Pour déterminer quelles solutions envisager, il faut évaluer le temps idéal de remise en route du service. Cela peut varier en fonction du degré de priorité des applications mais aussi en fonction du chiffre d’affaires associé à cette activité et au coût de ce service. Magic Online, un des fournisseurs de service de PRA dans le cloud n’hésite pas à déclarer sur son site : « Il faut arriver à considérer que l’indisponibilité peut être autorisée, en fonction du degré de criticité des données métiers et des données techniques. À partir de là et seulement à partir de cette prise de considération, on pourra calculer et souvent négocier un prix de mise en oeuvre. Par exemple, si la sauvegarde et la reprise d’activité doivent s’effectuer en moins d’une minute, on doit mettre en place des environnements synchrones et le coût de l’infrastructure monte très vite ».
Des services de secours
Désormais, 70% des applications d’entreprise reposent sur des machines virtuelles, réputées fragiles. Mais la virtualisation a permis non seulement d’optimiser l’usage des serveurs mais aussi de simplifier le passage dans le cloud. Peu importe désormais que les applications tournent sur des serveurs locaux ou sur des services distants, l’important ce sont les temps de réponses et le temps de remise en route en cas de pépins. La plupart des entreprises informatiques qui proposent des services de backup sécurisés, tout comme celles qui s’occupent des sauvegardes sur bandes proposent des tests de reprises, à intervalles réguliers. Cela permet de vérifier non seulement l’état exact du système mais aussi de prévoir des temps de remise en route. Avec l’avènement du Cloud, on s’est mis à distinguer deux types de plan de reprise d’activité après sinistre: ceux qui concernent la reprise des données sauvegardées dans le cloud (appelé aussi Enterprise2Cloud) et la reprise par un second service dans le cloud d’un service déjà sous traité. La plupart du temps lors d’une réinstallation, il faudra toujours réinstaller un certain nombre d’éléments d’actualités, les derniers patchs car le site de secours et le site primaire sont rarement totalement identiques. Les procédures de réinstallations sont généralement contenues dans des livrets de maintenance des « runbooks » qu’il faut mieux avoir ouvert plus d’une fois pour ne pas perdre trop de temps. C’est la raison pour laquelle certains PRA prévoient une reproduction systématique à l’identique d’un site distant, celui qui doit prendre le relais en cas de défaillance sur le site principal.
Le cloud ne peut tout faire
Ce n’est pas nouveau mais au vu des offres du seul cloud on finirait par croire que des solutions de secours sont meilleures qu’un vrai PRA. Dans tous les cas, le matériel du second site devra être mis à jour sans délai. C’est la solution de luxe couramment pratiquée par la plupart des entreprises du CAC 40. Face au cloud « dédié » qui peut être maintenu par une équipe spécialisée et entrainée, le prix du risque est très élevé. C’est pourquoi on peut clairement distinguer trois types d’offres : des solutions économiques dans le cloud, des solutions de sites de secours ou des solutions plus performantes, des vrais PRA, une expression souvent galvaudée. Quelle que soit la solution choisie, son fonctionnement devra être régulièrement testé pour répondre à la dernière version des logiciels utilisés. Le Plan de Reprise d’Activité doit suivre les évolutions du système d’information, rien n’est jamais définitif.