Lorsque le numéro 1 mondial du cloud dysfonctionne, c’est toute la sphère Internet qui s’en trouve perturbée… Une occasion de faire une liste des tableaux de bord de surveillance des clouds…
Tous les grands clouds connaissent des interruptions de service plus ou moins graves et remarquées.
Cette année, Microsoft et Google ont eu leur lot de gros déboires.
Mais AWS avait plutôt été épargné par les incidents majeurs impactant un vaste ensemble de services depuis le début de l’année… Ce qui rend l’incident prolongé de la nuit forcément plus notable.
La panne est survenue sur le service « Kinesis Data Streams » de la région US-EAST-1 affectant donc principalement les sites et services en Amérique du Nord.

En théorie, un problème sur KDS n’affectant qu’une seule région sur les 23 du cloud AWS aurait presque dû passer inaperçu. Mais ça n’a pas été le cas car le problème a affecté le bon fonctionnement d’autres services AWS et surtout de nombreux sites clés aux USA ont été durablement affectés. C’est notamment le cas de Adobe Cloud et Adobe Spark, 1Password, Autodesk, Coinbase, Glassdoor, Flickr, Pocket, Roku et les sites de plusieurs agences de presse américaines.

Des incidents, les clouds des hyperscalers en connaissent tous les mois. La plupart du temps, ils passent presque inaperçus. D’ailleurs le dernier incident majeur d’AWS remonte à 2017 où un problème sur une région S3 avait affecté des sites comme Trello, GroupMe, IFTTT et même Alexa.
Rappelons également que le confinement brutal du monde avait perturbé Office 365 et Azure à plusieurs reprises entre mars et juin 2020. Google a connu au début du mois de Novembre une panne d’envergure affectant notamment son Play Store et YouTube.
Pour rappel, les différents clouds proposent des sites Web assez complets pour surveiller l’état de leurs services. En voici les principaux :
* Microsoft Azure : État Azure
(il existe aussi un tableau de bord pour Office 365 : Microsoft 365 – Service health)

* Amazon AWS : AWS Service Health Dashboard
* IBM Cloud : IBM Cloud Status
* Oracle Cloud : OCI Status (oraclecloud.com)
* OVHcloud : OVH Tasks
* Scaleway : Scaleway Incidents Status
Enfin, ajoutons que CloudSquare, le service de CloudHarmony, permet de surveiller en un seul tableau de bord l’état de services de la plupart des grands services clouds à commencer par Akamai, AlibabaCloud, AWS, Azure, Bitglass, EasyDNS, ExoScale, GCP, Salesforce, Qlik, Tencent Cloud, etc…





puis