Parfois le sort s’acharne… Atlassian qui organisait sa conférence Team’22 et introduisait de nombreuses nouveautés a du parallèlement affronter une terrible défaillance de services paralysant une partie de ses utilisateurs durant plusieurs jours !

[Mise à jour du 02/05/2022]
On en sait plus sur la défaillance…

Atlassian a publié fin avril un « Post Incident Review » (PIR) faisant le point sur l’incident technique qui a empêché du 4 avril au 18 avril certains clients d’accéder à leurs environnements Jira et Confluence.
Atlassian confirme que l’incident était technique. Il n’était pas lié à une cyberattaque et aucune donnée n’a été exposée ou dérobée.
Pour installer la nouvelle fonctionnalité Insight Asset Management, fruit du rachat d’une application indépendante, Atlassian devait effacer des environnements clients toute ancienne trace de cette application désormais périmée. Pour réaliser cet effacement, les équipes techniques d’Atlassian ont récupéré et édité un ancien script de maintenant. Malheureusement trois gremlins sont venus se glisser dans la mécanique. D’abord, les équipes en charge de l’effacement et celles en charges d’exécuter les scripts se sont emmêlées les pinceaux : au lieu de fournir les IDs de l’app à désinstaller, elles ont livré les ID des environnements clouds des clients qui utilisaient l’App. Résultat, ce n’est pas l’App qui a été effacée, mais tout l’environnement client!  Ensuite, le script était très puissant, capable de reconnaître la tâche d’effacement à réaliser en fonction de l’ID passée en paramètre, mais ne demandait aucune confirmation lorsque l’opération affectait un environnement. Enfin, le processus de Disaster Recovery n’était pas optimisé pour un tel scénario ce qui a obligé les équipes à créer des scripts de restauration et reconstitution pour chaque client en combinant les différents systèmes de sauvegarde.
Atlassian assure que dans l’opération, même si certains clients on mis 14 jours à récupérer l’accès à leurs environnements, aucun client n’a perdu plus de 5 minutes de données.
Dans son PIR, Atlassian explique les leçons apprises de cet incident et les processus mis en place pour qu’à l’avenir la reprise sur incident soit plus performante et efficace et pour qu’un tel accident ne se reproduise plus.
Pour en savoir plus : Post-Incident Review on the Atlassian April 2022 outage – Atlassian Engineering

 

Le mois d’avril 2022 devait être pour Atlassian une grande fête avec ses clients et partenaires rythmée par plusieurs annonces importantes. Mais la fête a été gâchée par une terrible panne de ses systèmes…

Atlassian est une marque essentiellement connue de l’univers des développeurs. Très ancré dans les principes collaboratifs qui sous-tendent les approches DevOps, l’éditeur est à l’origine de solutions collaboratives et de bug tracking très populaires tels que Jira ou Trello.

Des lancements majeurs…

Mais l’éditeur veut désormais étendre ses outils et ses idées à d’autres sphères de l’entreprise surfant sur la collaboration de plus en plus étroite entre développeurs et métiers.

Il y a quelques jours, à l’occasion de sa conférence Team’22, Atlassian a annoncé plusieurs nouveaux produits et services qui vont clairement dans ce sens :

Atlassian Atlas : un répertoire orienté projetsAtlas est un service SaaS qui répond à la logique suivante : « les entreprises ne devraient plus se demander de quelle manière l’ensemble des effectifs peuvent utiliser les mêmes outils, mais comment plusieurs équipes peuvent collaborer avec succès malgré l’utilisation de technologies différentes ». Atlas est une sorte d’annuaire de collaboration dont l’objectif est de relier les personnes, les objectifs, les projets en développement, les besoins. C’est une sorte de répertoire central orienté projets pour répondre de façon universelle aux quatre questions de tout projet voire de l’existence de toute entreprise : Quoi ? Pourquoi ? Qui ? Comment ?
Dès qu’un collaborateur se demande « sur quoi travaille-t-on et pourquoi ? », « qui le fait ? » et « comment cela se passe-t-il ? », il doit trouver ses réponses via Atlas. Le répertoire permet de connaître les projets en cours, de voir clairement en quoi ils consistent et quels sont les objectifs, de savoir quelles équipes y travaillent, de mesurer aussi l’état d’avancement et la réussite.

Atlassian CompassCompass est un nouveau portail collaboratif orienté développeurs. Si les précédents outils d’Atlassian visaient essentiellement à renforcer la collaboration des individus au sein des équipes, l’objectif de Compass est de renforcer la collaboration entre les équipes. Compass vise à mieux partager les savoirs, les bonnes pratiques, les outils, à l’ère des microservices et des applications très réparties.
Ce portail s’articule autour de trois axes. Le premier est un catalogue de composants logiciels (microservices et autres composants) pour découvrir tous les composants développés et utilisés dans les workloads de l’entreprise, en comprendre les interactions et les assemblages, savoir quelles équipes les développent et quelles équipes les utilisent, en obtenir la documentation, etc. Le second est un tableau de bord « DevOps Health » qui procure de la visibilité sur tous ces composants, sur leur état de fonctionnement après déploiement, sur leur performance, sur leur sécurité, etc.  Le troisième axe est un moteur d’extensibilité alimenté par Atlassian Forge pour construire des flux de travail personnalisés.

Enfin, « Atlassian Data Lake » et « Atlassian Analytics » sont deux nouveautés complémentaires qui viennent enrichir la plateforme fondamentale d’Atlassian. Elles sont intimement liées et s’inscrivent dans la logique d’ouverture à une audience plus large que les développeurs. L’idée est de faire en sorte que toutes les données échangées au travers de Jira et Confluence – qui ont une portée marketing, commerciale ou métier – puissent être exploitées par les métiers et les analystes pour aider aux prises de décision. Toutes ces données sont désormais stockées dans « Atlassian Data Lake ». Elles peuvent alors être exploitées et visualisées sous forme de tableaux de bord grâce à « Atlassian Analytics ».

Toutes ces nouveautés cherchent également à orienter de plus en plus les clients vers les solutions en mode SaaS d’Atlassian plutôt que vers les implémentations ‘On Premises’ de Jira ou Confluence par exemple.

… et une défaillance épique !

Malheureusement, ces derniers jours, certains clients pionniers de la plateforme d’Atlassian se sont probablement mordu les doigts d’avoir basé tout leur collaboratif sur l’offre SaaS. Car Atlassian a été victime d’un incident technique dont la résolution a pris pour certains clients plus d’une dizaine de jours ! Clairement la promesse du cloud et du SaaS pour plus d’agilité et de fiabilité n’a pas été ici tenue.

Alors que certains clients avaient perdu tout accès à Jira et à Confluence depuis le 5 avril, il leur aura fallu attendre jusqu’au 12 avril pour obtenir une explication de l’incident et parfois patienter plus de 10 jours pour récupérer l’accès aux services et à leurs données. Plus qu’un incident, il s’agissait d’un vrai accident avec une succession d’erreurs humaines assez affolantes. Comble pour Atlassian, une partie du problème provient d’un manque de communication entre ses équipes : une confusion entre les identifiants d’applications à désactiver et les identifiants de sites. Pour aggraver le tout, un script a été exécuté en mode « effacement permanent » plutôt qu’en mode « marquer pour effacement ».

Certes l’éditeur avait bien des sauvegardes et des réplications. Mais l’ensemble était suffisamment mal agencé pour que les ingénieurs se voient dans l’obligation de travailler manuellement pour d’abord restaurer les sauvegardes puis synchroniser les deltas de données depuis les sauvegardes à partir des réplicas.

Environ 400 entreprises clientes ont donc été privées de leurs solutions Atlassian pendant plusieurs jours en plein alors que l’éditeur célébrait ses nouvelles solutions.

Espérons qu’Atlassian en retiendra des leçons aussi bien en matière de fiabilisation de ses opérations qu’en matière de transparence de communication…

Reste qu’un tel incident doit aussi inviter chaque entreprise à se poser la question de sa résilience alors que les usages des solutions SaaS se multiplient partout.

 


À lire également :

> DevOps : un virage culturel à bien préparer.

> « La crise a accéléré l’adoption de nos produits et de notre approche collaborative »

> Atlassian lance enfin sa plateforme de développement Forge