Les organisations poursuivent toutes leur transformation digitale, avec pour ambitions de fournir des expériences utilisateur toujours plus fluides et d’accélérer leur innovation pour répondre aux exigences business. Pour cela, elles sont de plus en plus nombreuses à migrer leurs services vers des environnements cloud-native ou hybrides. Et bien que ces écosystèmes dynamiques apportent une formidable agilité aux organisations, ils introduisent également des niveaux de complexité sans précédent, au point que leur maîtrise dépasse souvent les capacités des équipes IT, comme le révèle une la récente étude « Cloud hybride : Les principaux défis auxquels sont confrontés les DSI »
Les équipes informatiques sont ainsi bombardées chaque jour de milliers d’alertes concernant la performance et la disponibilité de service, qu’elles doivent analyser afin d’identifier et résoudre les incidents potentiels avant qu’ils n’affectent la performance des services IT, et avec elle, la satisfaction des utilisateurs et des clients. Une équipe IT passe en moyenne 15% de son temps à essayer d’identifier sur quelles alertes elle doit se concentrer. Cela représente un coût annuel moyen d’environ 1,5 million de dollars pour les organisations – et ce, avant même que la résolution du problème sous-jacent ne soit initiée.
La principale difficulté rencontrée par les équipes IT est étroitement liée au fait que les applications s’exécutent aujourd’hui sur des écosystèmes cloud d’entreprise extrêmement complexes, qui s’appuient sur des centaines de technologies différentes, des millions de lignes de code et des milliards de dépendances. Tout ceci produit un volume, une vélocité et une variété de données de monitoring et d’alertes de performance jamais atteints jusqu’à présent. Les méthodes traditionnelles de monitoring des applications ne permettent pas d’interpréter toutes ces données, ni de fournir le niveau d’observabilité dont les équipes IT ont besoin pour gérer efficacement la performance de leurs services.
En effet, les systèmes de monitoring traditionnels opèrent généralement indépendamment les uns des autres. Par conséquent, ils génèrent collectivement des milliers d’alertes qui ne tiennent pas compte du contexte élargi de ce qui se passe dans l’ensemble de l’environnement technologique. Les données reçues par les équipes IT sont donc indifférenciées, avec une large proportion de faux positifs et de doublons, qu’il faut passer au crible avant de pouvoir commencer à travailler sur la résolution des problèmes.
Face à ce déluge constant d’alertes, et à la difficulté de traiter rapidement les véritables problèmes de performance, les équipes IT passent finalement le plus clair de leur temps à faire du tri pour déterminer où elles doivent concentrer leurs efforts. Une tâche d’autant plus fastidieuse que la plupart des alertes reçues ne sont ni pertinentes ni critiques : les CIO déclarent ainsi qu’en moyenne, 26% des alertes seulement nécessitent véritablement une action.
Pris dans un déluge d’alertes
Faire le tri entre d’un côté les faux-positifs, les doublons, les alertes de faible priorité, et de l’autre les véritables problèmes, est un processus chronophage et sujet aux erreurs. A la fin, les équipes IT disposent de moins de temps pour une tâche pourtant éminemment plus importante : celle d’identifier précisément et résoudre la cause d’un problème de performance avant qu’il n’entraîne une interruption de service et n’impacte les utilisateurs. Les organisations s’exposent alors à des risques de pertes de revenus et de baisse de leur chiffre d’affaires, particulièrement à une époque où le client peut passer à un service concurrent en un clin d’œil. Pour répondre aux attentes des utilisateurs, qui exigent aujourd’hui des expériences digitales fluides, les équipes IT doivent être capables de maintenir une observabilité de bout-en-bout en gérant efficacement leurs environnements IT de plus en plus complexes.
Il est temps d’adopter une approche radicalement différente pour soulager la pression qui pèse sur les équipes IT. Les ressources aujourd’hui dédiées à trier le trop plein d’alertes doivent être réallouées à une gestion efficace de la performance et à l’optimisation des expériences digitales. Certaines organisations tentent de faire face au problème en améliorant sans cesse leurs outils de monitoring de la performance, mais sans véritable succès, puisque ces outils n’ont pas été conçus pour des environnements multi-cloud si dynamiques. Maîtriser la complexité de ces écosystèmes cloud nécessite de se transformer radicalement, en ne dépendant plus uniquement que des capacités humaines.
Résister à la tempête avec une exploitation pilotée par l’intelligence artificielle
Pour maîtriser leurs environnements complexes et rester compétitives dans un monde centré sur l’expérience client, les organisations doivent aujourd’hui passer à une exploitation du cloud pilotée par intelligence artificielle. Combinée à une approche basée sur un modèle commun de données permettant de décloisonner les données de monitoring, cette approche de l’exploitation offrira un bien meilleur support aux équipes IT en leur fournissant des réponses précises et contextualisées sur les problèmes de performance, plutôt que davantage de données et d’alertes à corréler. En automatisant les processus d’exploitation et de continuous delivery, cette nouvelle approche ouvre ainsi la voie à des capacités d’auto-remédiation des applications.
Finalement, les responsables IT et métiers doivent prendre conscience des faiblesses de leurs systèmes de monitoring traditionnels, qui submergent leurs départements IT d’alertes incessantes. Les organisations doivent aujourd’hui prendre un tournant décisif vers des opérations d’exploitation du cloud pilotées par IA, pour disposer d’informations concrètes sur la performance de leurs applications et sur son impact sur les utilisateurs finaux. Et ce n’est qu’à partir de là qu’elles pourront, au milieu de la complexité de leur cloud d’entreprise, fournir des expériences digitales de haute qualité et rester compétitive sur un marché centré sur le client.
Par Rafael Portolano, Ingénieur avant-vente, Dynatrace