Domaine technologique émergent de ces dernières années, l’AIOps (Intelligence Artificielle pour les Opérations Informatiques) est devenu un terme usité pour de nombreux responsables de secteurs informatiques. A la base, l’AIOps est un concept simple et pratique : il s’agit essentiellement d’appliquer l’intelligence artificielle et le machine learning à l’automatisation des opérations IT.

Il n’en reste pas moins que, pour beaucoup d’observateurs, l’AIOps est un terme dont la signification a été brouillée par un phénomène de mode du ‘tout AI’, un battage médiatique et une perception souvent erronée de sa réalité. De nombreux éditeurs et utilisateurs y ont placé des attentes excessives, assorties d’une pincée de pensée magique. Avant de voir comment l’AIOps résout certains problèmes spécifiques à l’IT, commençons par démystifier sept idées reçues sur ce domaine.

1 — L’AIOps est coûteuse et difficile à implémenter

Tous les outils de l’AIOps ne sont pas identiques. Certains d’entre eux fonctionnent en mode ‘boite noire’, rendant de fait leurs opérations AI/ML et leurs corrélations opaques aux utilisateurs. D’autres requièrent en effet un temps et des efforts conséquents pour leur apprentissage, leur configuration et leur intégration. Tous les outils ne doivent pas pour autant être mis dans le même panier ni jugés nécessairement complexes et coûteux.

Dans la réalité, lorsqu’ils bénéficient d’importantes sources préexistantes de télémétrie et de données opérationnelles provenant d’un très grand nombre d’environnements réels, des modèles de ML pré-entraînés peuvent fournir des résultats solides et efficaces immédiatement ; sans courbe d’apprentissage fastidieuse ni temps de formation excessifs ou autres coûts prohibitifs. La valeur recherchée est obtenue rapidement et sans effort, permettant ensuite une amélioration et un ajustement progressifs qui s’appuient sur les données et les règles spécifiques à l’entreprise.

2 — L’AIOps n’est accessible qu’aux grandes entreprises

Si l’on s’en tient aux objectifs de l’AIOps, il n’y a aucune raison susceptible d’empêcher une petite équipe de recueillir tous les avantages de l’AIOps en découvrant plus rapidement des problèmes opérationnels potentiels et des corrélations, tout en diminuant sensiblement la charge humaine.

Les déploiements à grande échelle nécessitant une longue période d’entraînement des modèles et de nettoyage des données ne sont pas forcément à la portée d’une petite entreprise. Toutefois, des équipes d’ingénierie restreintes peuvent obtenir des résultats immédiats à partir de modèles pré-entraînés parfaitement efficaces. Et peut-être n’ont-elles finalement besoin que de cela. Indépendamment de sa taille, chaque entreprise peut tirer des avantages substantiels de l’AIOps.

3 — L’AIOps n’est qu’un phénomène marketing

A l’instar de la plupart des technologies émergentes, l’AIOps a donné lieu à bons nombres de projets et de solutions dont les capacités ou les attentes ont été exagérées. Il ne faut pas pour autant que les entreprises et les ingénieurs soient découragés par ces déconvenues, dans la mesure où de nombreuses solutions basées sur l’AIOps sont désormais bien réelles. Par exemple, des équipes DevOps et SRE soucieuses d’innovation utilisent désormais l’AIOps 24/7 pour détecter automatiquement des anomalies dans des environnement potentiellement très complexes et prévenir les incidents avant qu’ils viennent impacter directement le client. Elles sont en mesure de réduire sensiblement la fatigue liée au bruit généré par les alertes, et peuvent identifier plus rapidement qu’auparavant les causes premières des problèmes.

Selon Gartner, 10% des entreprises utilisent déjà l’AIOps, et ce pourcentage d’adoption devrait augmenter rapidement dans un avenir proche. A en juger par les analystes, 40 % des entreprises adopteront l’AIOps  dans les deux prochaines années. Il devient donc évident que l’AIOps doit être considéré comme une option de plus en plus pertinente au sein des entreprises.

4 — L’AIOps n’a de valeur que pour un déploiement à grande échelle

Avec l’IA/ML, chacun peut être tenté de s’attaquer dès le départ à des problématiques et des objectifs ambitieux, appelant de larges déploiements, un grand volume de données et des ressources importantes. Il en va de même avec l’AIOps, et de nombreuses entreprises, qui placent la barre très haut, peinent ensuite à faire décoller leur projet pour le passer en production et en obtenir les résultats et les bénéfices attendus.

De fait, il est probable qu’une entreprise parviendra plus rapidement à la valeur qu’elle recherche en automatisant des processus de moindre ampleur et en adoptant une approche itérative, avec une politique de gains incrémentaux. Dès lors que l’entreprise et les développeurs implémentent l’AIOps en s’attaquant à des objectifs ciblés aux retours rapides, ces déploiements plus restreints vont s’additionner pour offrir un résultat global supérieur à la somme de ses parties. Grâce à l’itération et à la validation, ces équipes sont en mesure de muscler efficacement l’AIOps, ce qui se traduira par des avantages durables et démontrables, évitant dans le même temps les délais et les risques associés aux projets plus complexes ou plus vastes.

5 — L’AIOps n’est qu’un nouveau terme fantaisiste

L’AIOps est beaucoup plus qu’un simple phénomène de mode, un outil pour réduire le bruit ou agréger les alertes. Les meilleures implémentations de l’AIOps permettent ‘out-of-the-box’ : de détecter proactivement des comportements inhabituels et des anomalies dans les systèmes applicatifs les plus complexes ; de prévenir les incidents potentiels avant qu’ils n’impactent l’utilisateur final ; d’accélérer et d’enrichir l’’analyse des causes premières des anomalies et des incidents.

A cet égard, l’AIOps, combiné à un accès aux données de télémétrie, devient rapidement un élément vital de l’observabilité. Il permet non seulement aux équipes de faire apparaître de manière précoce des problèmes jusqu’alors inconnus, mais aussi d’alerter immédiatement la bonne équipe, tout en lui apportant une analyse précieuse des causes, du contexte, ainsi que les procédures opérationnelles de remédiation voire leur automatisation.

L’AIOps fournit aux développeurs et aux équipes d’ingénierie des analyses décisionnelles sur l’occurrence et les causes des problèmes, ainsi que des indications permettant d’y remédier, leur permettant ainsi de mettre en œuvre les actions requises beaucoup plus rapidement et efficacement.

6 — L’AIOps remplace le travail humain

Dès les premiers développements de l’IA et du ML, l’idée s’est répandue que ces technologies étaient en mesure de remplacer entièrement l’humain. Je pense qu’il   faut plutôt considérer que l’AIOps est à même d’augmenter les capacités des humains. Elle n’affranchit pas de l’intervention et du travail des opérateurs, ingénieurs et développeurs. Elle permet simplement aux équipes IT de se libérer des tâches impérieuses et coûteuses liées à la recherche de pannes et à la résolution d’incidents, leur permettant ainsi de se concentrer sur des activités à valeur ajoutée.

L’AIOps permet aux ingénieurs de réaffecter leurs ressources de manière à être plus préventifs et proactifs que réactifs. Avec le temps gagné sur la recherche manuelle de pannes et le tâtonnement, mais aussi les coûteuses cellules de crise, les équipes disposent ainsi du temps et de la marge de manœuvre nécessaires pour travailler de manière productive, créative et efficace – avec à la clé des logiciels plus performants, des systèmes plus résilients et une capacité d’innovation qui assure le développement des activités et de l’entreprise.

De surcroît, compte tenu de la complexité et de la volatilité des architectures logicielles basées sur des microservices (10-100 s) et des containers (100-1000) dans le cloud, l’AIOps est en mesure de détecter infatigablement et efficacement toute anomalie. Autrement dit, d’identifier des problématiques que l’homme n’est simplement pas en mesure de détecter avec ses outils de visualisation et ses politiques d’alerte habituels.

7 — L’AIOps corrige automatiquement les problèmes sans intervention humaine

Sur ce point spécifique nous ne sommes effectivement pas aussi loin de la vérité. L’AIOps peut en effet déjà être utilisé pour contribuer à résoudre des problèmes spécifiques, sans soutien humain. Mais nous n’y sommes pas encore tout à fait.

L’AIOps est aujourd’hui essentiellement utilisé pour détecter les problèmes, réduire les bruits générés par les alertes et offrir aux équipes d’ingénierie une analyse des causes premières, en fluidifiant la gestion des incidents et le processus de résolution. Certaines solutions d’observabilité et d’AIOps sont déjà intégrées en toute transparence avec des outils de gestion des incidents et des outils d’automatisation, permettant donc l’automatisation du workflow des incidents, ainsi qu’une remédiation automatisée et l’exécution des runbooks.

Tout cela offre déjà une valeur et une efficacité avérées. Certes, cela nécessite encore la valeur ajoutée associée aux connaissances et au savoir-faire humains pour définir les workflows automatisés et les runbooks qui doivent être exécutés, en fonction du problème spécifique à résoudre et de son contexte. Prendre des décisions entièrement autonomes face à tout incident sera la prochaine frontière à franchir pour l’AIOps.

L’AIOps n’est peut-être pas encore le Graal tant attendu qui permettrait de relever tous les défis des équipes DevOps ou du traitement des données. Cependant, associé étroitement à la télémétrie applicative et à l’observabilité, son potentiel est immense.

Avec l’évolution rapide de notre industrie, nous continuons à utiliser l’intelligence artificielle, le machine learning et l’analyse des données pour innover, conquérir de nouveaux territoires et mettre en œuvre des cas d’usage inédits. De la cybersécurité à la prévention des défaillances, en passant par l’amélioration de l’expérience client, sans oublier l’élaboration de logiciels d’un haut niveau de qualité et de performance, les entreprises qui adoptent aujourd’hui l’observabilité sont celles qui bénéficieront rapidement et pleinement des apports de l’AIOps.
___________________

Par Gregory Ouillon, CTO EMEA New Relic