Après Darwin, de nombreux scientifiques ont proposé des théories d’évolution des espèces qui établissent des liens de causalité entre la longévité et deux caractéristiques :

  • Efficacité de transformation d’énergie (la productivité)
  • Capacité d’adaptation à des environnements changeants (l’agilité)

Nous vivons déjà dans un environnement où chaque produit consommé, chaque service vendu voire rendu, chacun de nos choix, génère de nouvelles données. Quel que soit le secteur d’activité, quelle que soit l’entreprise, le traitement des données est au cœur des préoccupations des managers, car son exploitation intelligente permet de générer des gains substantiels à deux niveaux :

  • Optimisation des processus internes (la productivité)
  • Evolution de l’offre, en fonction de la demande des clients (l’agilité)

Ensemble, ces deux facteurs peuvent assurer la domination d’une organisation sur une autre, tout comme dans le sens inverse, une absence peut assurer sa disparition.

Datas en croissance de 32% par an

Le stockage des données représente environ 7% des coûts du « run ». Avec une croissance des données qui s’établit à environ 32% par an, IDC prévoit qu’en 2025 il y aura près de 175 zettaoctets de données. Alors que le coût par TB de donnée stockée continue à baisser, le besoin croissant d’un accès immédiat et en continue aux datas pousse les coûts à augmenter. Les budgets stockage devraient donc suivre une augmentation annuelle équivalente à quelques 32%, ce qui correspond à l’augmentation des quantités traitées. De quoi alimenter un marché global des solutions de stockage qui va atteindre 4 milliards d’Euros en 2025.

Un niveau d’hétérogénéité élevé des datas

Avec des sources et formats couvrant : documents, images, vidéos, voix, métriques, logs, en provenance de milliers d’applications, d’objets connectés et de services tiers … le management de l’hétérogénéité des datas requière souvent le déploiement d’instances spécialisées en amont de la chaîne de traitement pour extraire, nettoyer, compresser, labéliser et enrichir les flux.

Ce processus représente environ 80% de l’effort build des projets big-data, mais lorsqu’ils sont en production, seulement 30% à 40% de leurs coûts run, maintenance comprise. Ce chiffre peut varier selon le rythme d’intégration de nouveaux streams de données.

Vers le temps réel

En partie dû au développement des micro-services et du serverless, les datas deviennent éphémères, avec des durées de vie décroissantes.

D’après Computerweekly, 20% des datas enregistrées au niveau mondial sont critiques pour le bon fonctionnement de notre quotidien. 10% seront ultra-critiques ! Ceci veut dire qu’au niveau mondial, en 2025 il y aura besoin d’infrastructure de stockage correspondant à 17 milliards de téraoctets accessibles en mémoire vive.

Pour traiter ces quantités de données, le marché évolue vers l’utilisation des infrastructures optimisées (PCIe 4, NVMe SSD…) qui offrent des capacités de débits allant jusqu’à 5 000 MB par seconde et par unité). Pour traiter 1TB de données par seconde, il convient de paralléliser le fonctionnement de 200 cartes PCI e4, ce qui augmente le niveau de complexité de l’architecture et des applications.

La beauté des algorithmes

Les algorithmes (et notamment les réseaux neuronaux) analysent de longs vecteurs de signaux entrants et les « classifient » avec un niveau de précision extrêmement élevé. Cette performance est très intéressante car elle permet d’automatiser ce qu’un cerveau humain fait bien, mais n’arrive pas à faire à échelle.

Lorsqu’on ajoute ces capabilités à d’autres classes d’algorithmes, comme des méthodes du type Monte-Carlo Tree Search qui structurent les arborescences d’événements probables à venir, on peut construire des systèmes prédictifs puissants.

Ensemble, ces algorithmes établissent des liens de causalité entre événements, reconnaissent des situations déjà rencontrées ou similaires (images, sons, mots, texte, logs, métriques M2M, jeux …) et prédisent les événements qui vont suivre. Il est ici question d’automatisation des processus de formulation et d’exécution des stratégies.

Ce n’est pas un projet techno, mais business

Alors que certains projets qui n’ont pas délivré la valeur attendue ont fait la une des médias spécialisés, il est possible d’affirmer avec certitude qu’une part importante de projets a réussi à délivrer des « wins » absolument spectaculaires. Seul problème ; chaque seuil « d’intelligence digitale » atteint et dépassé capte l’imagination du publique pendant une période très courte avant de devenir la nouvelle norme.

Mobiliser l’organisation autour d’initiatives machine learning nécessite la définition, au préalable, d’objectifs opérationnels visés (impact coût, agilité et qualité). Lorsque les fondamentaux d’un business case sont établis, il devient possible de mobiliser les financements et lancer le projet. Moins on a d’expérience avec les projets cognitifs, plus il est prudent de commencer avec des initiatives « à taille humaine » avant d’élargir le périmètre de déploiement.

Il est plus facile de se lancer sur l’optimisation des processus que sur l’innovation de l’offre, car mesurer et réduire les coûts est moins risqué (car plus contrôlable) que de s’engager sur de nouvelles offres. Alors que le ROI des efforts d’automatisation des processus peut générer des gains de productivité qui avoisinent les 20% à 40%, les innovations d’offre qui réussissent peuvent générer des gains qui se chiffrent en milliards.

Pourquoi attendre ?

Depuis 4 ans, le développement des technologies facilitant chaque étape du processus data analytics a considérablement démocratisé l’usage du machine learning dans les entreprises.

Les entreprises qui offrent des solutions customisées dans ce domaine offrent typiquement des services qui accompagnent le client dans l’élaboration de son projet. Ces démarches sont structurées en 8 étapes, avec des stop/go à chaque étape clé :

  1. Cerner le périmètre concerné par l’opportunité d’automatisation
  2. Développer un modèle financier contenant les KPI à piloter (gains de productivité, d’agilité et de qualité de service)
  3. Comité de décision : valider ou non la poursuite vers l’étape 4
  4. Définir l’architecture de l’infrastructure et des applications & affiner le modèle financier
  5. Comité de décision : valider ou non le déploiement sur périmètre défini
  6. Déployer (2 à 18 mois selon le niveau de complexité)
  7. Mettre en place des tableaux de bord de pilotage des gains – reporting aux instances de gouvernance
  8. Définir & piloter les actions correctives & les améliorations

Ce processus représente ainsi un moyen structuré permettant de capitaliser au mieux sur ses investissements tout en maitrisant les risques.
___________________

Par Vladimir Dragic, Directeur Stratégie Digitale , BMC Software France