Les technologies de Machine Learning ne tiennent leurs promesses d’automatisation des traitements que lorsqu’elles disposent de données suffisamment représentatives du domaine auquel elles s’appliquent. La détection des spams est d’autant plus efficace que l’algorithme d’apprentissage a été alimenté de nombreux exemples. Un système de pilotage de voiture autonome ne sera opérationnel que s’il a appris à reconnaître les autres véhicules et la signalisation routière à partir d’images prises dans la circulation. Une application d’aide au diagnostic nécessitera l’accès à des banques d’images médicales, un moteur de traduction automatique s’appuiera sur des bibliothèques de textes déjà traduits etc.
Ce principe ne se dément pas lorsque le Machine Learning est mis en œuvre dans le monde de la gestion. Les entreprises l’ont bien perçu. Elles ont ainsi fait émerger des rôles de Chief Data Officers avec pour objectif de décloisonner les données qui dorment dans des silos organisationnels.
Cependant, puisque la performance dépend de l’accumulation rapide de données représentatives, ne faut-il pas aussi faire tomber les murs séparant chaque organisation du monde extérieur ?
Plateformes prédictives : le challenge de la data
L’émergence de plateformes prédictives SaaS (ou DaaS, Data as a Service) proposant d’appliquer le Machine Learning à des thématiques variées (détection d’opportunités commerciales, optimisation des processus de vente, modélisation et planification financière, détection des risques de défaut, prévision des délais de paiement, etc.) soulève la question avec une acuité particulière. Chaque plateforme héberge en effet les données confiées par ses clients sur une infrastructure commune. Il est donc techniquement très simple de les mutualiser afin d’augmenter la profondeur du champ d’investigation des algorithmes et, par conséquent, la qualité de l’information restituée à l’utilisateur.
Prenons l’exemple d’une plateforme d’évaluation de leads commerciaux. La mise en commun des informations détenues dans l’ensemble des bases CRM des sociétés utilisant ce logiciel permettrait d’analyser les comportements d’achat de leurs clients sur un spectre beaucoup plus large et d’anticiper leurs besoins beaucoup plus précisément qu’en exploitant séparément chaque source de données. Cependant, des concurrents peuvent figurer parmi les utilisateurs de la plateforme. Les sociétés sont donc assurément réticentes à voir leurs données exploitées au bénéfice de possibles rivaux.
Mutualisation versus rétention de l’information
Le dilemme est ainsi posé : personne ne souhaite partager ses données mais chacun bénéficierait d’un accès à celles des autres. Il s’agit par conséquent pour le décideur de naviguer entre deux écueils tout aussi dangereux : brider des technologies qui s’avèrent cruciales pour la performance future de son organisation ou laisser des tiers bénéficier de ses informations propriétaires qui, comme le proverbial dentifrice, ne pourront être remises dans le tube une fois divulguées.
Faute de pouvoir jouer les passagers clandestins, l’organisation doit établir un bilan coût-avantage qui permette d’opter au cas par cas entre rétention et mutualisation des données.
____________
Jean-Cyril Schütterlé est Directeur Produit et Data Science de Sidetrade