Bénéficiant de nouveaux outils logiciels automatisés pour accroître la productivité du traitement des données et du machine learning, les diverses fonctions des équipes data tendent à converger. Cette évolution favorise une collaboration en toute sérénité pour le développement basé sur les données et l’IA.
L’activité en silo était auparavant une source majeure de friction interne, lors des transferts de projet entre les membres d’une équipe. Aujourd’hui, data scientists, ingénieurs et autres spécialistes de l’équipe data en savent plus sur les compétences requises dans chaque domaine, et de nouveaux logiciels facilitent de nombreuses tâches qui autrefois nécessitaient des équipes spécialisées. Ainsi, la convergence des équipes data va devenir similaire à celle des équipes de développement et d’exploitation, telle que DevOps pour le développement de logiciels. Ce changement va entraîner à la fois de nouvelles structures organisationnelles et de nouvelles fonctions.
Enjeux des équipes data en silos
De nombreuses organisations sont confrontées aux problèmes de silos et d’incohérence des données, mais également aux frictions organisationnelles liées au manque de collaboration entre les data scientists et les ingénieurs data. Souvent, les équipes ignorent ce que les autres font, et les modifications des pipelines de données prennent des mois parce qu’elles exigent des efforts de la part de nombreuses équipes distinctes. Les équipes doivent collaborer de manière transversale pour s’entendre sur les définitions des données ou les indicateurs. L’analytique avancée ou les projets d’IA nécessitent la combinaison de plusieurs jeux de données, si bien que les données en silos nuisent au processus de développement ainsi qu’à la qualité et à l’exactitude finales des résultats. Cependant, alors que ces silos de données se désagrègent, une plus grande collaboration entre les équipes de data engineering et de data science fait évoluer la structure des équipes data.
Logiciels et frameworks font la différence
De nouveaux frameworks, ensembles d’outils et de composants logiciels, permettent cette convergence des équipes data. Avec la popularité croissante de la data science, du machine learning (ML) et du data engineering, les développeurs de frameworks ont identifié et automatisé les problématiques courantes, ce qui facilite la gestion du cycle de vie complet d’une application basée sur les données par une seule équipe ou même un seul individu. De plus, de nouveaux frameworks, comme Apache Spark, ont permis une ingénierie des données nécessitant moins de code en langages de programmation.
Les frameworks de machine learning ont également évolué, notamment dans le domaine de la gestion des applications en production. Par exemple, avec ces outils, un data scientist peut déployer un modèle en production ou un ingénieur logiciel peut sans risque modifier une partie d’un pipeline de machine learning. Le nouveau poste d’ingénieur ML (Machine Learning) consiste à aller au-delà de la tâche de modélisation et à la prise en charge d’une application ML complète de bout en bout. Les outils d’AutoML sont également en plein essor, permettant aux personnes ayant une formation en statistiques ou en logiciels d’explorer rapidement un espace de modèles de haute qualité.
Enfin, les services cloud ont également réduit les obstacles à la productivité grâce aux données et au machine learning. Des plateformes modernes et unifiées permettent aux ingénieurs de déployer des pipelines de production sans effort significatif en matière de DevOps. Les utilisateurs peuvent mettre à jour des modèles via une API et les data scientists transformer des notebooks exploratoires en rapports ou tableaux de bord programmés sans impliquer une autre équipe. Ensemble, ces outils permettent aux équipes verticales de « s’approprier » tous les composants d’une application basée sur les données ou le ML et d’itérer dessus plus rapidement que dans une organisation en silos.
Passage au paradigme de Lakehouse
La tendance actuelle à la construction de Lakehouse vise à démanteler les silos de données. Historiquement, les entreprises se retrouvaient avec des architectures complexes où plusieurs entrepôts de données de l’entreprise étaient gérés par différentes équipes. Le passage à l’échelle de la plupart des systèmes d’entrepôts de données étaient coûteux, ce qui a encore réduit la motivation à centraliser les données. Dans les années 2010, les data lakes sont apparus comme un environnement à faible coût pour stocker des jeux de données brutes, mais ils étaient dépourvus de l’application des schémas, des transactions ACID (atomicité, cohérence, isolation et durabilité) et de la gouvernance qui caractérisent les entrepôts de données. Aujourd’hui, les nouvelles technologies ajoutent ces fonctionnalités directement au-dessus du stockage des data lakes, créant ainsi le meilleur des deux mondes : un système de gestion des données doté de la fiabilité et de la gouvernance d’un entrepôt de données, ainsi que de la dimension à grande échelle et du moindre coût d’un data lake.
Les Lakehouses permettent aux équipes data de converger et de se concentrer de plusieurs façons sur les actions propres à leur métier.
Nouvelle structure d’équipes aux fonctions hybrides
Alors, où en sont les équipes data ? Elles vont se concentrer davantage sur les problèmes propres à leur structure de façon verticale et les fonctions hybrides vont se développer. Alors que la technologie réduit la friction opérationnelle des applications basées sur les données et l’IA, de plus en plus d’entreprises mettent en place des équipes verticales, à même de s’approprier l’intégralité de ce type d’application ou de produit, avec des équipes centrales de data science ou d’ingénierie des données à leur service en tant que pôle d’excellence pour les conseiller. Bien qu’une structure d’équipe unifiée puisse sembler irréaliste étant donné la complexité des applications actuelles basées sur les données, et qu’elle ne soit pas le bon choix dans toutes les situations, ce type de convergence s’est déjà produit à de nombreuses reprises dans le domaine de l’informatique.
Plus récemment, les services cloud associés aux outils DevOps et à divers frameworks ont permis le développement d’applications web complètes. En fin de compte, les entreprises choisiront la structure d’équipe qui leur permettra d’itérer sur les problèmes métier et de fournir de la valeur le plus rapidement possible. Les professionnels des données apprendront les pratiques qui leur permettent de fournir cette valeur à leur entreprise.
___________
Matei Zaharia est co-fondateur & Chief Technologist de Databricks