Les OS, c’est bien… Mais on finit par tourner en rond. Alors Canonical cherche à monter dans les piles d’infrastructure. Et l’une d’elles devient aujourd’hui critique : la pile des briques de Data Science. Canonical s’infiltre sur ce marché avec une approche open source et sa solution Data Science Stack.
Canonical est surtout connu pour ses distributions Linux destinées aux serveurs, aux postes de travail, au monde de l’embarqué comme au monde des makers. Mais l’éditeur se cherche de nouveaux horizons. La donnée lui en ouvre un évident. Canonical annonce cette semaine une nouvelle solution baptisée Data Science Stack (DSS). Cette plateforme a pour but de simplifier la mise en place et la gestion des environnements dédiés à la data science (à commencer par les besoins ML et IA bien sûr).
Entièrement open source et gratuite, Data Science Stack est une pile logicielle conçue pour être utilisée principalement sur Ubuntu, bien qu’elle soit également compatible avec d’autres distributions Linux et notamment via WSL sous Windows et Multipass sur macOS.
Pour l’éditeur, Canonical DSS se caractérise par son installation rapide en trois commandes simples, rendant possible une configuration initiale en 10 à 30 minutes selon l’expertise de l’utilisateur.
Cette pile logicielle combine et intègre des outils clés et réputés des chaînes de data science tels que Jupyter Notebook pour le développement de modèles, MLflow pour le suivi des expériences, et des frameworks ML incontournables comme Pytorch et Tensorflow. Les utilisateurs ont également la possibilité de personnaliser la stack en ajoutant des bibliothèques spécifiques à leurs besoins.
Une caractéristique notable de DSS est l’intégration des distributions Intel de PyTorch et TensorFlow, ITEX et IPEX, qui optimisent les performances matérielles grâce aux technologies telles que les extensions vectorielles avancées et l’accélération GPU. De quoi offrir aux workloads des entreprises une amélioration significative du temps de traitement des données et accélération des expérimentations IA.
Canonical s’engage également à maintenir la sécurité de tous les paquets logiciels inclus, en corrigeant les vulnérabilités de manière proactive pour protéger les logiciels et les données. Cette gestion simplifiée des dépendances et des versions réduit les défis techniques souvent rencontrés par les data scientists lors du déploiement de modèles d’IA et soulage les administrateurs IT d’une gestion complexe des patchs.
Grâce à l’intégration avec Kubernetes et le support natif d’Ubuntu, Data Science Stack est optimisée pour les déploiements dans des environnements de cloud hybrides ou multiclouds.
Reste que Canonical arrive ici sur un marché compliqué et concurrentiel. Même si l’on peut voir sa « Data Science Stack » comme une couche basse aux plateformes de Data Science et donc comme un concurrent direct de la solution DataOps du français Saagie (et de sa DataFactory), l’offre entre finalement aussi en concurrence avec les plateformes Cloud des hyperscalers (Microsoft Fabric, Google Vertex AI, Amazon SageMaker, OVHcloud Data Plaform), avec les plateformes multicloud que sont Dataiku, Databricks, DataRobot,Cloudera Data Platform, SASViya, Alteryx et consorts, mais aussi les plateformes open source que sont Posit, Knime, RapidMiner (désormais dans le giron d’Altair).
Canonical met en avant non seulement son orientation open source et l’accessibilité de sa solution mais également sa flexibilité pour les entreprises et les développeurs souhaitant personnaliser entièrement leur environnement de travail en data science.