Imaginée par les anciens fans d’Hadoop, OKDP réunit le meilleur du monde open source pour rivaliser avec Databricks ou Snowflake : une stack data cloud-native, gouvernée par ses utilisateurs, sans verrou ni licence.

Notamment soutenue par l’association française TOSIT, l’initiative OKDP (Open Kubernetes Data Platform) ambitionne de proposer, au-delà d’Hadoop, une plateforme data ouverte et cloud-native, modulaire et gouvernable, conçue pour Kubernetes. En filiation directe avec TDP – la distribution Hadoop 100 % open source née pour offrir une alternative à Cloudera/Hortonworks – OKDP entend fédérer moteurs de traitement, stockage objet, analytics et IA au sein d’un socle communautaire, sans verrou propriétaire. À l’heure où les DSI cherchent des options européennes et souveraines pour leurs lacs et entrepôts de données, le projet gagne en maturité et en visibilité.

De TDP à OKDP : le rôle structurant du TOSIT

TOSIT (« The Open Source I Trust ») s’est imposée comme une instance de gouvernance pragmatique réunissant grands comptes et administrations en France pour bâtir et maintenir des briques critiques open source. C’est dans ce cadre qu’est née TDP, distribution Hadoop libre de droits co-construite notamment par EDF et la DGFiP, et désormais « production ready ». TDP a permis de sécuriser l’existant post-fusion Hortonworks/Cloudera tout en redonnant une trajectoire collective et communautaire à l’écosystème Hadoop (HDFS, Hive, Spark, etc.).

En parallèle, les mêmes acteurs incubent aujourd’hui OKDP afin d’appliquer la philosophie « assembleur de standards Apache » à l’ère Kubernetes : déployer sur K8s des composants analytiques et IA, choisir le moteur SQL (Trino, Dremio, Kyuubi/Spark), brancher Flink/Spark/Kafka pour le traitement, et s’appuyer sur MinIO, Cassandra ou MongoDB pour le stockage selon le cas d’usage. Cette continuité TDP→OKDP illustre en réalité une salutaire volonté de préserver les investissements Hadoop tout en préparant la bascule vers des architectures data mesh/fabric, plus natives cloud et plus élastiques.

Forces et limites face aux plateformes propriétaires

La première force d’OKDP tient à son modèle : un assemblage ouvert, sans coûts de licence, gouverné par ses utilisateurs, compatible avec les standards de fait de la « modern data stack ». Cette approche réduit le risque d’enfermement, facilite l’hybridation on-premises/cloud et permet d’ajuster chaque brique au besoin métier, qu’il s’agisse d’analytique interactif, de streaming, de data science ou d’IA orchestrée. Le cadre communautaire TOSIT et les retours terrain d’organisations publiques et privées françaises sécurisent la feuille de route et les choix techniques.

En miroir, les offres propriétaires – Databricks, Snowflake, Cloudera CDP ou les services managés BigQuery, Redshift et Synapse – gardent l’avantage d’une intégration très poussée, d’outils unifiés, d’un support global et d’un time-to-value souvent plus court, au prix de dépendances fortes et de coûts parfois croissants à l’échelle.

Le pari d’OKDP est d’atteindre une expérience d’ensemble cohérente tout en conservant la substituabilité des composants ; sa faiblesse potentielle reste la charge d’intégration et d’industrialisation à assumer par les équipes, qui devront maîtriser Kubernetes, la sécurité de bout en bout et l’observabilité multi-briques.

Le site officiel d’OKDP détaille une architecture modulaire et une feuille de route orientée usages (JupyterHub, durcissement Spark UI/History Server, chart Helm pour Trino et Superset, sandbox et guide de déploiement), avec des jalons sur deux ans et une présence régulière aux rendez-vous de l’écosystème data/IA en France, des ateliers BlueHats de la DINUM à Big Data & AI Paris 2025. Histoire de continuer à évangéliser la grande force de proposition d’OKDP : prolonger la valeur des clusters Hadoop via TDP lorsque c’est pertinent, et préparer de nouveaux cas d’usage cloud-natifs en capitalisant sur une pile ouverte, souveraine et réversible.

 

 

À lire également :

Data Streaming : Ververica Cloud est disponible en previewAvec Data Science Stack, Canonical se lance dans la data science

Avec Data Science Stack, Canonical se lance dans la data science

Du neuf dans le PaaS d’OVHcloud : Data Platform passe en beta