La standardisation des formats dans les environnements « lakehouse » redéfinit les équilibres du data cloud, où l’ouverture devient une exigence stratégique. En intégrant Apache Iceberg au cœur de sa plateforme, Snowflake renforce un modèle d’interopérabilité sans renier ses garanties de performance, sécurité et gouvernance.
Il existe depuis plusieurs années une guerre de formats autour des lacs de données. Et celle-ci est au cœur de la bataille que se livrent deux concurrents phares de l’univers moderne de la Data : Snowflake et Databricks. Mais dans un univers cloud natif de la gestion des données, ces deux acteurs doivent aussi affronter des géants comme Microsoft (avec Synapse / MS Fabric), Teradata (avec Vantage) et Google (avec BigQuery/ BigLake). Une compétition qui conduit les DSI a recherché désormais en priorité l’ouverture pour éviter les « Lock-ins ».
Rappelons que l’émergence des data clouds a déclenché une compétition stratégique autour des formats de données dans l’univers des lakehouses, ces entrepôts de données nouvelle génération qui s’appuient sur des lacs de données. L’enjeu fondamental est la séparation nette entre le stockage des données et les capacités de calcul nécessaires à leur traitement, garantissant ainsi aux entreprises une véritable souveraineté sur leurs données conservées dans des environnements simplifiés. Et pour mieux résister à la concurrence des géants et conserver à leurs offres toute leur pertinence, Snowflake et Databricks semblent vouloir désormais jouer la même carte « ouverte » : Apache Iceberg.
Développé chez Netflix et incubé en open source chez Apache depuis 2018, Apache Iceberg est un format de table open-source conçu pour les grandes tables analytiques se mesurant en pétaoctets. Sa capacité à gérer des volumes de données massifs de manière efficace en a fait un choix privilégié pour les environnements « big data » comme on les appelait alors. Depuis, le format est devenu clé dans l’univers des lacs de données et des lakehouses grâce à sa gestion efficace des métadonnées mais aussi son support des transactions ACID (Iceberg garantit la cohérence et la fiabilité des données via des transactions atomiques tout en supportant les interrogations SQL), son mécanisme « d’instantanés » (qui permet de remonter le temps), ses évolutions dynamiques de schémas et ses performances.
Snowflake a toujours supporté Apache Iceberg (notamment dans ses outils annexes comme Polaris Catalog) mais privilégié son propre format historique. De son côté, Databricks développait son propose format (Delta Lake) avant d’acquérir en juin dernier Tabular (l’un des grands spécialistes d’Iceberg) avec la ferme volonté d’unifier les formats pour masquer les différences aux développeurs.
La semaine dernière, Snowflake a fait franchir un nouveau palier d’ouverture à sa plateforme en prenant très officiellement en charge le format de table ouvert Apache Iceberg, plaçant de fait son datawarehouse cloud natif dans le sillage des « lakehouses ouverts » sans renoncer à ses promesses de performance et de sécurité.
« L’avenir des données est ouvert, mais il doit aussi être simple », résume Christian Kleinerman, EVP Product. « Les clients ne devraient pas avoir à choisir entre formats ouverts et performances de premier ordre ; avec Iceberg, ils travaillent leurs données ouvertes comme s’il s’agissait de tables natives Snowflake, tout en conservant la même sécurité et la même continuité d’activité. »
Concrètement, Snowflake applique désormais directement son moteur de calcul aux tables Iceberg et prépare deux accélérateurs — Search Optimization et Query Acceleration Service — destinés à réduire la latence analytique. La réplication et la synchronisation des tables, actuellement en preview privée, permettront une restauration rapide après incident ou cyber-attaque, tandis qu’un support du type de données VARIANT est en cours de développement avec la communauté open source.
Sur le plan de la gouvernance, toutes les fonctions de contrôle d’accès, de chiffrement et d’audit déjà disponibles pour les tables Snowflake s’appliquent aux tables Iceberg. Les équipes RSSI peuvent ainsi étendre leurs politiques de conformité sans modifier l’architecture et bénéficier d’un partage de données sécurisé — et monétisable — entre organisations, sans mouvement de données.
« Avec les tables Iceberg gérées par Snowflake, les clients bénéficient de la flexibilité des formats ouverts tout en profitant des performances et du rapport qualité-prix de la plateforme » résume l’éditeur qui cherche avec cette adoption native d’Iceberg à se poser en garant de la portabilité des données.
Cette ouverture s’inscrit en effet dans une stratégie plus large : après avoir livré l’an dernier Polaris Catalog — implémentation REST open source du catalogue Iceberg — Snowflake multiplie les acquisitions orientées communauté (open-sourcing de Streamlit, Modin pour le scale-out de pandas, Datavolo autour d’Apache NiFi, TruEra pour la gouvernance IA) afin de bâtir un écosystème interopérable du stockage jusqu’à l’IA. Au passage on remarquera que l’approche de Snowflake semble lui être finalement moins coûteuse que cette de Databricks qui a « allongé » un chèque de près de 2 milliards de dollars en 2024 pour s’offrir Tabular.
Pour les DSI et RSSI, cette adoption d’Iceberg au cœur de Snowflake est donc bienvenue. L’équation « data cloud » gagne en effet ainsi en clarté : elle permet d’exploiter un format ouvert devenu standard du marché, tout en conservant les SLA, le modèle de sécurité et les capacités de gouvernance d’une plateforme managée qu’il maîtrise déjà. Reste à arbitrer les coûts de stockage externe, mais la promesse est limpide : unifier le pilotage de la donnée — et de l’IA — sans verrou propriétaire.