Avec le rachat de Dremio, SAP veut résoudre l’un des grands blocages de l’IA en entreprise : des données trop dispersées entre applications SAP, outils métiers, clouds et data lakes. En intégrant une technologie fondée sur le format ouvert Apache Iceberg, l’éditeur veut donner à Business Data Cloud une base plus solide pour connecter, gouverner et exploiter ces données au service de l’analytique et des agents IA.

Dans l’IA d’entreprise, les modèles IA attirent la lumière, mais la donnée reste le vrai moteur. Pour les DSI, le sujet n’est plus seulement de brancher un LLM sur quelques référentiels internes. Le vrai défi consiste à rendre les données accessibles, compréhensibles, gouvernées, explicables et exploitables en temps réel par des applications, des analystes et, demain, des agents autonomes. Bref, à transformer le vieux plat de spaghettis du système d’information en buffet organisé. Avec des étiquettes. Et des droits d’accès.

Cette bataille passe désormais par un sujet beaucoup moins glamour que les modèles fondation, mais beaucoup plus structurant : la standardisation des formats de données dans les architectures lakehouse. Car un lakehouse n’a d’intérêt stratégique que s’il évite de recréer, sous une autre forme, les silos et les enfermements propriétaires que le cloud avait promis d’abolir. C’est ce qui explique l’ascension rapide d’Apache Iceberg, devenu l’un des formats ouverts de référence pour les tables analytiques modernes. Snowflake l’a bien compris en renforçant, en avril 2025, son support d’Iceberg pour permettre aux entreprises d’activer leurs données ouvertes sans déplacement massif, avec l’objectif affiché de combiner formats ouverts, performance, sécurité et gouvernance. Databricks l’avait compris aussi un an plus tôt en rachetant Tabular (pour 1 milliard de dollars, excusez du peu), la société fondée par les créateurs d’Apache Iceberg, afin de rapprocher les mondes Delta Lake et Iceberg et de peser sur le futur standard du lakehouse ouvert. Le signal était clair : la guerre de la donnée d’entreprise ne se joue plus seulement dans les entrepôts cloud, mais dans les formats, les catalogues, les couches sémantiques et les moteurs capables de faire circuler la donnée entre plusieurs environnements sans la transformer en otage technologique.

C’est dans ce contexte que l’acquisition de Dremio par SAP prend tout son sens. L’éditeur allemand ne rachète pas simplement un moteur de requêtes ou une plateforme de data lake. Il achète une pièce essentielle dans la bataille des fondations data de l’IA d’entreprise. Avec Dremio, SAP met la main sur une plateforme lakehouse ouverte, native Apache Iceberg, pensée pour interroger les données là où elles résident, fédérer les environnements SAP et non-SAP, et fournir aux agents IA une couche de contexte gouvernée.

Dremio, le spécialiste qui parle Iceberg couramment

Dremio n’est pas une start-up sortie du chapeau magique de l’IA générative. Fondée en 2015, l’entreprise s’est d’abord fait connaître comme moteur de requêtes pour data lakes, avant de se repositionner sur le lakehouse, cette architecture qui cherche à marier le meilleur du data lake et du data warehouse. En clair : l’ouverture, l’élasticité et les coûts du premier, avec la performance, la structure et la fiabilité analytique du second.

La société a levé 410 millions de dollars et avait atteint une valorisation de 2 milliards de dollars lors de son dernier tour de table en 2022. Elle s’est aussi imposée dans l’écosystème open source autour de trois briques devenues stratégiques : Apache Arrow, Apache Iceberg et Apache Polaris. Dremio a notamment contribué à Apache Polaris, un catalogue ouvert pour Iceberg visant à faciliter l’interopérabilité entre plusieurs moteurs et plateformes, de Spark à Trino, en passant par Snowflake, Flink, Doris ou StarRocks.

La promesse de Dremio tient en une formule assez simple : permettre aux entreprises d’interroger leurs données là où elles se trouvent, sans multiplier les pipelines ETL, les copies, les transformations et les couches de complexité. Sa plateforme fournit des requêtes SQL haute performance sur des données distribuées ainsi qu’une couche sémantique pour donner du sens métier aux données, un catalogue ouvert, et désormais des capacités orientées agents IA permettant de découvrir, analyser et visualiser les données en langage naturel.

Dremio se présente d’ailleurs désormais comme un « agentic lakehouse », c’est-à-dire un lakehouse pensé non seulement pour les data engineers et les analystes, mais aussi pour les agents IA. L’idée n’est plus seulement de rendre la donnée lisible par un humain derrière un tableau de bord, mais exploitable par des systèmes autonomes qui devront comprendre le contexte, respecter les droits d’accès, tracer leurs décisions et éviter de confondre une donnée brute avec une vérité métier.

SAP veut brancher Joule sur une donnée moins bancale

L’opération annoncée par SAP est donc très ciblée. Le groupe allemand a confirmé son intention d’acquérir Dremio pour renforcer SAP Business Data Cloud et mieux combiner les données SAP et non-SAP dans les usages analytiques et IA en temps réel. Les conditions financières n’ont pas été divulguées. La transaction reste soumise aux approbations réglementaires et devrait être finalisée au troisième trimestre 2026.

Philipp Herzig, CTO de SAP, justifie l’acquisition en rappelant une réalité connue de tout DSI : « L’IA d’entreprise ne cale pas parce que les modèles ne sont pas assez bons ; elle cale parce que les données ne sont pas prêtes pour les agents. Dremio supprime ce goulet d’étranglement. Combiné à SAP Business Data Cloud, nous pouvons désormais faire passer nos clients de données brutes et fragmentées à une intelligence gouvernée, prête pour l’IA, sur une plateforme ouverte unique. »

Concrètement, SAP veut faire de Business Data Cloud un lakehouse d’entreprise natif Apache Iceberg. Iceberg va ainsi devenir la fondation ouverte de l’ensemble, ce qui doit permettre aux données SAP et non-SAP de coexister sans déplacement systématique ni conversion de format. L’analytique fédérée de Dremio va alors se combiner avec le moteur in-memory de SAP HANA Cloud pour conserver la dimension temps réel des transactions et des processus opérationnels.

Le catalogue, nouveau centre de gravité

Pourtant, le point le plus stratégique de l’opération n’est peut-être pas le moteur de requêtes, mais plutôt le catalogue. SAP prévoit de livrer avec Dremio un catalogue universel et ouvert basé sur Apache Polaris et sur l’API REST d’Apache Iceberg. Ce catalogue doit devenir à la fois la couche de découverte et la couche sémantique de SAP Business Data Cloud. Autrement dit, il doit dire où se trouvent les données, ce qu’elles signifient, qui peut les utiliser, quelles relations métier elles portent et d’où elles viennent.

C’est là que l’affaire devient intéressante pour l’IA agentique. Un agent IA sans contexte métier n’est qu’un stagiaire très rapide, très confiant, et potentiellement très dangereux. Pour agir dans une entreprise, il doit comprendre qu’un client n’est pas seulement une ligne dans une table CRM, qu’une facture peut être liée à un contrat, qu’un fournisseur peut être critique pour une chaîne logistique, qu’une donnée RH est sensible, et qu’une classification réglementaire n’est pas une décoration administrative.

SAP veut faire de Polaris la fondation de son SAP Knowledge Graph, chargé d’embarquer les relations métier, les hiérarchies organisationnelles, les classifications réglementaires et le lignage entre systèmes. C’est cette couche de compréhension qui doit permettre à Joule, l’assistant et couche agentique de SAP, de devenir autre chose qu’un chatbot posé sur des applications métier. L’ambition est de lui donner une mémoire d’entreprise structurée, gouvernée et exploitable.

Business Data Cloud prend de l’épaisseur

Le rachat de Dremio s’inscrit dans une séquence beaucoup plus large. SAP a lancé Business Data Cloud avec Databricks en 2025 pour unifier les données SAP et tierces dans un socle de confiance destiné à l’analytique et à l’IA. Puis l’éditeur a annoncé l’acquisition de Reltio en mars 2026 afin de renforcer la gestion des données de référence, leur qualité, leur harmonisation et leur préparation aux usages d’IA d’entreprise.

Avec Dremio, SAP ajoute donc une brique complémentaire. Reltio aide à nettoyer et réconcilier les données de référence. Dremio aide à ouvrir, fédérer et accélérer l’accès aux données distribuées. Business Data Cloud orchestre l’ensemble. HANA Cloud reste la couche transactionnelle temps réel. Joule devient l’interface agentique de l’ensemble.

Le dessin stratégique se précise : SAP veut transformer son immense connaissance des processus métier en avantage décisif dans l’IA d’entreprise. D’autant que SAP a également annoncé l’acquisition de Prior Labs, spécialiste des modèles fondation pour données tabulaires. Ce point est important, car les données d’entreprise sont d’abord des tables, des chiffres, des historiques, des indicateurs, des transactions, des stocks, des factures, des commandes et des risques fournisseurs. Pas seulement du texte. SAP compte utiliser ces technologies pour prédire des événements métier comme les retards de paiement, les risques fournisseurs, le churn client ou les opportunités commerciales.

En combinant Reltio, Dremio et Prior Labs, SAP construit donc une chaîne assez cohérente : qualité et harmonisation des données, lakehouse ouvert et fédéré, modèles adaptés aux données structurées, puis agents capables d’agir dans les processus.

Un tir direct vers Snowflake, Databricks et les hyperscalers

Sur le marché, le rachat de Dremio est aussi un message adressé à Snowflake, Databricks, Starburst, Denodo et aux grands clouds (Azure Synapse côté Microsoft, Redshift, Athena et EMR côté AWS, BigQuery côté Google).

Depuis l’annonce du rachat, tous les regards se portent sur Databricks. La situation est toutefois plus subtile qu’un simple duel. Databricks est à la fois partenaire de SAP dans Business Data Cloud et concurrent indirect de Dremio sur le terrain du lakehouse, de l’ingénierie de données et de l’IA. En rachetant Dremio, SAP ne tourne pas nécessairement le dos à Databricks, mais il reprend la main sur une brique architecturale critique. Il peut continuer à travailler avec l’écosystème, tout en évitant que la couche la plus stratégique de son IA d’entreprise soit entièrement dépendante d’un partenaire externe. Quoiqu’on en dise, cela sonne comme une mauvaise nouvelle pour Databricks qui ne peut pas se permettre de se fâcher avec SAP.

Néanmoins, la bataille n’est plus seulement celle de l’entrepôt de données cloud. Elle se déplace vers la capacité à devenir la couche de contexte de l’IA d’entreprise. Qui détient le catalogue, la sémantique, les droits d’accès, le lignage et la compréhension métier détient une partie du pouvoir. Snowflake l’a bien vu avec Iceberg et Polaris. Databricks l’a bien vu avec Tabular. SAP le voit désormais avec Dremio.

L’avantage historique de SAP est considérable : ses applications sont déjà au cœur des processus critiques de milliers de grandes entreprises. Finance, achats, ressources humaines, supply chain, production, relation client : SAP n’a pas besoin d’inventer le contexte métier, il l’héberge déjà en grande partie. Son problème était ailleurs : comment connecter ce cœur applicatif à l’ensemble des données non-SAP, dans un monde où les architectures data sont dispersées entre clouds, data lakes, warehouses, applications SaaS, référentiels locaux et plateformes métiers ? Dremio apporte une réponse partielle mais stratégique.

Reste que le rachat de Dremio peut se révéler une opportunité intéressante pour un autre acteur souvent présenté comme son principal concurrent : Starburst. En faisant entrer Dremio dans le giron SAP, l’opération réduit mécaniquement le nombre d’acteurs indépendants capables de défendre une approche ouverte, fédérée et multi-cloud de l’accès aux données. Pour les entreprises qui ne veulent ni s’enfermer dans SAP Business Data Cloud, ni dépendre entièrement de Snowflake, Databricks ou des hyperscalers, Starburst apparaît comme l’une des dernières alternatives crédibles pour interroger les données là où elles résident, sans les recopier massivement ni les enfermer dans une pile propriétaire. Autrement dit, SAP récupère une technologie stratégique, mais Starburst récupère peut-être une partie du discours d’indépendance.

Moins de tuyaux, plus de contexte

Pour les DSI, cette acquisition répond à une fatigue bien réelle : celle de l’empilement data. Trop de projets d’IA commencent par la même punition. Il faut localiser les données, les extraire, les transformer, les recopier, les documenter, les sécuriser, les répliquer, puis recommencer dès qu’une nouvelle source apparaît. À force de vouloir alimenter l’IA, l’entreprise finit parfois par nourrir surtout ses pipelines.

La promesse SAP-Dremio est de réduire cette friction. Interroger davantage les données là où elles résident. Limiter les déplacements inutiles. S’appuyer sur un format ouvert. Donner une couche sémantique commune aux métiers, aux analystes, aux développeurs et aux agents IA. Accélérer l’accès aux données non-SAP sans faire exploser les coûts d’intégration. Sur le papier, c’est exactement ce que les DSI attendent pour sortir les projets IA du mode démonstrateur.

Mais l’opération ne supprimera pas les vrais sujets de fond. Les données devront toujours être qualifiées, nettoyées, classifiées, gouvernées et documentées. Les droits d’accès devront être revus. Les modèles de coûts devront être surveillés. Les engagements d’ouverture devront être vérifiés dans les contrats et dans les pratiques. Un lakehouse ouvert peut très bien devenir un nouveau jardin clos si le catalogue, la gouvernance, les connecteurs ou les couches d’orchestration enferment progressivement les usages.

SAP ne rachète pas un outil, il rachète une trajectoire

Au fond, cette acquisition confirme une réalité devenue évidence. L’IA d’entreprise ne se jouera pas seulement dans la puissance des modèles, mais dans les plateformes capables de relier données, processus, sécurité, gouvernance et action. Les agents IA n’ont pas besoin uniquement d’un cerveau statistique. Ils ont besoin d’une mémoire fiable, d’un plan de classement, d’une compréhension métier et d’un système de permissions qui ne ressemble pas à une passoire.

SAP avait déjà les processus. Il avait déjà les applications critiques. Il avait déjà Joule pour incarner son interface IA. Il a commencé à structurer Business Data Cloud avec Databricks, puis à renforcer la qualité des données avec Reltio. Avec Dremio, il ajoute une brique ouverte et très actuelle autour d’Iceberg, Polaris et des architectures lakehouse. Ce n’est pas un détail technique. C’est une pièce centrale dans la course à l’IA agentique gouvernée.

Et alors qu’IBM, Google et Microsoft tentent d’imposer leurs plateformes d’orchestration des agents IA (watsonx Orchestrate, Gemini Enterprise Platform, Microsoft Agent 365), ce rachat nous rappelle qu’avant de rêver d’agents autonomes, il faut régler la dette data. En rachetant Dremio, SAP ne promet pas de résoudre magiquement ces problèmes. Il montre surtout où se déplace la bataille : moins dans le chatbot qui parle bien que dans la donnée qui parle juste.

 

____________________________

À lire également :

Snowflake mise sur Apache Iceberg pour un Data Cloud plus ouvert

Databricks s’offre Tabular pour 1 milliard de dollars

Vast Data et Dremio s’allient pour faciliter l’analyse d’océans de données

Starburst franchit les 100 millions de dollars d’ARR et accélère dans l’IA d’entreprise

Starburst muscle sa plateforme pour briser les silos de données à l’ère agentique

« Nous préfèrerions arrêter de parler de prix et de coûts avec SAP et discuter plutôt d’innovations et de valeur »