Semaine très agitée pour Databricks qui tenait son évènement annuel : Outre l’annonce de nouveaux produits majeurs orientés IA génératives, l’éditeur a également procédé à une importante acquisition.
Pionnier de l’analytique unifié dans le cloud, Databricks est un des leaders reconnus par Gartner pour les plateformes cloud de datascience. Il est ainsi l’un des pionniers des concepts de data lakehouse à même de combiner les notions de datalake et datawarehouse pour gérer la diversité des données (structurées comme non structurées) et des besoins d’analyse de la BI au ML et à l’IA.
L’éditeur tenait cette semaine son « Data + AI Summit 2023 » à San Francisco. Un évènement marqué par une multitude d’annonces démontrant le dynamisme de l’éditeur de plus en plus considéré comme l’un des principaux concurrents de Snowflake qui – hasard des calendriers – tenait lui aussi au même moment son « Summit 2023 » du côté de Las Vegas.
Avec au menu de cette édition 2023, de l’IA générative (forcément, le thème est incontournable en 2023), la gouvernance des données, le monitoring du lakehouse, la fédération des requêtes et des formats de table ouverts.
MosaicML et l’IA générative
Mais avant d’évoquer les annonces rythmant ces grandes thématiques, Databricks a inauguré son évènement avec l’annonce d’un rachat : celui de MosaicML une startup spécialisée dans les IA génératives et parfois présentée comme l’un des grands concurrents d’OPEN AI. Ce n’est pas la première acquisition de l’éditeur qui depuis 2021 a ajouté à son escarcelle Redash, 8080 Labs, Cortex Labs, DataJoy et Okera. C’est en revanche sa plus importante acquisition, puisqu’il en coûtera 1,3 milliard de dollars à Databricks. Cette opération vise à faciliter la création et l’exécution de modèles ML au sein de l’environnement Databricks. Elle doit permettre à Databricks de concurrencer les offres équivalentes de Google (Vertex AI avec ses nouveaux modèles génératifs), de Microsoft (Azure Data Fabric et ses OpenAI Services) ou d’AWS (SageMaker et BedRock). MosaicML prône des IA responsables qui conservent la confidentialité des données des entreprises et qui ne se comportent pas de manière imprévisible. En acquérant cette startup, Databricks espère renforcer ses ressources en IA, attirer des clients tentés par les IA génératives mais aussi réduire les coûts de développement des modèles pour ses clients.
Lakehouse AI
Dans la droite ligne de son rachat de MosaicML, Databricks lance une nouvelle version de Lakehouse AI, un environnement de gestion du cycle de vie de l’IA et désormais amélioré pour permettre aux clients de développer leurs propres IA génératives à partir de modèles de base (foundational models) délivrés en mode SaaS qui peuvent être paramétrés, personnalisés ou réentraînés avec les données de l’entreprise.
À la manière des offres de cycle de vie des projets IA/ML de Google, Azure ou AWS, Databricks propose avec Lakehouse AI de nouvelles fonctionnalités pour faciliter le développement d’applications d’IA générative, telles que Vector Search (enrichissement des IA génératives en intégrant la recherche), une collection de modèles open source (dont MPT-7B et Falcon-7B), des fonctionnalités « AutoML » et « Model Serving » optimisées pour les LLM, un outil no-code d’optimisation des prompts (MLflow Prompt), etc.
Lakehouse IQ
Restons dans l’IA générative. Si Lakehouse AI vise à aider les entreprises à créer leurs propres IA génératives, Lakehouse IQ permet plutôt de vulgariser au sein de l’entreprise l’usage des IA génératives en proposant de mettre l’analyse de données à la portée de tous grâce à une interface conversationnelle en langage naturel. Présenté comme un moteur de connaissance, Lakehouse IQ utilise l’IA générative pour apprendre ce qui rend les données d’une organisation uniques (le jargon des équipes, les acronymes de l’entreprise, les structures métiers) et fournir des réponses utiles et contextuelles aux questions en langage naturel. Il permet à quiconque dans l’organisation d’interagir avec les données en respectant les règles de sécurité et de gouvernance.
Delta Lake 3.0
Delta Lake est un framework open-source qui permet de construire une architecture Lakehouse en appui sur des moteurs comme Spark, PrestoDB, Flink, Trino, Hive et sur des API pour Scala, Java, Rust, Rubi et Python. Delta Lake prend en charge les transactions, les mises à jour, les schémas et les audits.
La version 3.0 présentée cette semaine introduit un format de données universel appelé UniForm qui doit permettre de résoudre les problèmes de compatibilité et de simplifier les intégrations. Ce format prend en charge Apache Iceberg et Apache Hudi. Selon DataBricks, Delta Lake est le seul format ouvert intégrant le support de Delta Sharing (un format d’échange de données ouvert).
Lakehouse Federation dans Unity Catalog
Cette nouvelle fonctionnalité centralise au sein de Databricks la découverte, l’interrogation et la gouvernance des données où qu’elles résident sans avoir à préalablement déplacer ou copier les données dans Databricks. Outil de dé-silotage des données par excellence, Lakehouse Federation fournit aux clients une couche cohérente de service de données et de gouvernance pour leur architecture de maillage de données. Elle permet de réduite les tâches d’intégration, les coûts liés au stockage de copies tout en améliorant la sécurité des données et la posture de gouvernance.
Lakehouse Apps
Dernière nouveauté majeure, Lakehouse Apps se veut une nouvelle façon de créer et d’exécuter des applications de données et d’IA au sein même de la plateforme Databricks Lakehouse. Lakehouse Apps permet aux clients de profiter des services natifs de Databricks et d’accéder à des applications innovantes en toute sécurité. Lakehouse Apps permet aux développeurs d’intégrer leurs applications au plus près des données et des IA.
À lire également :
Microsoft Build 2023 : les 33 annonces qu’il ne fallait pas manquer…
Google I/O 2023 : Ce que les DSI doivent en retenir
Avec Amazon BedRock et ses modèles Titan, AWS aussi se lance dans les IA génératives
« Donner aux entreprises la faculté d’un même écosystème à travailler ensemble »
Databricks simplifie la mise en production des modèles ML
Dataiku, Databricks et Alteryx dominent IBM, Google et Microsoft !