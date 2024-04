Face aux enjeux croissants liés à la gestion de données dans des environnements hybrides, Dell dévoile Dell Data Lakehouse, une solution intégrée qui promet d’éliminer les silos de données et favoriser les cas d’usage de l’IA tout en assurant scalabilité et sécurité.

Pour faciliter les scénarios hybrides dans lesquels les données – structurées ou non structurées – critiques ou confidentielles restent on-premises avec des scénarios les agrégeant à des données multicloud, Dell propose une nouvelle solution Dell Data Lakehouse.

Celle-ci combine hardware et logiciels en une solution clé en main. La partie hardware s’appuie sur une conception évolutive séparant stockage et calcul conçue pour la scalabilité et les performances en appui sur les briques de Dell. La partie logicielle repose sur une suite composée essentiellement de briques open source (Delta Lake, Symcloud, Iceberg) le tout reposant sur une infrastructure Kubernetes.

Un partenariat clé

L’une des forces de cette nouvelle plateforme – qui lui confère son aspect hybride – réside dans son moteur de requêtes Dell Data Analystics Engine bâti en partenariat avec Starburst. Grâce à ce partenariat, Dell Data Lakehouse promet d’éliminer les silos de données et d’améliorer l’exploration des informations avec des requêtes fédérées et sécurisées animées par Starburst (dont la technologie repose sur la brique open source Trino). Le moteur est en effet capable de réaliser des requêtes sur de vastes ensembles de données dispersées à travers différents clouds et différentes sources d’informations sans avoir à préalablement déplacer les données.

Cette nouvelle offre Dell vise ainsi à résoudre les défis auxquels sont confrontées les organisations en matière de gestion des données dans des contextes règlementaires toujours plus complexes et contraignants. Dans un paysage numérique d’entreprise, marqué par des données décentralisées, des préoccupations de souveraineté des données, des systèmes et applications hérités associées à des applications natives cloud qui n’opèrent que sur des données dans le cloud, les organisations cherchent des solutions à même de masquer toute cette complexité à la fois technique et organisationnelle.

Une approche « open source first »

Cette initiative n’en demeure pas moins un pari surprenant pour Dell car elle s’inscrit dans un contexte concurrentiel plus que dynamique, où de nombreux acteurs technologiques cherchent à innover dans le domaine des data lakehouses et de l’IA. Mais Joe Steiner, CTO Unstructured Data chez Dell Technologies, explique néanmoins que Dell « a de grands projets pour cette solution et que la première étape consistait à disposer d’un moteur de requêtage universel, étape franchie par ce partenariat avec Starburst… Pendant trop longtemps, nos clients ont été limités par des bases de données, des lacs de données et des entrepôts de données propriétaires. Mon sentiment personnel est que cela va désormais prendre fin ». Selon Dell, un écosystème ouvert est en train d’émerger et sa solution cherche non seulement à le rassembler et à en rendre la mise en œuvre plus simple mais surtout à en faire un ensemble cohérent, scalable, performant et uniformément sécurisé.

C’est d’autant plus important que l’engouement pour l’IA générative a placé de nouvelles exigences sur les équipes Data. Les grands modèles de langage (LLM) tout comme les nouveaux modèles optimisés open source (les SLM) nécessitent de vastes étendues de données curées pour fonctionner de manière optimale, ce qui oblige les entreprises à avoir une bonne maîtrise des données structurées et non structurées, et un contrôle sur les données utilisées pour les systèmes d’IA afin de limiter les effets d’hallucinations des IA et de garantir la responsabilité, la confidentialité et la sécurité. Selon Dell, parce que tous les traitements IA ne pourront pas se faire localement, sa solution doit également permettre une meilleure gouvernance des données pas uniquement pour s’assurer de leur qualité mais aussi pour aider les entreprises à trouver et à gérer les données sensibles pour s’assurer qu’elles ont un contrôle sur ce qui est ou non transmis aux entreprises d’IA publiques.

