Fivetran adapte ses automatisations et principes ELT développés pour les datawarehouses aux lacs de données et lakehouses avec son nouveau service cloud Managed Data Lake Service.
Fivetran est une plate-forme d’automatisation du mouvement de données qui, grâce à des centaines de connecteurs et des pipelines prédéfinis, simplifie et accélère le transfert de données vers des entrepôts de données cloud.
Traditionnellement, Fivetran ne prenait en charge que les datawarehouses, généralement utilisés pour stocker des données structurées et relationnelles afin d’alimenter des applications d’analyse et de business intelligence (BI).
Avec son nouveau service « Fivetran Managed Data Lake Service », Fivetran vise à offrir le même niveau d’automatisation et de simplification avec des données non-structurées et les lacs de données (data lakes, lakehouse) à des fins d’analyse en temps réel, de ML et d’IA.
Le Fivetran Managed Data Lake Service simplifie la gestion des lacs de données en convertissant automatiquement les données (d’où qu’elles proviennent) dans des formats ouverts populaires (c’est-à-dire Apache Iceberg ou Delta Lake) avant de les déposer dans le lac de données. « Combiné à la gestion et à la maintenance continues des tables par Fivetran, les clients bénéficient de la facilité d’interrogation et de la convivialité d’un entrepôt de données dans le cloud, avec la flexibilité et l’évolutivité d’un lac de données » selon l’éditeur. « L’idée est bien d’apporter à l’IA cette infrastructure évolutive que nous avons fournie à la BI ces neuf dernières années ».
Selon Fivetran, ce nouveau service ne se contente pas de convertir et centraliser les données dans les data lakes mais fournit un service de gestion de bout en bout des data lakes automatisant entièrement les tâches de gestion de bas niveau. « Fivetran effectue le travail fastidieux de la gestion des changements de données, de la détection des informations personnelles identifiables (PII), de la déduplication et d’autres tâches de maintenance de table de bas niveau afin que les développeurs ne perdent pas de temps sur un travail qui peut être automatisé », explique George Fraser, CEO de Fivetran. « Nous espérons rendre les utilisateurs métier et les data scientists plus productifs en fournissant des données propres, centralisées et optimisées provenant de n’importe quelle source. »
Le Managed Data Lake Service exploite les 500 connecteurs existants de Fivetran, puis normalise et déduplique les données avant de les envoyer dans l’un des lacs de données pris en charge, au format de table Delta Lake ou Apache Iceberg. Une fois dans le lac de données, les utilisateurs peuvent alors travailler avec le moteur de calcul de leur choix pour exploiter ces données, ou les transférer vers une plateforme ML pour alimenter leurs nouvelles applications d’IA.
Managed Data Lake Service supporte actuellement Amazon S3, Azure Data Lake Storage et Microsoft OneLake (Microsoft Fabric). Le support de Google BigLake est également annoncé pour dans quelques semaines. La solution s’intègre également aux solutions existantes de catalogue et de gouvernance des données telles que AWS Glue, Databricks Unity Catalog et Microsoft Purview.
Jusqu’à fin août, Fivetran met ce nouveau service à disposition gratuitement (jusqu’à 10 000 $ par client). Après cela, Fivetran appliquera son modèle de consommation actuel pour le facturer. L’éditeur précise que l’un des avantages de l’utilisation du Fivetran Managed Data Lake Service est que l’ingestion est gratuite, contrairement à d’autres solutions équivalentes.