Grâce à deux nouvelles intégrations, AWS permet (enfin ?) aux data-scientists d’exploiter les données transactionnelles d’Amazon Redshift avec ses services d’analyses, de big data et de ML sans passer par des processus traditionnels d’ETL ni par des connecteurs tiers peu optimisés pour ses infrastructures cloud.

Dans l’univers des bases de données, l’analyse de données provenant de multiples sources se traduit fréquemment par un déplacement et un ajustement des données par des processus ETL (Extract, Transform, Load). Mais les volumétries de données sont devenues telles, que tous les acteurs du marché essayent désormais de limiter ces déplacements pour privilégier des approches d’accès directs et zero-ETL.

Amazon s’inscrit dans cette mouvance. Pour Adam Selipsky, CEO d’AWS, l’ETL est devenu le fléau de tous les data-scientists. Un avis partagé par Swami Sivasubramanian, vice-président des bases de données, de l’analyse et de l’apprentissage automatique chez AWS qui estime qu’un avenir sans ETL est un accélérateur pour analyser les données et créer de nouvelles perspectives. Il explique que « l’ampleur et la complexité des données que les clients gèrent aujourd’hui signifient qu’ils ne peuvent pas les analyser et les explorer avec une seule technologie ou même un petit ensemble d’outils. Beaucoup de nos clients s’appuient sur plusieurs services de base de données et d’analyse AWS pour extraire de la valeur de leurs données… Les nouvelles fonctionnalités annoncées aujourd’hui nous aident à faire évoluer les clients vers un avenir zéro ETL sur AWS, en réduisant la nécessité de déplacer ou de transformer manuellement les données entre les services ».

Plus concrètement, cette approche « Zero ETL » se concrétise déjà par deux nouveaux services AWS.

Amazon Aurora zero-ETL integration with Amazon Redshift

Selon AWS, l’intégration Zero ETL d’Amazon Aurora avec Amazon Redshift va permettre aux entreprises d’analyser des pétaoctets de données transactionnelles en quasi temps-réel tout en éliminant le besoin de personnaliser des pipelines de données. Plus concrètement, grâce à cette intégration, les données transactionnelles sont automatiquement et continuellement répliquées quelques secondes après leur écriture dans Amazon Aurora et mises à disposition de manière transparente dans Amazon Redshift. Les clients peuvent alors immédiatement lancer leurs analyses et s’appuyer sur les fonctionnalités avancées d’AWS telles que Amazon Redshift ML pour obtenir des informations holistiques et prédictives.
Dit autrement, une telle intégration permet donc aux entreprises de combiner Amazon Aurora et Amazon Redshift, le premier pour répondre à leurs besoins en matière de bases de données transactionnelles et le second pour alimenter leurs analyses, sans avoir à construire ou à maintenir des pipelines de données complexes.

Amazon Redshift integration for Apache Spark

L’intégration de Redshift à Apache Spark s’inscrit dans une même logique que ci-dessus. Elle permet aux clients d’exécuter plus facilement et plus rapidement des applications Apache Spark sur des données provenant d’Amazon Redshift en utilisant les services d’analyse et d’apprentissage automatique d’AWS.
Apache Spark est un data framework open source très populaire chez les développeurs et dans l’univers ML. AWS en a développé un runtime spécialement optimisé pour ses infrastructures et réputé pour être 3 fois plus performant que l’édition open source classique. Il est notamment disponible sur Amazon EMR, AWS Glue et Amazon SageMaker. L’annonce d’aujourd’hui répond à un besoin croissant des utilisateurs d’analyser directement les données RedShift avec ces services et leur évite de passer par des connecteurs tiers tout en profitant d’une solution spécialement optimisée pour AWS. Selon l’hyperscaler, « les développeurs peuvent désormais commencer à exécuter des requêtes sur les données d’Amazon Redshift à partir d’applications basées sur Apache Spark en quelques secondes à l’aide des cadres linguistiques les plus courants (par exemple, Java, Python, R et Scala). Les emplacements intermédiaires de stockage des données sont gérés automatiquement, ce qui évite aux clients de devoir les configurer et les gérer dans le code de l’application ».

On notera que ces approches d’intégration forte pour limiter les besoins en ETL ne sont pas propres à AWS. On la retrouve également des efforts similaires chez Snowflake mais aussi chez Google Cloud et Azure comme expliqué ici : Data Cloud : Google et Microsoft sur la même trajectoire.

 

À lire également :

AWS RE:INVENT 2022 : Un nouveau Graviton pour du HPC dans le cloud

Data Cloud : Google et Microsoft sur la même trajectoire

Google Cloud Next : Plus d’IA pour plus de productivité

SAS étoffe ses offres data cloud verticales pour le secteur de la VOD, de la santé et de l’énergie