Cloudera annonce la version bêta publique de Kudu, un nouveau système de stockage orienté colonnes pour Hadoop, accélérant l’analyse des données. Complétant les options de stockage Hadoop existantes – HDFS et Apache HBase – Kudu est un moteur de stockage Hadoop natif qui supporte à la fois les accès aléatoires à basse latence et les analyses haut-débit, visant à simplifier les architectures Hadoop pour des utilisations en temps réel de plus en plus répandues.

Une version bêta publique est disponible immédiatement sous licence open source Apache et sera transféré vers l’incubateur de l’Apache Software Foundation dans le futur.

Jusqu’ici, les développeurs étaient forcés de choisir entre une analyse rapide avec HDFS et une mise à jour efficace avec HBase. Avec l’augmentation des volumes de données en streaming, les entreprises ont de plus en plus besoin de combiner les deux fonctionnalités pour construire des applications analytiques en temps réel basées sur des données variables – ce qui a encouragé les développeurs à créer des architectures complexes à l’aide des options de stockage disponibles. Kudu vient compléter les fonctionnalités de HDFS et HBase, en fournissant des fonctions d’insertion et d’actualisation rapides, ainsi que des scans de colonnes particulièrement efficaces. Cette combinaison puissante facilite la gestion de flux d’analyses en temps réel reposant sur une couche unique de stockage, ce qui élimine le besoin d’architectures complexes.

L’architecture de Kudu aide les développeurs à rationaliser la construction d’applications analytiques, en supportant les cas d’usages les plus courants comme l’analyse de séries temporelles, l’analyse de données machines et le reporting en ligne. De plus, Kudu est conçu pour tirer parti des dernières évolutions des matériels et des traitements en mémoire. Enfin, composant ouvert et natif d’Hadoop, Kudu est intégré avec et fournit de meilleures performances de requêtage pour les environnements analytiques les plus puissants.

Conçu par Cloudera et Intel, Kudu a été conçu pour utiliser les innovations développées à travers « pmem », le projet de mémoire persistante d’Intel.