Cassandra l’une des bases de données distribuées en open source les plus populaires bascule dans l’ère IA avec une version 5.0 avec l’introduction des données vectorielles et de la recherche vectorielle. Mais d’autres nouveautés très importantes sont aussi au menu.
Initialement développée au sein de Facebook pour doper la recherche dans les messages avant d’être confiée à l’incubateur de projets open source Apache en 2010, Cassandra est une base de données NoSQL conçue pour gérer de grandes quantités de données réparties sur de nombreux serveurs dans un contexte où les écritures sont souvent supérieures aux lectures. Son architecture particulière assure une haute disponibilité et élimine les points de défaillance unique en faisant l’une des bases les plus solides du marché.
Elle est devenue avec le temps l’une des bases de données les plus populaires des acteurs de l’internet et compte aujourd’hui plus de 300.000 entreprises utilisatrices.
Autant dire que la version 5.0 annoncée cette semaine est attendue d’autant qu’elle marque une véritable modernisation de la base dans un contexte où les applications IA se multiplient avec une volonté affichée des entreprises de voir leur IA exploiter leurs bases existantes et les données qu’elles hébergent.
Cette mise à jour majeure apporte ainsi quelques fonctionnalités clés :
Index de stockage attaché (SAI)
Le SAI révolutionne la flexibilité des requêtes et la performance, notamment pour les grands ensembles de données. Il permet des requêtes plus efficaces sur les colonnes qui ne sont pas des clés primaires, élargissant ainsi les possibilités de modélisation des données. Ce mécanisme est destiné à remplacer l’ancienne fonctionnalité des index secondaires et pourrait radicalement transformer la structure des modèles de données applicatives.
Trie Memtables et Trie SSTables
Ces optimisations de bas niveau offrent des gains impressionnants en termes d’utilisation de la mémoire et d’efficacité du stockage, fournissant ainsi une amélioration de performance « gratuite » sans qu’il soit nécessaire de modifier le modèle de données. Une mise à niveau en ligne de votre cluster permet d’activer immédiatement cette fonctionnalité avec seulement quelques ajustements de configuration.
Support de Java Development Kit (JDK) 17
La tant attendue mise à niveau vers JDK 17 apporte jusqu’à 20 % d’amélioration de performance dans certains cas, grâce à une gestion améliorée de la mémoire. De plus, cela permet aux opérateurs de Cassandra de tirer parti des nouvelles améliorations dans la gestion des collecteurs de déchets (garbage collection), disponibles avec cette version.
Stratégie de compactage unifiée (UCS)
UCS agit comme un pilote automatique pour l’organisation des données, s’adaptant automatiquement aux besoins changeants à mesure que votre cluster se développe. Cette fonctionnalité améliore grandement l’efficacité opérationnelle, en particulier pour les déploiements à grande échelle, en augmentant la densité des nœuds.
Recherche vectorielle
Avec l’introduction d’un type de données vectorielles et de l’indexation pour les recherches de plus proche voisin approximatif (Approximate Nearest Neighbor), Cassandra 5.0 pose les bases pour des applications avancées d’intelligence artificielle et d’apprentissage automatique. Les développeurs construisant des applications d’IA générative peuvent désormais combiner l’échelle et la distribution de Cassandra avec les dernières technologies de recherche intelligente.
Masquage dynamique des données
Inspirées par les exigences du RGPD, les nouvelles capacités de masquage dynamique des données permettent de dissimuler les informations sensibles via des colonnes masquées, renforçant ainsi la sécurité des données sans altérer celles-ci. Ce masquage peut être effectué à l’exécution avec la syntaxe SELECT, ou intégré au niveau du serveur via des définitions de schéma et une sécurité basée sur les rôles.
Avec ses améliorations estampillées 5.0, le SGBD Cassandra devient plus performant, plus sécurisé et plus adapté aux applications modernes comme l’intelligence artificielle. Que ce soit pour les entreprises cherchant à maximiser leurs performances ou pour les développeurs souhaitant exploiter les dernières technologies de données, cette version marque une nouvelle étape et inscrit Cassandra dans l’ère des bases supportant l’IA et les applications IA.
À lire également :
Oracle Database : Ne m’appelez pas « 23c », mais « 23ai »
MongoDB : « On accompagne la modernisation des applications et les projets de Move to Cloud »
MySQL et SQL Server gagnent en popularité
K8ssandra : Cassandra s’adapte à Kubernetes