Avec l’arrivée de sa nouvelle fonction vector search directement intégrée dans sa plateforme, VAST Data poursuit ses efforts de réinvention du stockage. L’éditeur promet aux DSI une gouvernance unifiée, capable de mêler données structurées, non structurées et vecteurs sans pipeline complexe.

Spécialiste américain proposant une plate‑forme de données « all‑flash » taillée pour l’IA et les immenses volumétries de données, VAST Data s’est bâti en six ans une solide réputation auprès des centres de recherche, des entreprises médias et des grandes entreprises en mal de performances linéaires et de sécurité fine. Sa brique fondatrice, le stockage DASE (“Disaggregated Shared Everything”), sépare le calcul du stockage mais offre à chaque nœud un accès NVMe direct à l’ensemble des jeux de données.

Cette architecture, déjà prisée pour les lacs de données massifs, sert désormais de socle à un nouvel usage : la vector search (recherche vectorielle) native pour les besoins de l’IA.

Qu’est-ce que ça change ?

LLM et agents autonomes nécessitent un aller‑retour permanent entre mémoire vectorielle et métadonnées pour fournir des réponses contextualisées et ancrées sur les données de l’entreprise (via des techniques comme le RAG). Faute d’infrastructure intégrée, les équipes doivent souvent composer avec un moteur vectoriel spécialisé (Pinecone, Weaviate, Milvus…), coller un index externe à la base SQL et répliquer les données dans un « object store ». Un assemblage qui promet au DSI et DPO un cauchemar pour la conformité et les SLA.
En insérant les embeddings « au même niveau » que les lignes de table et les fichiers, VAST supprime ces tuyaux parallèles ; la recherche vectorielle devient une fonction transactionnelle comme une autre, assortie des mêmes politiques d’accès, de chiffrement et d’audit.

Sous le capot : ingestion instantanée et index partagés

La vectorisation s’effectue automatiquement dès l’écriture de « blocs » de 32 K et les éléments sont immédiatement indexés et mis à disposition des moteurs d’interrogation. Les embedding vectoriels sont stockés directement dans la base de données VAST Database qui contient les métadonnées et les contenus non structurés, ce qui permet une recherche en temps réel et une récupération contextuelle complète en une seule requête. Le tout avec une extrême efficacité : même à l’échelle du milliard d’embeddings, les requêtes se contentent du CPU et conservent une latence sub‑seconde, sans pré‑chargement en RAM ni GPU coûteux. Cette fondation permet d’exécuter, dans un unique moteur, recherches vectorielles, requêtes SQL et politiques de gouvernance fines, au sein de pipelines RAG temps réel. Elle permet de réaliser des requêtes hybrides comme « Retourne les voisins les plus proches pour cet embedding où le titre commence par A et l’auteur est ‘Colleen’ « .

« Que vous interrogiez des vecteurs, filtriez avec SQL, ou orchestriez des pipelines de récupération à travers du texte, des images et des données structurées, VAST exécute tout cela via un seul moteur natif — sans couches d’orchestration, index fragmentés ou transferts » explique l’éditeur.

Et VAST n’a pas l’intention de s’arrêter en si bon chemin et se limiter à une recherche hybride. L’éditeur prévoit déjà d’étendre son unique moteur pour piloter des pipelines de récupération multimodaux, du raisonnement structuré, et de la préparation intelligente des données, sans jamais fragmenter l’infrastructure IA en systèmes déconnectés. Histoire de confirmer un peu plus le virage de VAST vers une plateforme de données bâtie pour l’IA…

 

À lire également :

Vast Data annonce une ambitieuse mise à jour de son VAST OS

« Analytics et ML changent le stockage : ils requièrent un accès rapide à toutes les données »

Vast Data et Dremio s’allient pour faciliter l’analyse d’océans de données

Réduction des données : la compression et la déduplication ont un impact bien plus important qu’on ne le pense