À l’occasion de MongoDB .local Paris, qui s’est tenu le 4 novembre au CNIT Paris La Défense, nous avons rencontré Fred Roma, SVP Product & Engineering chez MongoDB. Il nous livre sa vision d’une base de données qui doit se réinventer à l’ère de l’intelligence artificielle. Modernisation du legacy, acquisition de Voyage AI, sécurité et positionnement plateforme : le dirigeant franco-canadien décrypte les enjeux qui attendent les DSI.

InformatiqueNews : En quoi l’IA change-t-elle fondamentalement la donne pour les bases de données ?

Fred Roma : L’IA transforme absolument tout dans la gestion des données. D’abord parce que les volumes nécessaires à l’entraînement des modèles sont gigantesques et ne cessent d’augmenter. Ensuite parce qu’elle rend le développement d’applications beaucoup plus accessible : on peut désormais créer très rapidement de nouvelles applications, pas toujours de bonne qualité certes, mais en très grand nombre. Cette multiplication génère mécaniquement beaucoup plus de données qu’auparavant.

Il faut aussi considérer un autre changement majeur : la donnée n’est plus uniquement produite par des humains. Des agents logiciels génèrent désormais de la donnée pour d’autres agents ou pour des utilisateurs. Cela crée une croissance exponentielle.

Enfin, et c’est un point essentiel, l’IA consomme massivement de la donnée non structurée : images, PDF, vidéos, documents divers. Les entreprises en ont énormément, mais souvent en dehors de leurs bases de données traditionnelles, dispersée dans des systèmes documentaires ou des serveurs de fichiers. Même lorsqu’elle est dans une base, celle-ci n’est pas forcément adaptée aux usages modernes de l’IA.

Dans ce contexte, le modèle documentaire apparaît bien mieux armé. Il correspond au format naturel de l’IA : les API d’OpenAI, LangChain ou LangGraph s’appuient toutes sur le JSON. C’est devenu le langage universel des IA génératives, et cela renforce la pertinence de l’approche MongoDB.

InformatiqueNews : Les entreprises doivent-elles moderniser leur patrimoine applicatif avant de se lancer dans l’IA ?

Fred Roma : Elles doivent en tout cas se poser la question. On ne peut pas espérer des résultats probants de l’IA si la qualité de la donnée n’est pas au rendez-vous. On retrouve ici le fameux “garbage in, garbage out”. Si la donnée est obsolète, inaccessible ou dans un format inadapté, l’IA produira des résultats médiocres, quelle que soit sa sophistication.

Deux stratégies se distinguent actuellement. Certaines entreprises choisissent de laisser temporairement de côté leurs systèmes historiques pour développer de nouveaux cas d’usage IA sur une stack moderne et propre. C’est une manière d’innover plus vite. Mais, dans de nombreux cas, l’enjeu réel consiste à moderniser les systèmes existants, parce que ce sont ces systèmes qui portent les processus cœur métier. Et les DSI le savent, cette modernisation est un chantier massif, parfois long, coûteux et difficile à justifier auprès des métiers.

C’est précisément pour cela que nous avons développé un framework de modernisation assisté par l’IA sous le nom de MongoDB Application Modernization platform (AMP). Il ne s’agit pas d’un produit miracle qui transformerait un système legacy en architecture moderne en un clic, mais d’un ensemble d’outils capables d’accélérer considérablement les différentes étapes : génération de tests, migration de code depuis des technologies anciennes, transformation de schémas très rigides, ou encore transfert de données.

Dans certains cas, l’IA permet d’aller dix à vingt fois plus vite qu’avec des processus classiques. Cela change totalement le calcul du ROI : tout à coup, un projet autrefois jugé trop lourd devient réaliste.

InformatiqueNews : Pourquoi avoir acquis Voyage AI et qu’est-ce que cela apporte à MongoDB ?

Fred Roma : Parce qu’à partir du moment où l’on accepte que les données non structurées deviennent centrales, il faut être capable de les exploiter efficacement. On ne peut plus se contenter de demander à un LLM d’agir sans tenir compte de la connaissance métier contenue dans les documents internes d’une entreprise. Pour connecter les deux, on a besoin d’embeddings, c’est-à-dire de représentations vectorielles permettant de comparer et de classer des contenus très différents : images, textes, scènes vidéo, PDF…

Si une entreprise veut savoir si deux images se ressemblent, si un document parle de facturation ou de gestion de commandes, ou si une scène de film contient un objet particulier, la seule voie réaliste aujourd’hui passe par l’embedding.

VoyageAI apporte exactement cela : des modèles d’embeddings parmi les meilleurs du marché, conçus par des chercheurs issus du MIT, de Stanford ou de Harvard. En intégrant cette technologie directement dans MongoDB, nous permettons aux entreprises de vectoriser leurs contenus, de les interroger, de les comparer et de les enrichir sans sortir de la base de données.

Cela fait de MongoDB non seulement une base où stocker la donnée, mais aussi un moteur d’information retrievaladapté aux usages IA modernes, incluant le RAG, la recherche sémantique ou la classification intelligente.

InformatiqueNews : Comment répondez-vous aux enjeux de sécurité et de souveraineté des données européennes ?

Fred Roma : En matière de sécurité, la question fondamentale est toujours la même : à quel moment la donnée est-elle vulnérable ? Jusqu’à présent, les bases de données pouvaient chiffrer les données au repos et en transit, mais au moment où un calcul était effectué, il fallait les décrypter. C’était un point faible incontournable.

Avec notre technologie Queryable Encryption, ce n’est plus nécessaire : nous pouvons exécuter certaines opérations de requête directement sur la donnée chiffrée. La donnée ne quitte jamais son état chiffré côté serveur. Couplé à la possibilité pour les clients de gérer eux-mêmes leurs clés « bring your own key », on peut concevoir des systèmes où la donnée n’est jamais décryptée sur nos serveurs, cela permet de construire des architectures entièrement protégées, de bout en bout, y compris durant l’utilisation.

Sur la souveraineté, notre grande force est que MongoDB Atlas et Enterprise Edition reposent sur la même base de données, les mêmes API.. Que ce soit sur AWS, Azure, Google Cloud – y compris dans leurs régions françaises – ou bien on-premise, ou même chez un hébergeur local comme OVHcloud ou Scaleway, MongoDB reste identique. Les clients qui ont des contraintes réglementaires peuvent déployer chez eux ou chez le partenaire cloud de leur choix Les API, l’expérience et les capacités de gestion sont les mêmes.

InformatiqueNews : MongoDB évolue d’une base de données vers une logique de plateforme. Qu’est-ce que cela change pour vos clients ?

Fred Roma : : Il est clair que nous ne sommes plus seulement une base de données, mais nous n’avons pas perdu notre ADN. MongoDB est devenu une plateforme unifiée de base de données complète pour les applications modernes, tout en restant profondément pensée pour les développeurs.

Les entreprises veulent aller vite, tester, itérer et mettre en production. Elles ne veulent pas gérer cinq ou six fournisseurs différents pour leur couche données : un pour la base, un pour le vector search, un pour le search classique, un pour les embeddings, un pour le stream processing… C’est très compliqué d’aller vite dans ces conditions, ça demande des compétences multiples et il faut gérer tous ces transferts de données. C’est un peu la loi des grands nombres : deux fournisseurs ça va, mais trois, quatre, cinq, six, ça devient ingérable.

Notre objectif est justement d’unifier ces capacités : stockage documentaire, vector search, recherche full-text, génération d’embeddings via VoyageAI, traitement d’événements, automatisation du scale, déploiement multicloud… Tout cela au plus près de la donnée.

Nous, nous venons du monde des développeurs, et nous voulons leur offrir un environnement cohérent, adapté à la fois aux besoins des équipes techniques et aux enjeux stratégiques des DSI. C’est cette combinaison qui, selon moi, constitue dès aujourd’hui, et pour les années à venir, la force de MongoDB.

Propos recueillis par Jean-François Le Nilias lors de MongoDB .local Paris, le 4 novembre 2024 au CNIT Paris La Défense.