Pour ceux qui suivent régulièrement l’actualité du Big Data ou assistent aux salons et forums sur le sujet (et ils ne manquent pas !), il est fréquent d’assister à des retours clients qui (re)mettent au premier plan, et à raison, les moteurs de recherche. Une brique technologique pas aussi présente dans les architectures des systèmes d’information qu’on pourrait le croire et dont le big data pourrait en redonner les lettres de noblesse.
Car indéniablement, le moteur de recherche a une place essentielle à jouer dans la « Logisphère » Big Data.
La recherche est une des fonctions incontournables de toute architecture Big Data. Elle vient consolider et extraire de la valeur à moindre effort de la masse des données hétérogènes du Data Lake dans lequel sont déversées en vrac les tonnes de données à analyser.
Pour constituer ce Data Lake de plusieurs centaines de téraoctets, les entreprises ont classiquement recours à une architecture Hadoop qui leur apporte performance et évolutivité à moindre coûts, pour peu qu’elles trouvent des solutions capables de s’y intégrer de façon transparente et efficace.
Qu’en est-il des moteurs de recherche ? Sont-ils aujourd’hui capables de tirer pleinement parti d’un cluster Hadoop ? Sont-ils capables d’utiliser le Data Lake pour construire et stocker leur index et utiliser des algorithmes MapReduce pour réaliser des recherches ultra-performantes ?
La réponse à toutes ces questions est sans appel : majoritairement NON !
La plupart des moteurs de recherche commercialisés actuellement ne sont ni capables d’utiliser du MapReduce ni capables d’héberger leur index dans le Data Lake.
Par conséquent, ils ne sont pas en mesure d’exploiter l’infrastructure de calcul du cluster Hadoop et nécessitent de fait d’investir dans une infrastructure dédiée dont le coût peut être très élevé, voir prohibitif, quand on sait que dans le cas de l’indexation données structurées, la taille de l’index peut être supérieure au volume des données elle-même.
Un talon d’Achille qui s’explique en partie par le manque de performance d’entrée/sortie (voir notre article du jour : Du décisionnel au big data) offerte par le cluster Hadoop, ne permettant pas une indexation en quasi temps réel des données. Si la plupart des moteurs de recherche proposent des connecteurs HDFS pour s’interconnecter avec le cluster Hadoop, ces derniers ne sont d’aucune utilité en terme exploitation de l’espace de stockage et de la puissance de calcul du cluster Hadoop.
Les éditeurs de moteur de recherche doivent impérativement et rapidement trouver un moyen pour tirer parti des infrastructures Hadoop afin de limiter les coûts souvent très élevés de leurs solutions.
Les prochaines releases éditeurs seront à étudier avec soin, pour voir si des progrès probants dans l’intégration Hadoop ont été réalisés.
Sans quoi, ce n’est pas seulement le virage du Big Data que les éditeurs auront raté…
_________
Sentelis est un cabinet de conseil en gouvernance et architecture de systèmes d’information.