D’un côté les bases de données relationnelles, de l’autre le mouvement big data autour de hadoop. La convergence des deux mondes est-elle en marche ?

Les bases de données relationnelles sont au cœur des applications de gestion des entreprises depuis bien longtemps. Elles se sont organisées autour du langage de requête SQL , devenu un standard ANSI en 1986 et ISO en 1987. Elles ont permis de gérer efficacement les données structurées des entreprises. Puis l’Internet est apparu créant de nouvelles applications, les réseaux sociaux ou l’Internet des objets, générant des volumes de données considérables et non structurées. Deux mondes se développaient indépendant l’un de l’autre alors que ces données, structurées ou non structurées, font partie du capital informationnelle de l’entreprise et doivent, à ce titre, pouvoir être gérer dans un même univers et avec les même outils.

C’est le sens de l’annonce d’Oracle avec le lancement cet été de Big Data SQL, une technologie qui permet de lancer des requêtes simultanément sur la base de données relationnelle, la base de données NoSQL et le serveur packagée Big Data Appliance d’Oracle. Oracle n’est pas le premier à lancer un outil de ce type mais comme elle émane d’un des principaux leaders des bases de données relationnelles, cette annonce conforte un mouvement de convergence entre hadoop et les SGBD déjà engagé.

Parmi les produits comparables existants, on peut citer Impala de Cloudera qui permet de requêter hadoop en langage SQL et Hive et Tajo, tous deux développés par la fondation Apache, qui sont des langages s’apparentant à SQL. On peut aussi mentionner la technologie Polybase de Microsoft, QueryGrid de Teradata, Actian (anciennement Ingres) qui permet de supporter ses bases big data nativement sur le système de fichiers HDFS, Big SQL d’IBM et HAWQ de Pivotal. MapR qui commercialise la première distribution hadoop, offre un choix d’outils parmi lesquels Drill, Impala et The Presto Project, Hive. De son côté, SAP a intégré hadoop avec sa plate-forme HANA, Sybase IQ software, SAP Data Services et BusinessObjects, ce qui rendant possible des opérations OLTP et OLAP sur des données structurées et non structurées.

Un des difficultés dans l’exploitation des données est qu’elles sont éparpillées dans les différents systèmes de services, départements, filiales et que leur valeur est alors nulle ou faible. Des quantités de plus en plus importantes sont stockées sur des solutions hadoop tandis que les données structurées sont enregistrées dans des bases relationnelles et NoSQL. Ce mouvement de convergence permet donc de tirer parti de l’ensemble des données dont dispose les entreprises. Oracle Big Data SQL a été par exemple été utilisé pour rechercher la corrélation entre les données des sentiments des clients exprimés via twitter et stocker dans une base hadoop et les données liées à leur profitabilité qui sont stockées sur   des bases relationnelles. Autre avantage apporté par cette fonctionnalité, elle pallie au manque de compétences hadoop dans la majorité des entreprises puisqu’il s’agit là d’une technologie encore très jeune.

Big Data SQL ne permet pas de tout faire explique Dan McClary, chef de produit chez Oracle. Pour aller plus loin dans l’exploitation des données stockées dans hadoop, il faudra utiliser des outils spécialisés comme Apache Spark ou le langage R pour tirer parti de toutes les possibilités offertes. Il y a place pour SQL pour des requêtes classiques sur des volumes importants de données et place pour des langages spécialisés pour aller plus loin sur le terrain de l’analytics.

 

Analyse SWOT de l’annonce Oracle (Source Cabinet 451)

Forces
La possibilité d’utiliser le standard SQL pour requêter les bases de données relationnelles, non relationnelles et hadoop permet d’interroger des données structurées et non structurées. Les fonctionnalités d’Exadata en termes de performances et de sécurité s’appliquent à toutes les requêtes et elles ne seraient pas accessibles si SQL était utilisé sur hadoop en mode natif.
Faiblesses
Quoi qu’Oracle laisse entendre que cela puisse évoluer, cette intégration concerne seulement les solutions Oracle (SGBD, Base NoSQL et l’appliance hadoop d’Oracle. Ces solutions haut de gamme sont proposées à des tarifs également élevés et n’intéresseront sans doute pas des entreprises qui démarrent dans ce type de projet.
Opportunités
Les entreprises qui font des recherches du des données structurées et non structurées sont de plus en plus nombreuses. et Oracle indique que ses clients Exadata et Big Data Appliance sont intéressés par cette nouvelle fonctionnalité et il existe de nombreux outils devraient être compatibles avec Big Data SQL. 

 

 

 

Menaces
Même si Oracle Big Data SQL sera disponible ce trimestre, des concurrents d’Oracle offrent des fonctionnalités depuis longtemps. Aussi l’écosystème des outils dans le sillage de Cloudera Impala et Apache Hive et Tajo mature, qui utilise SQL en mode natif sur hadoop semble plus réaliste. Même si cela ne donne pas la possibilité de requêter sur les différentes bases de données relationnelles et hadoop telles qu’Oracle Big Data SQL, Teradata QueryGrid ou Actian Analytics Platform – hadoop SQL Edition.