Le salon Big Data qui se tenait au CNIT de la Défense les 10 et 11 mars a été l’occasion de mieux connaître les premiers distributeurs d’Hadoop, le fer de lance du Big data.
Cloudera mais aussi Hortonworks et MapR sont les trois premiers distributeurs du logiciel Open Source Hadoop qui stimule, de l’avis général, le renouveau de ce secteur qui, depuis plus de 20 ans reposait sur l’analyse de bases de données, le datamining, l’ETL ou l’analyse de données, selon l’angle que l’on veut lui donner. Pour ceux qui n’ont pas eu le temps de regarder cette évolution rappelons qu’Hadoop a été conçu, selon la définition la plus répandue « pour stocker de très gros volumes de données sur un grand nombre de machines équipées de disques durs banalisés ». Il permet l’abstraction de l’architecture physique de stockage, et permet de manipuler un système de fichiers distribués comme s’il s’agissait d’un seul disque dur. Il reprend les principes présentés en 2004 par Google pour expliquer les principes de son système de fichier en cluster, le « Google FS » mais aussi son algorithme basé sur des opérations analytiques à grande échelle sur un grand nombre de serveurs.
Une bonne approche d’Hadoop est détaillée dans l’interview du patron de MapR ((https://www.informatiquenews.fr/m-c-srivas-mapr-hadoop-va-devenir-standard-donnees-20704)
Romain Picard, le directeur Europe de Cloudera, (photo), présent à l’expo nous précisait que sa firme était la première distribution historique d’Hadoop et qu’elle avait l’intention d’entrer en bourse en 2016. Elle avait été aussi la première à compléter la distribution avec différents outils. « On a deux logiciels complémentaires Cloudera manager et Cloudera Navigator qui facilitent l’adoption d’Hadoop .» 
Hortonworks, la premiere à être entrée en bourse
Hortonworks, pour sa part, ne propose aucune extension logicielle différente et base l’essentiel de ses revenus sur la vente et le service autour de sa plate-forme HDP et sur la formation. La firme a mis récemment en avant le fait que l’essentiel du temps des utilisateurs était utilisé pour le nettoyage des données, plutôt que pour leur exploitation. Un discours repris par la jeune firme française Dataiku qui proposait des T-shirt aux Geeks du salon avec l’inscription en Anglais : « je ne suis pas un laveur de données » pour mettre en avant les fonctions de simplification qu’elle propose.
Hortonworks faisait d’ailleurs sur son stand l’apologie de la version 2.1 et de l’importance de Yarns, le système « d’exploitation » des données, lié à l’arrivée d’Hadoop 2.0 (schéma ci dessous) qui permet de couper la cordon entre HDFS (Hadoop Distributed File System) et les différentes sources de données pour mieux les exploiter. 
MapR en accord avec ATOS
La firme dispose d’un bureau Français depuis mars 2013.
MapR a, rappelons-le, développé un système de fichier MapR high availability (HA) pour Hadoop palliant les limites du HDFS. 
Bref, hormis Hortonworks qui défend une forme d’intégrisme de la version Open source, tous les acteurs renforcent l’offre actuelle avec d’intéressants compléments et modules accessoires. L ‘imagination est parfois dans la profusion.






puis