Dans la bataille que se livrent les trois principales distributions Hadoop : Cloudera, Hortonworks et MapR, Cloudera vient de marquer un gros point : le support d’Intel qui développait jusque-là sa propre distribution, avec un argument de choc, la vague d’intégration des capteurs. Une bande dessinée en anglais résume bien la position du numéro un des processeurs sur ce sujet :http://bcove.me/tw3kkyyd

Rappelons que Cloudera est 100 % open source, sauf sur les outils d’administration propriétaires. Cloudera offre une stack composée d’Hadoop, de MapReduce pour le traitement des données en mode batch, Hbase pour la fourniture des données en temps réel et d’Impala pour les requêtes en temps réel. Ci-dessous les différents éléments de la distribution Cloudera.

cdh

La convergence des distributions sera effective à la fin 2014

Selon Ron Kasabian, le general manager d’Intel pour le Big data dans une interview donnée à la revue EE Times : « Hadoop souffrait d’un manque de fonctions nécessaires aux entreprises comme le backup, la restauration, le contrôle d’accès et la sécurité en général. Intel a essayé de les ajouter dans sa propre distribution mais on a constaté que le code de Cloudera était de loin le plus répandu et qu’il possédait un meilleur flux de données ( data stream) et bien d’autres fonctions. C’est pourquoi on a cherché un accord pour fusionner les bases de nos codes. A la fin de l’année, la convergence des deux produits sera complète. » La firme a jusque-là proposé une combinaison d’extensions propriétaires ( en bleu foncé sur le schéma)  et  de fonctions open source maison ( en gris)  qui se superposaient aux distribution open sources classiques( en bleu ciel)

 

intelhadoop

Désormais l‘équipe de développement d’Intel se consacre aux outils d’analyse qui fonctionnent au-dessus d’Hadoop. Pour Ron Kasabian, l’important ce sont les temps de réponses des applications : «On développe avec nos clients des projets, des POC ( proof of concept) pour comprendre comment certaines charges de travail dans le domaine de l’analyse réagissent et nous faisons tout ce que nous pouvons pour les accélérer. Par exemple, certaines applications utilisées dans l’internet des objets pourraient avoir des besoins spécifiques auxquels nos processeurs de terminaux ou ceux utilisés dans le cloud, comme le quark ou le Xeon pourraient répondre précisément ». La firme chercherait à impliquer McAfee (sécurité) and Wind River ( temps réel) dans son groupe.

 A propos des deux autres distributions

Rappelons que Hortonworks qui se présente comme 100 % open source avait reçu le soutien récent de Red Hat, l’ensemble restant en cours de développement. Le second concurrentMapR utilise le noyau open source d’Hadoop, mais l’enveloppe dans un emballage qui le rend propriétaire. Les trois firmes ont reçu récemment le support d’investisseurs importants ( lire la lettre big datantes).