Les principales solutions de big data sont Open Source, tel est  le constat de la société Smile qui vient d’éditer un livre blanc intitulé Big Data, analyse de la valorisation de masse de données recensant l’ensemble des applications pour une exploitation des données.

Evidemment, cette affirmation vient d’une société du monde open source mais le panorama proposé par la SSII spécialisée montre bien la pénétration du logiciel libre dans le big data. « Il est possible de mettre en place une solution décisionnelle big data complète uniquement basée sur des solutions Open Source sans coût de licence, écrit Florent Béranger, directeur de projets Décisionnel et coordonateur du livre blanc. Toutefois, des versions commerciales basées sur de l’Open Source apportent des facilités qui vont dans le sens de la productivité de mise en oeuvre et de l’exploitabilité des solutions avec des outils d’administration complémentaires notamment ».

Les géants de l’Internet ont été les premiers à être confrontés aux traitements de volume de données considérables que les outils traditionnels ne pouvaient résoudre. Le cabinet de conseil Kforce date des années 2011/12 le véritable lancement des applications de big data poussé par l’explosion des données générées par les réseaux sociaux, le commerce électronique, les applications mobiles, l’eSanté et les logs provenant de toutes les activités sur Internet. L’objectif étant d’apporter de meilleures réponses à des problèmes existants : améliorer une position concurrentielle, réduire les coûts, réduire la criminalité, détecter des fraudes… Tout ceci étant devenu possible grâce à l’arrivée de technologies logicielles et matérielles et à la réduction des coûts de traitement et de stockage.

20 Smile1

20 Smile2

Outre leur modèle relationnel, la plupart des moteurs de SGBDs relationnels sont transactionnels ce qui leur impose le respect des contraintes ACID (Atomicity Consistency Isolation Durability). Il est actuellement impossible d’obtenir ces trois propriétés en même temps dans un système distribué. Sur de nombreux SGBDR classiques, la réplication devient plus complexe avec de fortes volumétries et une forte vélocité des données. D’où la nécessité de développer des outils d’un type nouveau parmi lesquels les bases NoSQL jouent un rôle important.

Les outils présentés dans le livre blanc se concentrent sur les solutions applicatives d’analyse et de valorisation de masses de données et n’abordent pas la qualité des données, les infrastructures techniques, la sécurité de l’information et le respect de la vie privée.

Composants d’intégration et de traitement de données

Type Solution Site web de la solution
Framework de traitement Apache Flume http://flume.apache.org
Framework de requêtage Apache Hive http://hive.apache.org
Framework de requêtage et traitement Apache Pig https://pig.apache.org
Framework de requêtage Cloudera Impala http://www.cloudera.com/content/cloudera/en/products-and-services/cdh/impala.html
ETL Talend for Big Data http://fr.talend.com/products/big-data
ETL Pentaho Data Integration http://www.pentaho.fr/explore/pentaho-data-integration
ESB Mule ESB http://www.mulesoft.org
Framework de traitement Hadoop YARN & MapReduce https://hadoop.apache.org
Framework de traitement Storm http://storm-project.net

(Source : Smile)

Stockage de masse des données

Type Solution Site web de la solution
NoSQL Colonne Apache Cassandrabase de données répartie en Peer to Peer http://cassandra.apache.org
NoSQL Colonne Apache HBaseBase de données du framework HadoopVoir Hadoop pour sa description http://hbase.apache.org
NoSQL Document MongoDB http://www.mongodb.org
NoSQL Document ElasticSearch http://www.elasticsearch.org
NoSQL Graph Neo4j http://www.neo4j.org

(Source : Smile)

Analyser et restituer des masses de données

Type Solution Site web de la solution
Portail décisionnel complet Pentaho Business Analytics http://www.pentaho.fr
Portail décisionnel complet JasperSoft BI Suite http://www.jaspersoft.com/fr
Portail décisionnel complet Spago BI http://www.spagobi.org
Portail de tableaux de bord web ElasticSearch Kibana http://www.elasticsearch.org/overview/kibana
Portail décisionnel complet Vanilla Platform http://bpm-conseil.com

 

Pour télécharger le livre blanc, cliquez ici

*     *
*

 

Sommaire du livre blanc

1. PRÉAMBULE
a. SMILE
b. QUELQUES RÉFÉRENCES DE SMILE

2. SOMMAIRE

3. EN RÉSUME
a. LE BIG DATA GÉNÉRATEUR D’OPPORTUNITÉS POUR LES ENTREPRISES ET COLLECTIVITÉS
b. UNE TENDANCE DE FOND POUR L’ANALYSE DE DONNÉES MASSIVES
c. CHECKLIST D’UN PROJET DÉCISIONNEL BIG DATA

4. CE LIVRE BLANC

5. CONCEPTS ET DÉFINITIONS
a. BIG DATA
b. ENTREPÔT DE DONNÉES OU DATAWAREHOUSE
c. STOCKAGE DISTRIBUE – NOSQL
d. INTÉGRATION ET TRAITEMENT (DISTRIBUE) DE DONNÉES MASSIVES
e. L’ANALYSE MULTIDIMENSIONNELLE OU OLAP
f. REQUETAGE AD-HOC EN LANGAGE NATUREL
g. DATA MINING

5. CAS D’USAGES
a. USAGES COUVERTS PAR LES SOLUTIONS BIG DATA POUR L’ANALYSE ET LA VALORISATION
b. MARKETING
c. LOGISTIQUE ET CHAINE D’APPROVISIONNEMENT
d. TÉLÉCOMS

6. PANORAMA DES SOLUTIONS BIG DATA POUR LA BI

7. COMPOSANTS D’INTEGRATION ET DE TRAITEMENT DE DONNÉES

8. STOCKAGE DE MASSES DE DONNÉES

9. ANALYSER ET RESTITUER DES MASSES DE DONNÉES