Les principales solutions de big data sont Open Source, tel est le constat de la société Smile qui vient d’éditer un livre blanc intitulé Big Data, analyse de la valorisation de masse de données recensant l’ensemble des applications pour une exploitation des données.
Evidemment, cette affirmation vient d’une société du monde open source mais le panorama proposé par la SSII spécialisée montre bien la pénétration du logiciel libre dans le big data. « Il est possible de mettre en place une solution décisionnelle big data complète uniquement basée sur des solutions Open Source sans coût de licence, écrit Florent Béranger, directeur de projets Décisionnel et coordonateur du livre blanc. Toutefois, des versions commerciales basées sur de l’Open Source apportent des facilités qui vont dans le sens de la productivité de mise en oeuvre et de l’exploitabilité des solutions avec des outils d’administration complémentaires notamment ».
Les géants de l’Internet ont été les premiers à être confrontés aux traitements de volume de données considérables que les outils traditionnels ne pouvaient résoudre. Le cabinet de conseil Kforce date des années 2011/12 le véritable lancement des applications de big data poussé par l’explosion des données générées par les réseaux sociaux, le commerce électronique, les applications mobiles, l’eSanté et les logs provenant de toutes les activités sur Internet. L’objectif étant d’apporter de meilleures réponses à des problèmes existants : améliorer une position concurrentielle, réduire les coûts, réduire la criminalité, détecter des fraudes… Tout ceci étant devenu possible grâce à l’arrivée de technologies logicielles et matérielles et à la réduction des coûts de traitement et de stockage.
Outre leur modèle relationnel, la plupart des moteurs de SGBDs relationnels sont transactionnels ce qui leur impose le respect des contraintes ACID (Atomicity Consistency Isolation Durability). Il est actuellement impossible d’obtenir ces trois propriétés en même temps dans un système distribué. Sur de nombreux SGBDR classiques, la réplication devient plus complexe avec de fortes volumétries et une forte vélocité des données. D’où la nécessité de développer des outils d’un type nouveau parmi lesquels les bases NoSQL jouent un rôle important.
Les outils présentés dans le livre blanc se concentrent sur les solutions applicatives d’analyse et de valorisation de masses de données et n’abordent pas la qualité des données, les infrastructures techniques, la sécurité de l’information et le respect de la vie privée.
Composants d’intégration et de traitement de données
Type | Solution | Site web de la solution |
Framework de traitement | Apache Flume | http://flume.apache.org |
Framework de requêtage | Apache Hive | http://hive.apache.org |
Framework de requêtage et traitement | Apache Pig | https://pig.apache.org |
Framework de requêtage | Cloudera Impala | http://www.cloudera.com/content/cloudera/en/products-and-services/cdh/impala.html |
ETL | Talend for Big Data | http://fr.talend.com/products/big-data |
ETL | Pentaho Data Integration | http://www.pentaho.fr/explore/pentaho-data-integration |
ESB | Mule ESB | http://www.mulesoft.org |
Framework de traitement | Hadoop YARN & MapReduce | https://hadoop.apache.org |
Framework de traitement | Storm | http://storm-project.net |
(Source : Smile)
Stockage de masse des données
Type | Solution | Site web de la solution |
NoSQL Colonne | Apache Cassandrabase de données répartie en Peer to Peer | http://cassandra.apache.org |
NoSQL Colonne | Apache HBaseBase de données du framework HadoopVoir Hadoop pour sa description | http://hbase.apache.org |
NoSQL Document | MongoDB | http://www.mongodb.org |
NoSQL Document | ElasticSearch | http://www.elasticsearch.org |
NoSQL Graph | Neo4j | http://www.neo4j.org |
(Source : Smile)
Analyser et restituer des masses de données
Type | Solution | Site web de la solution |
Portail décisionnel complet | Pentaho Business Analytics | http://www.pentaho.fr |
Portail décisionnel complet | JasperSoft BI Suite | http://www.jaspersoft.com/fr |
Portail décisionnel complet | Spago BI | http://www.spagobi.org |
Portail de tableaux de bord web | ElasticSearch Kibana | http://www.elasticsearch.org/overview/kibana |
Portail décisionnel complet | Vanilla Platform | http://bpm-conseil.com |
Pour télécharger le livre blanc, cliquez ici
* *
*
Sommaire du livre blanc
1. PRÉAMBULE
a. SMILE
b. QUELQUES RÉFÉRENCES DE SMILE
2. SOMMAIRE
3. EN RÉSUME
a. LE BIG DATA GÉNÉRATEUR D’OPPORTUNITÉS POUR LES ENTREPRISES ET COLLECTIVITÉS
b. UNE TENDANCE DE FOND POUR L’ANALYSE DE DONNÉES MASSIVES
c. CHECKLIST D’UN PROJET DÉCISIONNEL BIG DATA
4. CE LIVRE BLANC
5. CONCEPTS ET DÉFINITIONS
a. BIG DATA
b. ENTREPÔT DE DONNÉES OU DATAWAREHOUSE
c. STOCKAGE DISTRIBUE – NOSQL
d. INTÉGRATION ET TRAITEMENT (DISTRIBUE) DE DONNÉES MASSIVES
e. L’ANALYSE MULTIDIMENSIONNELLE OU OLAP
f. REQUETAGE AD-HOC EN LANGAGE NATUREL
g. DATA MINING
5. CAS D’USAGES
a. USAGES COUVERTS PAR LES SOLUTIONS BIG DATA POUR L’ANALYSE ET LA VALORISATION
b. MARKETING
c. LOGISTIQUE ET CHAINE D’APPROVISIONNEMENT
d. TÉLÉCOMS
6. PANORAMA DES SOLUTIONS BIG DATA POUR LA BI
7. COMPOSANTS D’INTEGRATION ET DE TRAITEMENT DE DONNÉES
8. STOCKAGE DE MASSES DE DONNÉES
9. ANALYSER ET RESTITUER DES MASSES DE DONNÉES