Les projets de big data explosent en même que le volume des données.  De nombreux projets se développent dans de très nombreux domaines. Il faut donc que les compétences suivent.

Le volume des données explose. Tous les chiffres les plus surprenants ont déjà été publiés sur le sujet. Sachant que les données dont on parle ne sont que des 0 et des 1 et n’ont évidemment pas tous la même valeur. Le problème étant de leur donner du sens. Précisément, ces données sont accessibles et on a désormais les capacités de les stocker, de les analyser et de les restituer sous une forme intelligible. Les projets qui s’appuie désormais sur ce que l’on appelle, parfois par commodité, le Big data sont légion. Dans une note qu’il vient de publier intitulée « Analyse des «big data» -Quels usages ? Quels défis ? » dans laquelle il présente quelques applications spectaculaires.

Le projet BrainsSCANr (Brain Systems, Connections, Associations, and Network Relationships) a permis le développement d’un logiciel qui, en s’appuyant sur 3,5 millions de résumés d’articles scientifiques, fait automatiquement un lien entre des parties du cerveau et certaines maladies. Les corrélations « faibles » sont les plus intéressantes, car elles représentent celles qui n’ont pas souvent fait l’objet de recherches. Ainsi, un lien entre « migraine » et « striatum » a été mis au jour, l’ordinateur ouvrant de lui-même une nouvelle piste de recherche.

Les MOOC (Massive Open Online Course) vont bien au-delà de la perception que l’on pourrait en avoir et vont bien au-delà de la simple mise en ligne de cours. Par nature, les MOOC permettent d’analyser les activités des apprenants (temps consacré, façon de suivre les programmes, arrêt-retour dans les vidéos pédagogiques, recherches internet parallèles, etc.) ce qui permet d’améliorer de manière efficacement les modes d’enseignement.

La marie de Toulouse a lancé un projet d’analyse de ce qu’elle appelle « l’empreinte sociale de la ville et les sujets de préoccupations des citoyens sur des sujets tels que la circulation, la culture ou la sécurité».  La mairie a fait appel à la petite société Apicube et IBM pour analyse 1,6 millions de documents issus de blogs, forums de discussion, des réseaux sociaux tels que Facebook, Twitter publié pendant l’année 2012. Une première phase de filtrage a réduit à 100 000 le nombre de documents retenus pour l’analyse finale. Pour ce projet, l’équipe de projet a retenu  la plate-forme Social Media Analytics d’IBM, un outil d’analyse des sentiments répartis en trois grandes catégories : positifs, négatifs, neutres.

 

IBM s’est lancé des défis pour démontrer ses capacités à résoudre des problèmes technologiques. On se souvient de Deep Blue pour lequel Big Blue s’était donné comme objectif de battre Gary Kasparof aux échecs. Plus récemment, IBM s’est illustré en développant Watson, un système d’intelligence artificielle qui visait cette fois de remporter le jeu télévisé américain Jeopardy! contre des champions. Rappelons au passage que ce système s’appuie sur hadoop afin de parcourir une grande quantité de contenus (200 millions de pages lors de sa victoire à Jeopardy!) très rapidement (en moins de trois secondes pour Jeopardy!). Watson évalue la probabilité que la réponse qu’il trouve soit la bonne, répondant seulement si celle-ci est jugée assez élevée.

Watson se transforme en plate-forme ouverte

L’objectif poursuivi par IBM avec Watson est double : faire la promotion de son savoir-faire technologique, développer une nouvelle activité commerciale d’aide à la décision en proposant des systèmes spécialisés par discipline : médecine, droit (étant donné l’importance des législations, des réglementations, etc.), analyse de dossiers, conseil financier, etc. IBM vient de franchir une nouvelle étape en ouvrant sa technologie aux développeurs (Plutôt que de garder leur système fermé, les fournisseurs ont compris qu’il était beaucoup efficace de les transformer en plate-forme de développement ouverte au tiers via les API ou d’autres connecteurs) permettant ainsi la production de nouveaux services en ligne.

C’est là une stratégie gagnant-gagnant pour les deux parties : Les développeurs ont ainsi accès à une plate-forme intelligence et pourront comme l’écrit le Financial Times (IBM’s Watson artificial intelligence to get new homes with rivals)  labelliser leurs applications « Power by Watson ». Parmi les premiers projets autour de Watson, on peut citer ceux de Fluid Retail qui développe un prototype d’aide au commerce en ligne ou de MDBuyline, un fournisseur e produits médicaux qui travaille à un système visant à mieux répondre aux besoins des médecins.

Pour que le big data puisse se développer, des compétences pointues sont nécessaires pour prendre en charge les projets. Or, la discipline se développe plus vite que les compétences. Pour une meilleure évaluation de ces compétences, IBM vient de dévoiler Analyics Talent Assessment, une plate-forme en ligne qui permet aux étudiants d’évaluer leur aptitude à exercer des carrières dans le Big Data et l’Analytique.

Cette initiative a fait l’objet d’une annonce lors de l’Office of Science and Technology Policy Big Data qui s’est tenue à la Maison Blanche aux Etats-Unis. Cet événement répond à l’appel de l’administration Obama qui souhaite multiplier les partenariats entre les acteurs du Big Data qui exploitent ces nouvelles opportunités pour travailler sur des initiatives clés telles que la croissance, l’éducation, la santé, l’énergie et le développement durable.

Cette plate-forme sera déployée dans 8 universités américaines pilotes membres de l’IBM Academic Initiative, une collaboration entre IBM et plus de mille universités à travers le monde. En France, IBM a également annoncé le mois dernier l’ouverture d’un cursus spécialisé en Big Data avec HEC Paris destiné aux étudiants du MBA.

 

Quelques présentations publiées par TED sur les problèmes que pose le big data

BigdataNews1 Malte Spitz: Your phone company is watching
 BigdataNews2 Mikko Hypponen: How the NSA betrayed the world’s trust — time to act
 BigdataNews3 Heather Brooke: My battle to expose government corruption
 BigdataNews4 Ben Goldacre: Battling bad science
 BigdataNews5 Alessandro Acquisti: Why privacy matters
 BigdataNews6 Hasan Elahi: FBI, here I am!
 BigdataNews7 Mikko Hypponen: Three types of online attack
 BigdataNews8 Kevin Slavin: How algorithms shape our world
 BigdataNews9 Avi Rubin: All your devices can be hacked
 BigdataNews91 Christopher « moot » Poole »: The case for anonymity online