Big data: big bang de la connaissance ou de la consumérisation des humains?

Partie 3 : big data : une évolution dans la continuité des TIC ?

Est-ce que le  big data n’est finalement pas qu’un terme factice pour parler de l’évolution naturelle de la Business Intelligence, du Web avec le Web 3.0 ou de la bataille des systèmes ouverts avec l’open data ? Ou est-ce qu’il recouvrirait des enjeux de gouvernance des données sans précédent jusqu’alors?

Pour lire la première partie
Pour lire la deuxième partie

 

La Business Intelligence revisitée ?

Si nous voyons quels usages peuvent être fait des «  big data » qui impliquent identification, recherche et collecte d’informations, filtres, stockage, analyse, diffusion, au final qu’est-ce qui change par rapport à des techniques de Business Intelligence(BI), d’entrepôts de données ou bien de gestion électronique de documents qui existaient avant l’émergence du terme? Pour simplifier nous citerons le volume, ensuite les formats et pour finir la logique temporelle (la rapidité d’accès et d’analyse). Il s’agit non pas de manipuler des données structurées en provenance d’une simple source, mais de manipuler des données structurées et non structurées qui proviennent de différents lieux de stockage à l’intérieur de l’entreprise mais aussi de toutes les sources d’interaction extérieures (vidéo, audio, texte, données de capteur, image, email, SMS, contenus provenant des réseaux sociaux…). Le tout avec de fortes volumétries et pour finir avec l’ambition de faire des analyses « au pied levé » c’est-à-dire quasiment en temps réel, par des utilisateurs néophytes.

La volumétrie des données manipulées par certains sites Web a conduit à utiliser d’autres logiques de stockage de données par rapport aux systèmes de gestion de base de données relationnelles traditionnels : architecture distribuée sur des nœuds de serveurs, capacité d’accès très rapide avec souvent un système clé-valeur, analyse proche du temps réel. Pour beaucoup, on retrouve les logiques de gestion de fichiers associées aux beaux jours des mainframes, mais en environnement distribué.

Le framework open source en Java, Hadoop, inclut ainsi le système de fichier distribué HDFS (Hadoop Distributed File System) et la base HBase, la base de données distribuée qui consolide l’identité des informations collectées au travers des nœuds qui composent un cluster de serveurs, ainsi que l’architecture analytique de MapReduce, une architecture de développement dédiée aux calculs parallèles et distribués.

Mais Hadoop n’est qu’un outil parmi d’autres et l’outil ne fait pas tout. D’autres systèmes sont apparus, certains plus performants en termes de rapidité de traitement de gros volumes (cf. Presto pour FaceBook) , de stockage de fichiers et dans tous les cas Hadoop est toujours combiné avec d’autres briques technologiques dont beaucoup issues de a BI « classique » (cf. à ce sujet l’article du monde informatique sur une enquête d’IDC montrant qu’Hadoop n’est pas le bloc unifié qui fait tout).

Derrière tout cela, en effet, il n’y a pas un seul système qui unifierait toutes les approches. Mais bien de multiples briques, certaines issues des outils et solutions traditionnelles de Business Intelligence des entreprises, certaines issues des nécessités de manipulation rapide et aisée des données issues de l’émergence du Web comme plate-forme numérique globale. Au-delà des multiples briques technologiques, demeurent les mêmes défis : qualifier les données, les nettoyer, leur donner du « sens », peut-être les transformer en tout cas savoir les lier pour analyser de façon encore plus pertinente les tendances…

Et c’est là qu’une autre évolution, celle du Web sémantique, apparaît dans le champ des «  big data ».

L’évolution par les données liées du web sémantique

En incorporant une couche d’abstraction et de représentation des données au-dessus de la couche de stockage proprement dite, via des méta-données (données décrivant les données, par exemple préciser le titre d’une image, dire qu’elle représente un détail d’une sculpture, donner le nom de l’artiste, ou préciser qu’une présentation traite du  big data du point de vue sociétal et qui en est l’auteur ..) on peut s’abstraire des différents systèmes de stockage et même des interfaces de représentation pour arriver à utiliser et analyser aussi bien des données structurées que des données non structurées. Du coup, on arrive à dégager progressivement une nouvelle logique d’intégration des flux d’informations manipulées par des applications. Il ne s’agira plus d’échanger des données brutes via des programmes ou des services, mais d’aller rechercher l’information par la façon dont les données elles-mêmes sont liées les unes aux autres et le sens qu’on y attache dans un domaine de représentation des connaissances. Dès lors on peut voir qu’avec des langages tels que RDF (Resource Description Framework), OWL (Web Ontology Language) et un langage de requête tel que SPARQL, poussé par le W3C dans les standards du Web sémantique, on peut arriver à une intégration par les données qui permettrait très rapidement de lier des sources hétérogènes ensemble, de façon pertinente pour leur analyse et leur exploitation, selon les besoins et les métiers.

Mais pour que cela fonctionne, il faut que les données soient publiées en RDF, qu’elles soient référencées et accessibles. Nous arrivons dès lors à la bataille des données « ouvertes ». Celle qui est derrière le Web 3.0 et que le «  big data » cache. Si aujourd’hui on médiatise relativement l’aspect données ouvertes avec les initiatives de type « open data » des gouvernements, ces dernières ne sont qu’un aspect, certes non négligeable, du LOD, LInked Open Data, le nuage de données liées sur le Web qui est le visage du Web 3.0.

La bataille pour les données « ouvertes »

«Le Web va devenir de mieux en mieux capable de nous aider à gérer, intégrer et analyser les données []. Le web sémantique est une extension du web actuel dans laquelle on donne un sens bien défini aux informations améliorant ainsi le travail coopératif entre ordinateurs et personnes. Le Web sémantique désigne un ensemble de technologies visant à rendre le contenu des ressources du World Wide Web accessible et utilisable par les programmes et agents logiciels, grâce à un système de métadonnées formelles, utilisant notamment la famille de langages développés par le W3C. [RDF, OWL, ..] » Ainsi Sir Tim Berners-Lee définissait initialement le Web 3.0 avant de lui préférer au terme « Web Sémantique » le terme « web des données liées » pour éviter trop de confusions avec l’intelligence artificielle. Le vrai enjeu pour lui est une « interopérabilité inégalée, c’est-à-dire une capacité à faire partager l’accès aux données qui n’existe pas aujourd’hui. []. Si quelqu’un cherche des photos sur un sujet et qu’il a besoin de récupérer le nom du photographe, les droits à payer, la définition de l’image etc., il accédera en une seule recherche aux photos et à ces informations, alors qu’avec le Web actuel il doit les chercher successivement dans plusieurs sites d’images. »

Tim Berners Lee a défini 5 étoiles pour les données liées, qui sont en fait les règles reprises pour ce qu’on appelle les données ouvertes.

  1. Rendre vos données accessibles (quel que soit le format) sous une license ouverte (elles sont libres d’être exploitées juridiquement)
  2. Les rendre disponibles sous forme structurées (Excel à la place d’une image de table par exemple)
  3. Utiliser des formats non propriétaires (e.g., CSV à la place d’Excel)
  4. Utiliser des URIs pour identifier vos données, de sorte qu’on puisse pointer dessus
  5. Lier vos données à d’autres afin de fournir un contexte

Quelle est la différence entre les données liées de Tim Berners Lee et les données “ouvertes”?

En fait aucune. C’est juste une question de confusion des termes sur les usages et les producteurs de données. La bataille de l’ouverture a toujours été celle de l’interopérabilité, et de la possibilité d’utiliser les outils des technologies de l’information et de la communication de la façon la plus large possible (sans copyright, brevets, systèmes de contrôle, …) pour qu’aucun fournisseur ne prenne la main définitivement sur l’évolution des systèmes d’information.

Aux premiers temps de l’informatique en entreprise, la bataille a porté sur l’interopérabilité des systèmes d’exploitation. Unix a été la première mouture de « l’ouvert » versus le « propriétaire » (système d’exploitation ne fonctionnant que sur des machines spécifiques). Puis Unix lui-même n’a pas été jugé assez ouvert et a laissé la place à Linux, puis de façon plus générale l’ouverture s’est étendue aux langages, avec « l’open source ». Au départ, il s’agit juste de la possibilité d’accéder au code source avec des licences appropriées qui en autorisent la réutilisation et l’exploitation (plus ou moins contrainte pour la rediffusion suivant la license). La notion d’ouverture s’est élargie finalement à toutes sortes de contenu avec les licences Creative commons (notamment pour des méthodologies réutilisables) et la construction d’ordinateurs elle-même est concernée par cette approche, avec le Raspberry Pi, par exemple.

Les données sont une des phases de l’ouverture et des licences ouvertes apparaissent, telle Open Data Commons Open Database License (ODbl). Dans tous les cas, il est toujours judicieux de comprendre exactement le périmètre des licences « ouvertes » car elles sont plus ou moins restrictives. Les données liées au départ sont bien dans la logique de pouvoir être publiques, tout le monde doit pouvoir les exploiter et pouvoir y accéder. De préférence, elles devraient être dans un format standard tel que RDF, afin d’avoir un standard de format qui permette également de les lier à d’autres. La confusion qui existe aujourd’hui autour des données ouvertes, est relative à l’aspect de publication de données numériques produites par le secteur public, collectivités locales, administrations et gouvernements.

L’enjeu citoyen

L’enjeu dépasse l’interopérabilité pour venir sur le terrain de la citoyenneté et de la démocratie. Consommations moyennes d’énergie, textes réglementaires, budgets, taxes et répartition de leurs usages, études de santé, politique menée, cartes avec des données géo-spatiales sur les monuments, les infrastructures… nombreuses sont les données publiques qui auraient un sens à être publiées de façon ouverte pour le bien de tous. Pour les citoyens, pour plus de transparence, pour les chercheurs, pour exploiter des gisements de données, voire aussi pour la création d’entreprises innovantes pour proposer de nouveaux services avec plus de valeur ajoutée pour leurs clients potentiels. De partout dans le monde, les données des gouvernements s’ouvrent progressivement pour être publiées et accessibles par tous. Bien que la publication de ces données ne soient pas toujours en RDF, des initiatives se sont créées, parfois temporairement, pour ramener ces données au sein du nuage de données liées (ex http://data-gov.tw.rpi.edu/wiki ).

Pourtant, il semble que l’ouverture des données ne rencontre pas le même succès partout. Si en Angleterre, la situation a l’air très dynamique (cf. http://data.gov.uk/), en France (http://www.data.gouv.fr/), bien que la réutilisation des données publiques soit un droit depuis 2005, on voit moins de publications des données de la sphère publique et d’applications utiles pour tous tirées de l’exploitation de ces dernières. Si la démarche d’ouverture est louable à plus d’un titre, gouvernance transparente, favorisation de l’émergence de nouvelles entreprises autour d’applications numériques exploitant ces données, meilleur engagement des citoyens … elle se heurte à des problèmes qui finalement, ne sont pas pour surprendre : mauvaises qualités des données initiales, pas de réel dialogue dans la sphère citoyenne des données à « ouvrir », manque d’interopérabilité des données (le fait de les placer sous « License ouverte » n’est que la première étape et ne garantit pas le format approprié), manque de réel intérêt démocratique des données  ainsi publiées, questionnement sur les licences utilisées pas vraiment ouvertes, manque d’ouverture des administrations elles-mêmes et peut-être au final, manque de connaissance et de formation tout simplement sur le sujet …

Une approche de gestion des risques avisée

Il y a bien sûr des questions à se poser sur le niveau d’ouverture des données publiques au regard des informations privées des citoyens pour éviter le recoupement à des buts commerciaux invasifs de données brutes fournies par différentes sources gouvernementales. C’est un risque qui semble pouvoir être contrôlé par une stricte séparation des deux à travers un travail de requalification des données à publier. Il y a un effort correspondant de nettoyage dont il semble difficile de pouvoir se passer dans tous les cas. La mission d’information portant sur l’ouverture des données publiques (open data), lancée discrètement le mois dernier avec deux sénateurs à sa tête, devrait pouvoir éventuellement couvrir ce sujet, si tant est que le périmètre en soit défini, ce qui ne semble pas évident pour tout le monde.

Les risques réels sur les aspects liés aux informations d’ordre privé ne doivent pas arrêter la dynamique d’ouverture des données car l’autre risque, celui de laisser progressivement des données à vocation publique se trouver sous le coup de licences et de brevets propriétaires, n’est pas négligeable non plus. De même que celui de voir des systèmes de modélisation de connaissance définis par des sociétés privées prédominer sur notre façon d’apprendre et de rechercher de l’information. Le risque de perdre le contrôle de données qui concernent tous les citoyens du monde au profit d’intérêts privés en ne les publiant pas est peut-être plus grand que l’inverse. Il est en tout cas urgent de comprendre qu’au niveau entreprise, aussi bien qu’au niveau des états, la gouvernance des données est un élément crucial de la gouvernance tout court, notamment en ce qui concerne les capacités d’innovation. On peut ne pas se sentir à l’aise avec le mantra technologique associé aux  big data. Mais il serait dommage que trop d’effets d’annonces occultent les enjeux réels que le terme recouvre.