Big Data: Big Bang de la connaissance ou de la consumérisation des humains?
Le buzz du Big Data s’essouffle progressivement au fur et à mesure où l’on mesure la diversité des situations, des problèmes et des éventuelles solutions que le seul terme est censé recouvrir. Big Data, c’est quoi ? Une explosion des sources et du volume de données numérisées, synthétiseraient d’aucuns. D’autres vous répondraient en alignant comme un mantra technologique: Apache Hadoop, Hbase, HDFS, Hive, Mapreduce, NoSQL, SAP Hana, etc. ou alors RDF, RDFS, OWL, SPARQL et OPEN DATA. Il y en aurait d’autres encore pour vous parler de connaissance, mais aussi de société, de démocratie, de confidentialité, de subjectivité. Cet article a choisi dès lors d’aborder un point de vue des différents aspects que le Big Data recouvre et s’essaye à les développer sous 3 angles, soit 3 parties qui sont :
– Partie 1 : Les logiques d’exploitation derrière le Big Data du gisement de données à explorer, partagées entre une vision capitaliste extrême tendant à la consumérisation effrénée des humains et de leurs rapports, et celle plus ou moins humaniste, du moins « ouverte » de Tim berner Lee avec le web des données liées, sans parler des logiques de surveillance d’états.
– Partie 2 : Les mythes cycliques qui reviennent à chaque évolution : infobésité, recherche d’une connaissance universelle, fascination pour l’Homme « presque » Dieu, avec aussi la menace toujours possible d’un « meilleur des mondes » où le bonheur primerait naturellement sur la liberté.
– Partie 3 : Les évolutions des technologies et des Systèmes d’information et leurs conséquences, en particulier :
L’évolution de la Business Intelligence : à travers une plus grande capacité de calcul, une analyse en quasi temps réelle, de nouvelles techniques de stockage et l’intégration par les données.
L’apparition d’une nouvelle phase dans la bataille des systèmes dits « ouverts » contre les systèmes « propriétaires » avec les données ouvertes (Open Data). Cette phase engage la bataille au-delà des murs de l’entreprise et de son système d’information, pour aller sur le domaine public et citoyen
* *
*
Partie 1 : Big Data et consumérisation de nos données privées.
L’attrait généré par l’exploitation possible de grands volumes de données qu’implique le Big Data, se concentre surtout sur la manne des informations générées par des utilisateurs largement connectés à Internet, via PC, smartphones, tablettes… Parce qu’elle permet à des entreprises de mieux cibler des individus pour en faire des consommateurs.
Déjà au début des années 2000, Jeremy Rifkin dans « l’âge de l’accès » (version française parue en 2005) dont la version anglaise était sous-titrée « The New Culture of Hypercapitalism, Where all of Life is a Paid-For Experience », évoquait la consumérisation de nos données personnelles, voire de nos rapports humains. «La transformation en marchandises des relations humaines est une entreprise pour le moins troublante. L’assignation d’une valeur marchande à la totalité de l’existence des individus dans le but de transformer l’intégralité de leurs expériences vécues en transactions commerciales représente en quelque sorte le stade suprême du capitalisme.»
LTV : Parce que vous le valez bien, à un moment ou un autre
Tout novice en marketing connait le principe de la Life Time Value ou LTV, ce principe qui implique que chaque moment de votre vie peut être une source de revenus pour une entreprise mais aussi que l’on va soupeser votre valeur marchande sur toute votre vie. Pour vous suivre 24/7 et vous proposer le bon service au moment opportun (votre anniversaire, un déménagement …), celui que vous seriez prêt à acheter, il faut non seulement pouvoir engranger des informations sur vos centres d’intérêts personnels, mais pouvoir prédire les tendances des consommateurs qui ont votre profil. Le mieux serait pouvoir de le faire, à chaud, au plus près des tendances, en réaction aux événements de la vie courante. C’est justement cet usage analytique et prédictif des technologies dites Big Data qui séduit les entreprises.
Or depuis plusieurs années, avec les réseaux sociaux et l’insertion du numérique dans la vie quotidienne des uns et des autres, la capacité à collecter des informations privées n’a cessé de croître, tandis que les capacités de stockage et d’exploitation augmentaient également. A contrario, la prise de conscience de la « valeur » des données privées est plus lente.
Déjà en 2001 Jeremy Rifkin écrivait : « Au cours des dernières années, la déréglementation des services publics et la privatisation de nombreux secteurs dépendant précédemment de l’État ont donné lieu à de nombreuses controverses. En revanche, la tendance à l’absorption de la sphère privée individuelle par la logique du marché est passée relativement inaperçue ».
Des entreprises qui vous connaissent bien
L’entreprise Facebook est un exemple connu de cette tendance, car son modèle repose en effet entièrement sur la monétisation de ses utilisateurs à destination des annonceurs. Techniquement, l’entreprise utilise effectivement des technologies de Big Data pour arriver à exploiter des volumes énormes. Elle vient d’annoncer d’ailleurs la publication en open source (sous licence Apache V2) de Presto, son nouveau moteur de requêtes SQL distribuées, successeur du couple Mapreduce/Hive, lequel peinait à adresser rapidement un entrepôt Hadoop d’environ 300 PO (1015 octet). Ce qui, dans les comparaisons amusantes ayant trait à cet ordre de grandeur difficile à évaluer, correspondrait à 4000 ans de vidéo haute définition à regarder. Les 10 milliards de photos sur FaceBook « pèseraient » elles, 1,5 PO du tout.
Reste qu’il faut des millions d’utilisateurs pour que ce modèle fonctionne, compte tenu des taux de conversion des diffusions de publicité (moins d’un acheteur pour mille). Il s’agit donc de les attirer avec un service dont l’usage leur importe et a priori, totalement gratuit, pour les attirer nombreux. A priori car vous y laissez de quoi vous cibler, voire vous devenez un relais de publicité. Comme de nombreuses études ont montré l’influence majeure des recommandations d’amis, voire de parfaits inconnus, sur le comportement d’achat des consommateurs, les « like », les fameux liens/histoires sponsorisés, utilisent vos commentaires, le fait que vous ayez marqué vos préférences, pour vous utiliser comme caution d’achat. En résumé, sur Facebook, dis-moi ce que tu aimes et qui sont tes amis, je leur dirai quoi acheter … Certes, on peut changer les paramètres de son compte, mais les paramètres de confidentialité changent eux aussi souvent …
Si Facebook a perdu récemment un procès aux Etats-Unis (Facebook à l’amende pour son programme de liens sponsorisés) le chiffre d’affaire engrangé grâce à cette approche (ainsi que les publicités mobiles) lui permettent de poursuivre dans cette voie sans trop de soucis. On peut aussi s’interroger sur la réaction réelle des internautes contre la diffusion de données personnelles. Le supposé désamour des utilisateurs de Facebook suite aux révélations sur Prism, n’a pas vraiment endeuillé la bonne santé financière de l’entreprise, qui a bien remonté le cours de son action plus d’un an après l’introduction en bourse mouvementée de mai 2012. La question sur la capacité de Facebook à générer des revenus publicitaires a depuis reçu une réponse en bonne et due forme.
La monétisation des données personnelles comme modèle économique
La société Acxiom Corp, basée dans l’Arkansas à Little Rock est un autre exemple d’entreprise, peut-être moins connue, qui fait son fonds de commerce des données personnelles. Avec un marché non négligeable, puisque selon une étude du Forrester Research, les compagnies américaines dépensent 2 milliards chaque année pour acheter à des tierces parties des données sur les particuliers. Acxiom maintient ainsi une base de plus de 500 millions de consommateurs au niveau mondial.
Historiquement collectées hors ligne (à travers des fichiers publics, annuaires téléphoniques, des enquêtes, etc.), ces données sont venues s’enrichir au fil du temps d’informations glanées sur Internet. Dans une démarche à vocation a priori de transparence, cette entreprise a lancé un site AboutTheData.com (cf. l’article what Acxiom knows about me) où on peut venir consulter ce que l’entreprise a collecté comme information à son sujet, voire les corriger. Il est toujours possible de demander à être retiré de la base, mais Acxiom souligne que dans ce cas vous continuerez probablement à recevoir de la publicité de sociétés, elle sera seulement moins ciblée. On peut s’interroger sur le type de ciblage, sachant que les données conservées par Acxiom sur une personne sont du type : son âge, son sexe, son nombre d’enfant, mais aussi pour qui elle vote, ce qu’elle conduit, ce qu’elle gagne, ce qu’elle dépense, ce qu’elle aime …. Nous sommes bien loin de la CNIL aux Etats-Unis. Face à la « transparence » d’Acxiom, on aimerait bien que les citoyens soient moins transparents. Est-ce que l’argument « c’est pour vous envoyer des publicités mieux ciblées et qui correspondent à vos goûts » suffit à abdiquer toute réserve sur des données privées qui relèvent de l’intimité des personnes ?
Et que dire de l’Etat d’Andorre, qui, selon l’intervention de Kate Crawford le 9 octobre au MIT media Lab, pour faire face à la crise, prévoit de vendre les données personnelles de ses citoyens, sans contrepartie financière, ni paramètre de confidentialité, ni même droit d’opposition?
Les Big Data donnent le sentiment de toujours pouvoir en faire plus, mieux identifier le consommateur, mieux comprendre ses besoins, entrer dans sa sphère intime … oui mais, la monétisation des informations personnelles a des limites éthiques qui pour le moment se franchissent aussi facilement que les flux d’information franchissent les frontières physiques.
Le droit à l’oubli numérique face au devoir de mémoire ou à la citoyenneté numérique
Compte tenu des différences réglementaires entre pays, il est aisé pour des entreprises de s’engouffrer dans les failles béantes des absences de réglementation transfrontalières. Où se loge la protection de la vie privée devant une intrusion quasi systématisée du numérique dans tous les pans de la vie quotidienne, acte d’achat, transports… ? Quand on peut trouver qui est connecté à qui, qui appelle d’où, qui recherche quoi sur qui ou quoi ? L’information « dématérialisée » est plus facile à trouver et tracer que le papier. La multiplication de l’information implique également du stockage physique. Toute dématérialisée et numérique qu’elle soit, l’information passe par des équipements réseaux, des serveurs, elle est dupliquée, sauvegardée…. Où vont toutes ses informations, qui les collecte, à quelles fins, comment sont-elles exploitées, jusqu’à quel point sont-elles « objectivées », combien de temps sont-elles gardées ?
Que vaut le droit à l’oubli numérique quand il est désormais difficile de repérer exactement chez qui vont toutes vos données personnelles? Mais aussi, ce droit à l’oubli n’est-il pas questionnable parfois, comme le laissent entendre des historiens (voir l’article du monde : le droit à « l’oubli numérique » inquiète les historiens) ? Et si vous ne voulez pas laisser de trace, quelles sont les autres conséquences ? Si dans un avenir fictif, les enquêtes d’opinion, les consultations publiques, ne passaient plus que par l’analyse de réseaux-sociaux, jusqu’à quel point un petit nombre surexposé représenterait-il la réalité de tout le monde ? Les questions sont nombreuses. Elles ne font pas toujours l’objet de réponses posées mais elles facilitent la résurgence d’anciens mythes, auxquels le Big Data donne une renaissance, entre les tenants des utopies autour de la connaissance universelle et du progrès toujours positif et ceux qui voient partout des savants fous ou des conspirations planétaires.
Le premier mythe, pas le moindre, serait de croire que le sentiment d’être submergé par un volume d’information (un « déluge de données ») qui dépasse les capacités d’assimilation humaine naitrait avec le siècle. Trop d’information tuerait l’information. Pourtant, ce syndrome baptisé « infobésité » en 1996, existait déjà au… 16e siècle. Il n’affectait alors que les érudits, peut-être, mais ils s’en plaignaient déjà.
Sabine Bohnké, cabinet Sapientis.
____________
2e partie la semaine prochaine : Les Big Data et les mythes de l’évolution humaine