Le big data figure en bonne place dans le rapport que vient de remettre Anne Lauvergeon au président de la République dans le cadre de la commission Innovation 2030 et il constitue une des sept ambitions pour l’innovation aux côtés de Ambition 1 : Le stockage de l’énergie, Le recyclage des matières : métaux rares, La valorisation des richesses marines : métaux et dessalement de l’eau de mer, Les protéines végétales et la chimie du végétal, La médecine individualisée, La silver économie, l’innovation au service de la longévité.
Ambition n°7 : La valorisation de données massives (Big Data)
La multiplication des données créées par les particuliers, les entreprises et les pouvoirs publics sera porteuse de nouveaux usages et de gains de productivité. La mise à disposition par l’État et par ses opérateurs des données publiques constituera une opportunité pour favoriser l’essor de nouvelles start-up. Ici encore, la France présente de nombreux atouts. L’école française de mathématiques et de statistiques est une des meilleures au monde. Plusieurs entreprises sont leaders de sous-segments.
Ci-dessous, le texte sur le big data
Après plus de deux décennies de gains de productivité très importants dans l’entreprise, le technologies de l’information ont, depuis le début des années 2000, essentiellement bénéficié au grand public, avec l’adoption en masse de l’Internet, des réseaux sociaux ou encore du e-commerce. Ces nouveaux usages ont donné lieu à la naissance des géants comme Google, Yahoo, Facebook ou Amazon, pour ne citer que les plus grands, et a conduit ces derniers à recueillir des quantités de plus en plus considérables de données (moteurs de recherche, ciblage publicitaire, données d’usage, etc.). Les technologies existantes, comme les bases de données relationnelles, se révélant incapables de gérer de telles quantités de données, ces sociétés ont été amenées à développer leurs propres technologies de stockage et de traitement de ces données. Il s’agit là du Big Data.
D’autre part, de nouveaux usages sont apparus en lien avec le développement des applications sur smartphones, notamment dans les transports et la mobilité. Cette évolution met en évidence l’urgence, pour le secteur numérique, de mettre à disposition des développeurs de données d’intérêt général comme les statistiques en tous genres détenues par les pouvoirs publics. C’est ce que l’on appelle les données ouvertes ou « Open Data ». D’autres types de données, détenues par des acteurs privés ou parapublics, sont aussi essentielles au développement des nouveaux usages comme les données de consommation des compteurs électriques ou les informations sur l’état des parkings de vélos dans des systèmes de type Vélib. Il ne s’agit néanmoins pas de données ouvertes.
L’exploitation de ces données massives dont disposent les entreprises et les pouvoirs publics sont porteuses d’applications nouvelles et de gains de compétitivité considérables dans des domaines aussi variés que la santé (gestion des systèmes d’assurance maladie, génomique, épidémiologie, etc.), l’environnement, l’agriculture, le secteur de la banque/assurance, la culture, le tourisme, la publicité en ligne, le marketing, la recherche, l’éducation, les études économiques ou démographiques, la relation client… Des projets émergents comme les « smart cities » ou les « smart grids » génèreront beaucoup d’informations qu’il faudra traiter en temps réel.
La capacité pour les entreprises, les individus et les objets intelligents (robots, interfaces hommes-machines, objets intelligents connectés, capteurs, …) à exploiter de façon pertinente ces énormes quantités d’informations est un enjeu d’autant plus important que des données issues de secteurs éloignés d’une entreprise peuvent être d’un intérêt primordial pour elle (par exemple, la détection de la propagation d’une épidémie en temps réel par les requêtes sur les moteurs de recherche). Ces nouvelles méthodes de traitement des données permettront également d’accroître l’automatisation, d’agir plus rapidement mais aussi de mieux connaître ses clients.
Cette exploitation des données est donc un enjeu économique indéniable des prochaines années. McKinsey estime qu’en 2025, les Big Data représenteront 5 000 milliards de dollars par an. Les applications seront multiples et concerneront tous les domaines industriels. La valeur ajoutée française de cette filière est estimée à 4,8 milliards d’euros en 2010 avec une croissance d’environ 7% par an, mais avec un impact bien supérieur sur tous les secteurs économiques, et notamment par la « marchandisation » progressive de bases de données (Massive Open Online Courses, par exemple).
Cette évolution technologique rencontre des tendances sociétales de fond. Le citoyen consommateur souhaite avoir accès à de plus en plus d’informations pour décider par lui-même. Il demande également de plus en plus une information personnalisée, c’est-à-dire adaptée à son cas précis. L’information extraite doit donc être individualisée pour répondre à un besoin précis : traiter ses maladies en fonction de son génome et de ses habitudes de vie, apprendre selon son profil et ses ambitions, définir son profil de risque personnel, etc. De telles offres doivent également scrupuleusement respecter la vie privée des individus. L’enjeu est donc non seulement technologique mais aussi législatif et réglementaire pour concilier compétitivité et capacité d’innovation des entreprises avec le respect de la vie privée.
En dehors des enjeux de compétitivité des entreprises, déjà cités, ce secteur comporte aussi des enjeux de souveraineté sur les données, de sécurité nationale (cyber sécurité) et d’exploitation de ce potentiel dans l’administration. Il s’agit aussi de permettre un accès efficace des petites entreprises à l’international, pour en assurer un développement aussi rapide qu’aux États-Unis, et développer une offre française à l’échelle mondiale.
Face aux enjeux économiques que représente la valorisation des données massives, la Commission est persuadée qu’il s’agit d’un enjeu qu’il importe que la France maîtrise d’ici 2025. Différentes temporalités existent. Une partie des évolutions seront incrémentales et ne sont pas envisagées ici. Des ruptures avec des efforts de R&D à une échelle de temps plus long peuvent parallèlement être envisagées.
Pour ce faire, la France peut compter sur plusieurs points forts.
Le système éducatif français forme des ingénieurs généralistes ayant une très bonne maîtrise des mathématiques et des statistiques, nécessaires aux algorithmes capables de traiter des informations hétérogènes et gigantesques. L’école française de mathématiques et de statistiques est ainsi internationalement reconnue comme une des meilleures au monde et nos étudiants sont très recherchés. La recherche publique française présente également un haut niveau d’excellence en la matière.
La France abrite plusieurs sociétés de niveau international, notamment dans le domaine de l’Internet des objets (Withings, Sigfox, Parrot, …) qui n’ont rien à envier à leurs concurrents, ou encore des sociétés comme Critéo dans le domaine du ciblage publicitaire, qui est l’un des champions mondial, avec une taille déjà très significative. Plusieurs grands groupes sont leaders de sous-segments (Dassault Systèmes, Gemalto, Ingenico, Morphosytèmes,…). Un écosystème dynamique de start-up existe ainsi en France autour de ce sujet. Des pôles de compétitivité du domaine des TIC, qui favorisent les coopérations publiques privées, tels que Systematic, Cap Digital, Images & réseaux ou Solutions communicantes sécurisées, sont un outil de concentration de cet écosystème.
Le statut de jeune entreprise innovante est particulièrement pertinent pour ce domaine.
La France a une tradition de pionnier, avec la Commission nationale de l’informatique et des libertés (CNIL), dans la gestion raisonnée des données personnelles et, moyennant une réglementation équilibrée, notre pays pourrait devenir le terreau d’innovations d’usage dans le domaine du Big Data.
Enfin, un nombre important de données sont disponibles à l’échelle nationale et ne demandent qu’à être valorisées, l’État français étant construit autour d’une organisation centralisée.
La valorisation des données massives en France fait néanmoins face à plusieurs difficultés.
Il importe tout d’abord d’inventer des solutions innovantes (bases de données en mémoire, nouvelles architectures de traitement, analyse en temps réel, méthodes d’apprentissage automatique, nouveaux modèles de modélisation de données, etc.) et des modèles économiques autour de ces données. La question de l’accès au financement pour la croissance des entreprises du secteur est ainsi fondamentale.
Ensuite, face à ces données, les débats sont nombreux. Il importe d’assurer à la fois la sécurité de ces données et leur accessibilité, la protection de la vie privée et la liberté d’usage. Ainsi, le traitement et l’exploitation des informations numériques ne doivent-ils pas porter atteinte au respect de la vie privée et aux libertés individuelles. En dehors des fichiers qui comportent des données personnelles et qui, en France, sont contrôlés et régulés par la CNIL, toute personne laisse des traces numériques qui peuvent permettre de recueillir des informations sur elle :
recherches sur Internet, commandes en ligne, etc. Des affaires récentes, comme le système de cyber-surveillance PRISM de la NSA américaine, sont révélatrices de la frontière fragile qui existe entre le respect de la vie privée et la nécessité de disposer de technologies avancées (cybersécurité) pour lutter contre le terrorisme, la pédophilie, etc. La personnalisation de l’offre de services, comme l’apparition de bannières publicitaires ciblées sur Internet, présente une valeur ajoutée à la fois pour l’usager d’Internet et pour le vendeur, mais repose sur la collecte d’informations sur les pages consultées par l’utilisateur. L’agrégation et/ou l’anonymisation des données est cruciale. Dans la plupart des cas, il n’est pas nécessaire d’obtenir des informations nominatives. Au-delà, la question de la propriété des données doit être posée.
Si des règles, acceptées à l’échelle internationale, apparaissent clairement nécessaires, pour proscrire la surveillance d’individus en dehors de tout cadre légal, il ne faut pas que celles-ci deviennent une interdiction a priori de technologies par la France qui empêcherait les entreprises françaises d’expérimenter et de promouvoir de nouveaux usages.
Propositions de leviers d’actions
1. Ouvrir les données publiques, rendues anonymes, pour favoriser la création de start-up et créer des écosystèmes en France par la valorisation de certains usages à des fins commerciales.
Cette mesure, déjà adoptée notamment en Grande-Bretagne sous le terme d’« Open Data », est gratuite pour l’État et peut permettre une meilleure connaissance des marchés par les entreprises. Tous les secteurs et toutes les infrastructures sont concernés : santé, énergie, transport….
2. Faire changer d’échelle les entreprises françaises en lançant des défis de valorisation de stocks de données massives.
La France, par sa tradition centralisée, dispose de stocks de données de dimension très importante (INSEE, données administratives, sécurité sociale, etc.). Il s’agit de lancer des programmes de valorisation par licence de cinq « stocks » de données massives dont l’analyse pourra apporter une plus-value à l’ensemble de notre société : Pôle emploi, la Sécurité sociale, l’éducation nationale et enseignement supérieur ainsi que les aides à la valorisation du patrimoine touristique. D’autres défis de valorisation comme la gestion intelligente de l’énergie peuvent également être envisagés par les pouvoirs publics en lien avec le monde économique.
Par leur masse, l’exploitation de ces données représente un objectif essentiel pour les entreprises participantes et constitue une référence de valeur. Par ailleurs, cette valorisation des données publiques permettra de renforcer l’efficacité de l’action publique par l’exploitation « intelligente » des données considérables dont dispose l’administration et la découverte de nouvelles possibilités d’analyse.
Ponctuellement, l’intervention de l’État pourra aussi se concrétiser par le soutien au développement des start-up du domaine, souvent très consommateur de capital dans les premières phases.
Il importe également de favoriser les start-up qui créent et accumulent des données en propre. Ces entreprises auront en effet un avantage compétitif décisif sur le marché et capteront une part essentielle de la valeur.
3. Créer un droit à l’expérimentation.
L’approche traditionnelle (réglementation et administration de contrôle) est mal adaptée aux constantes du temps des usages qui se développent grâce à ces technologies. Un droit à l’expérimentation doit être reconnu, et encadré par un « observatoire des données ».
Il importe en effet de ne pas légiférer sur ce thème de manière générique. L’usage des données est sectoriel et demande une approche au cas par cas. Cette méthode pourrait être progressivement élargie à l’échelle européenne de manière, dans la mesure du possible, à construire une réglementation commune au niveau européen.
La Commission pense possible, par une approche sectorielle et par type d’usage, de définir une législation et une réglementation pertinente. Il importera de prendre le temps d’observer le développement des nouveaux usages avant de légiférer. L’exemple de la relation de confiance entre les banques et les usagers prouve qu’il est possible d’avoir une approche gagnant-gagnant dans le domaine de la gestion des données personnelles, mais certains systèmes comme le profilage des utilisateurs pour la publicité devront sans doute être gérés de manière spécifique.
De même, il est indispensable d’imposer une étude d’impact économique avant toute législation sur ce sujet, afin de préserver l’équilibre souhaitable entre innovation, compétitivité et respect de la vie privée.
4. Créer un centre de ressources technologiques.
Un « centre de ressources technologiques » dédié pourrait contribuer à abaisser considérablement la barrière à l’entrée que constitue la maîtrise des technologies très complexes du Big Data, et ainsi réduire le time-to-market des « jeunes pousses », maximalisant leurs chances de devenir des leaders mondiaux.
Il s’agirait de mettre à la disposition des acteurs innovants des outils logiciels, des méthodes statistiques ou mathématiques, des jeux de données massives ou des infrastructures de calcul massivement distribuées, permettant de mettre au point très rapidement de nouveaux usages fondés sur les technologies du Big Data. Ce centre de ressources technologiques serait ouvert à tous (start-up comme grand groupes) et chacun pourrait y contribuer.
5. Renforcer la capacité à l’export des PME du Big Data.
Le marché français est trop limité pour assurer une croissance à long terme des jeunes entreprises du Big Data. Le passage à l’export doit donc s’effectuer assez rapidement. Pour cela,
– les grands groupes pourraient être incités à accompagner les PME lors de leur déploiement à l’international ;
– les pouvoirs publics pourraient cibler leurs interventions vis-à-vis de ce secteur particulier et apporter l’information nécessaire sur les outils existants (VIE, Coface, etc.).