Le concept de data est présent depuis plusieurs années dans le domaine du marketing. Ce qui présente actuellement le renouveau de la data est l’ensemble des moyens technologiques utilisés pour la traiter à grande échelle. Grâce aux DMP (data Management Platform), on peut l’organiser, la segmenter, l’agréger ou encore la scénariser. La prolongation réside dans le fait de l’activer, dans un objectif média.
Avant tout, définir les objectifs pour choisir le bon outil
Pour pouvoir définir l’outil que l’on va exploiter, il est important de connaître la finalité de la donnée, qui peut être traitée en temps réel, mais aussi stockée pour pouvoir être ré-exploitée par la suite grâce à des outils plus performants. Quelques exemples :
Hadoop, qui permet de manipuler par Map & Reduce une grande quantité de données en les distribuant dans un cluster de machines et, théoriquement, de traiter une masse de données infinie. C’est la plus répandue et bénéficie d’une communauté open source active, mais reste une infrastructure lourde, qui nécessite un environnement riche en data pour être déployé. Elle est utile à partir de 20 téraoctets de données, ce qui représente une masse non négligeable en fonction du domaine d’intervention.
Les bases de données « clé valeur » comme Redis permettent de collecter et d’accéder à une grande masse d’informations très rapidement. Elles consistent à utiliser une clé indexée en mémoire qui fait référence à une donnée texte brute. Le modèle de données est simplifié à l’extrême pour viser une efficacité de lecture optimale.
Plus la complexité est élevée dans le traitement de la donnée, plus un point d’interaction entre les données sera nécessaire et plus le traitement sera effectué à posteriori de la collecte.
D’autres types de bases de données sont également utilisés, les NoSQL, telles que MongoDB. Elles permettent de stocker des objets complexes, différents les uns des autres et apportent une souplesse nécessaire à la collecte d’environnements en perpétuel évolution.
Doit-on sélectionner la donnée à collecter ? Stocker de l’information inexploitée coûte cher
Dans un processus Big data, l’objectif est de collecter un maximum d’information afin d’obtenir une bonne couverture sur l’environnement étudié. Sans limite technique et budgétaire, toute la data qu’il est possible de capter doit être conservée. Plus les données seront larges et différentiées, plus Les résultats obtenus seront pertinents.
Au démarrage de la collecte, il est nécessaire de choisir un spectre large de données. Au fur et à mesure de leur exploitation, les algorithmes s’améliorent et les modèles s’affinent. Nous sommes donc de plus en plus en mesure d’écrémer les données à conserver. L’information inexploitée coûte cher. Aussi bien lors de la collecte que de la conservation. Un ratio coût / efficacité doit être pris en compte pour optimiser la rentabilité du processus Big data.
Faire du sur-mesure pour acquérir de nouveaux clients
La technologie permet une segmentation et une catégorisation fine du client (ancienneté, fréquence d’achats, nature de l’achat, …). Ces informations permettent d’établir un ciblage efficace et d’adapter au mieux la communication.
Les technologies Big data ouvrent des champs d’application diverses qui peuvent adresser des problématiques très différentes suivant l’environnement de l’annonceur. Il est donc possible de proposer des solutions sur mesure en adaptant les modèles de traitement et en mutualisant l’expérience du client et de nos data Scientist.
La modélisation personnalisée est un enjeu majeur pour les annonceurs. Bien qu’il existe des similitudes dans les comportements de leurs clients, la typologie de chaque audience doit être étudiée. Une offre dédiée doit être construite pour répondre au mieux à la spécificité de chaque annonceur.
De l’intelligence dans le traitement de la data…
Au-delà de la collecte de la bonne information, il est nécessaire d’apporter de la valeur par l’utilisation d’algorithmes poussés. Ils permettent de donner du sens et de l’expertise à la donnée.
Le cœur du métier est de collecter la data au bon endroit, au bon moment, avec intelligence et expertise. Pour ce faire, deux types de profils sont nécessaires pour un travail de qualité et une meilleure efficacité dans l’exploitation. Un data Scientist tout d’abord. C’est celui qui travaille sur la réalisation de modèles prédictifs, structure la donnée en espaces multiples et rend intelligible la masse d’informations. Ensuite, un Analyste dataminer qui devra être le lien entre le client et ses données, pour mettre en œuvre la construction de modèles spécifiques, comprendre où collecter l’information, comment l’utiliser et dans quel sens.
Techniquement, lors de l’exploitation, il faut savoir répondre à plusieurs questions pour faire preuve d’efficacité : les données obtenues suffisent-elles ? Doit-on collecter de l’information supplémentaire ? Va-t-on devoir recouper des informations pour qu’elles soient plus pertinentes ? Un processus d’A/B testing est-il nécessaire pour connaître l’adéquation du profil à la cible du client ? La construction de l’environnement data avec le client est-elle pertinente ?
Cette mécanique est une des bases principales pour réussir des campagnes efficaces.
L’identification unique pour lier tous les types de données
Les données peuvent se trouver sur des espaces très différents (temps, comportemental, déclaratif, CRM, terminaux, …). Elles doivent cependant être ramenées au même utilisateur en identifiant un internaute de façon unique sur l’ensemble des bases de données (internes et/ou externes).
Pour lier ces données, nous utilisons plusieurs technologies comme le fingerprint et le cross device pour ramener chaque information au même utilisateur et augmenter la couverture. Site internet, application mobile et réseaux sociaux, chaque support est important pour récolter les informations et pouvoir retraiter efficacement les différents événements.
L’optimisation de l’exploitation de la data réside dans l’intelligence et l’expérience utilisées. Grâce à des profils experts et à une technologie adaptée, on constate un gain de temps et une simplification du travail, deux points primordiaux pour une campagne média réussie.
___________
Fabien Barbaud, Directeur technique de Public-Idées, spécialiste marketing à la performance.