Petite histoire de Base (Crm et gestion de données) (23 avril 2007)
1- Genèse et balbutiements
2- Un enrichissement gradué
3- Promesses et vertiges
4- Audience de la mesure et mesure d'audience
5- Les missions du gestionnaire de la Base de Données
6- De la donnée vers la connaissance
7- La collecte en ligne de données, une question d’alibis
8- Du sociostyle au webstyle
2- Un enrichissement gradué
3- Promesses et vertiges
4- Audience de la mesure et mesure d'audience
5- Les missions du gestionnaire de la Base de Données
6- De la donnée vers la connaissance
7- La collecte en ligne de données, une question d’alibis
8- Du sociostyle au webstyle
1 - Genèse et balbutiements
C’était pendant la pénultième année du siècle dernier, une base de données de quelques gigas octets paramétrée et construite de façon simple autour du client par et pour les utilisateurs internes en charge de la connaissance client. Le site dit communautaire (déjà !) au nom de friandise (vous avez deviné ?) avait pour vocation d’offrir moult fonctionnalités de communications dont le Web mail. De jour en jour de mois en mois à la bourse de la valeur d’un site c’était le nombre d’internautes et le trafic (pages vues...) qui importaient, la fameuse masse critique, aujourd’hui on parle enfin de taux de transformation. Il fallait donc être apte à fournir plus qu’une idée du volume de vos ID (identifiants par abonnés) en base de données. Chacun y allait de son petit formulaire d’inscription par mimétisme, plagiat pur et simple (sur certains items ou formulations spécifiques d’items), d’autres plus aptes à se projeter se disaient sans doute « engrangeons toutes données même les plus privatives ou les plus inutiles, on ne sait jamais, cela peut toujours servir !».
Ainsi donc commença une «datagenèse » une préhistoire de la donnée Web qui n’était pas de la connaissance client, rappelons-le.
2 - Un enrichissement gradué
Les données sociodémographiques de base qualifiaient sur une base minimaliste les membres de notre site qui dans sa vocation de Webmailer nécessitait un « sign-up ». Tris à plats tris croisés permettaient ainsi d’extraire des états statistiques descriptifs à vocation panoramique (les grandes données clés diffusables en interne, à la presse et en première intention aux annonceurs). Mais un premier saut qualitatif se fit jour quand les sites, dont le nôtre commencèrent à s’intéresser aux centres d’intérêts « hors site » des internautes.
A cette période beaucoup de ces questionnaires étaient soit mal formulés (catégories « valises » des items a cocher, trop étroites ou trop larges) soit trop longs (donc dissuasifs pour l’internaute nouvel entrant) soit réduits au stricte minimum (log in, mot de passe) et donc frustrant pour l’analyse de données. Se posait donc alors au chargé d’études Web un tant soit peu curieux et rigoureux une véritable problématique du questionnaire d’inscription. Ce souci et cet art du questionnaire sont encore d’actualité puisque sur certains sites (e-recrutement et Cvthèques par exemple), l’hétérogénéité persiste d’un site à l’autre.
En effet sur nombre de ces sites on constate trop souvent au niveau des items des questionnaires :
Des confusions entre secteurs, métiers et fonctions, des référentiels différents,
Une absence dans les sélections de certains « nouveaux métiers » (type Km, dataminer...),
Une impossibilité de sélections multiples dans certains choix (assez frustrant).
Ici comme ailleurs on peut donc parfois s’interroger sur la communication inter-services qui préside à la conception « amont » de certaines bases de données en terme d’inputs notamment. La fameuse « inculture » organique et le cloisonnement intra-organisation encore et toujours …
3 - Promesses et vertiges
A cette époque la cyber-évangélisation happe frénétiquement nombres d’annonceurs. Le cyberespace enfante et s’enfante lui même (autopoïèse [1] ) prolifère de façon exponentiel faisant se côtoyer créativité, arnaque, le tout et n’importe quoi, mais aussi les germes prometteurs de sites encore viables aujourd’hui. Naturellement un certain nombre de fondamentaux en management, marketing, finance, logistique, passe à la trappe et des concepts émergent ou sont réappropriés et réinvestis d’une nouvelle identité fructueuse pour nombre de prestataires et autres gourous (exemple le « one to one [2] »). Et chacun connaît la suite de la transition de la bulle à la baudruche Internet, où certains voulant oublier où se faire oublier ont brûlé rapidement certaines idoles adorées hier.
4 - Audience de la mesure et mesure d'audience
Concernant la mesure d’audience Internet, le CESP [3] entame l’audit de certains logiciels de mesures (« site-centric » et user-centric » [4] ) et délivre par ailleurs une terminologie officielle des indicateurs d’audience (visite, visiteurs...). Plus tard, en 2002, face au développement de formats d’espaces publicitaires de plus en plus interactifs (Rich-media) l’IAB [5] en définit les standards et entame l’étude NetImpact II [6] sur l’efficacité publicitaire.
Quant aux organismes d’études spécialisées ainsi que les régies d’achats d’espaces publicitaires, ils collaborent pour s’accorder sur de nouvelles définitions ou extensions de définitions (Bêta de mémorisation [7] par Carat, notion de GRP [8] Internet plus récemment) communes et acceptées par tous. En clair, l’émergence d’une certaine rationalisation par les méthodes (réimposer des fondamentaux) permet de lutter contre l’entropie [9] d’un système à la complexité croissante. Ainsi donc cette âge de l’accès et de l’excès a engendré une multiplication des interactions et des processus qui les portaient.
Les prémisses de l’ADSL haut débit (enfin ce qu’on appelait haut débit en France en regard de la Corée du Sud, comme quoi tout est relatif ; notons cependant que l'offre d’aujourd’hui tend à se mettre à la hauteur de nos ambitions, voire même à les dépasser), les possibilités d’interactions et de rétroactions (feedback temps réel de services personnalisés en CRM) avec les internautes sont à ce moment là encore pauvres (malgré quelques applications en B to B type Web call-back). Ce qui signifie que certaines données plus qualitatives, potentiellement « historisables [10] » ne sont pas intégrées dans les bases de données clients dès lors orientées « volume » et non « valeur », mais encore eût-il fallu que les outils existent ou qu’ils soient accessibles (coût et dimensionnement).
5 - Les missions du gestionnaire de la Base de Données
Ainsi, les premières briques de notre « méga base » nous permettaient :
- Le croisement et la consolidation et de données pour sortir de nouveaux agrégats calculés (données trafic et
données internautes),
- La diffusion de tableaux de bords et de « profiling [11]» mensuels en terme de trafic et d’usage du site,
- Le ciblage (via une interface ad hoc) pour le compte des régies publicitaires,
- Des études dites « flash » synthétiques sur des segments d’internautes eu égard à leur(s) centre(s) d’intérêts,
- Une mini R & D local, qui m’ont permis de tester quelques indicateurs (notion d’élasticité page vue / visite selon
un modèle behavioriste stimulus / réponse).
La notoriété de notre site, le trafic engendré, l’effet volume (plusieurs millions d’abonnés) aiguisaient naturellement l’appétit de prestataires de données qui se seraient bien vu racheter notre base. Au lieu de se précipiter peut-être auraient-ils dû s’interroger sur ce que représentaient véritablement le nombre d’internautes réellement actifs sur le site plutôt que de compter un nombre d’identifiants dans une base de données, qui le temps faisant, appelaient naturellement des actualisations (nettoyage, dédoublonnage, suppression compte inactifs, etc.).
Mais note base, véritable gisement, n’était pas à vendre.
6 - De la donnée vers la connaissance
Par ailleurs, à un volume de données croissant en quantité et en qualité, devait correspondre une architecture logicielle idoine et justement dimensionnée. Ainsi je commençais à être pris par le « mining spirit ». Invité à Londres par la société SPSS (qui diffuse les applications logicielles du même nom en statistiques et datamining), je pris conscience au vu des exposés applicatifs faits par les intervenants (secteur bancaires, aérien, distribution) de la puissance potentielle de ces outils.
Comment extraire des pépites de connaissance (« nuggets ») à partir de l’information client. Comment fouiller, « forer » véritablement les données (sens étymologique du mot datamining) pour essayer de détecter selon le cas des régularités, des associations, des relations ou des dimensions cachées au sein du gisement de données de la base ?
Notre méga base était un embryon de data-warehouse qui s’ignorait, et j’entrais pendant quelques temps dans l’ivresse des algorithmes d’apprentissage (réseaux neuronaux, cartes de Kohonen [13] ) de classification [K-means [14] , etc.] pour « torturer » et faire parler mes données à des fins de marketing prédictif par exemple.
L’objectif eût été à terme non plus de travailler sur les membres d’une communauté utilisatrice de fonctionnalités gratuites (Chat, Webmail) mais sur de vrais clients dans le cadre d’une offre « monétisée» :
- Prévention de l’attrition client (churn),
- Développement de ventes croisées (up-selling) avec nos partenaires commerciaux,
- Personnalisation de programmes relationnels (Loyalty program...),
- Exploitation / optimisation du multicanal (Webmail, web, SMS…),
- Mesure et optimisation de la rentabilité (ROI) des actions marketing (emailing, e-pub.
Je me rendis vite compte que s’il n’existait pas un véritable projet datamining, une pensée de la connaissance client, comprise, portée et expliquée aux utilisateurs par des dirigeants convaincus et convaincants, tout cela demeurerait très expérimental et n’avancerait pas. N’oublions pas que le recours aux algorithmes et aux fonctionnalités des logiciels n’est pas une fin en soi et qu’il existe un cercle vertueux du datamining :
- Identifier le domaine d’étude (Objectifs de la recherche),
- Préparer les données (70 % du temps passé),
- Agir sur la base de données (techniques et algorithmes),
- Evaluer les actions et optimiser (récursivité).
La démarche est incrémentale, itérative et récursive permettant d’affiner et d’ajuster progressivement le système. Quant à la préparation des données elle est naturellement chronophage car très logiquement déterminante :
- Codage, format et cohérence des données en amont (référentiel, dictionnaire),
- Données manquantes (suppression ? Regroupement ? Substitution ?),
- Combinaison de variables, variables précalculées, etc.
On comprend donc pourquoi la notion de projet prenait tout son sens et nécessitait à mon sens une forte mobilisation à moyen et long terme, notion quelque peu mise de côté en ces années de vision « court-termiste » et de pratiques opportunistes que l’on pourrait décrire comme du « surfing management ».C’est ainsi que nous utilisâmes une solution logicielle au nom fruité [15] pour faire tourner nos fameux algorithmes, l’application nous était gracieusement prêtée à l’essai mais se révéla pour nos décideurs quelque peu surdimensionnée eu égard à nos besoins (ce qui n’était pas ma conviction en dehors des problèmes de coûts). Au delà de l’outil qui peut être ou ne pas être convaincant selon des critères très factuels et rationnels (coût, performance, technicité...) on réalise qu’il y à là un véritable problème, presque épistémologique de « connaissance de la connaissance », voire de culture et de vision distanciée pour « penser » encore une fois « la connaissance client ».
Mon doux rêve de franchir une étape supplémentaire demeura donc à l’état de « Data Workshop ».
7 - La collecte en ligne de données, une question d’alibis
Les données déclaratives des internautes qui s’inscrivent sur un site deviennent pour certaines variables rapidement obsolètes pour peu qu’on ne les actualise pas et qu’on n’en vérifie pas la pertinence. De plus les données les plus dynamiques et porteuses de sens demeurent les données comportementales.
Elles peuvent faire l'objet d'indicateurs (non exhaustifs) dont l'utilité varie selon les sites (sites de collecte de données marketing, sites d'e-commerce, sites Corporate, etc.) , dont l'objet est aussi de corriger les dysfonctionnements du site.
Ce n'était pas forcément la priorité, trois ou quatre chiffres de bases intéressaient les décideurs, ceux qui permettaient de se comparer aux concurrents, de s'auto-contempler dans les « clic parades » officiels, de communiquer dans la presse spécialisée, etc. Il s'agissait de faire du chiffre point.
On imagine donc combien les enseignements issus des comportements clients passaient inaperçus et pourtant les quelques indicateurs suivants étaient déjà riches d'enseignements :
- Origine de la visite (sites partenaires, moteurs/annuaires, clics sur e-pub, campagne emailing, …),
- Type de pages vues, zones visitées (notion de zones chaudes, zones froides comme en distribution, zone de
décrochage, …),
- Exhaustivité de la visite (nombre pages vues / nombre total de pages), couverture (zones thématiques ou
rubriques visitées/total rubriques),
- Récence (dernière visite), fréquence des visites, montants en volume (pages visités, temps passé), montants
en valeur (cas des sites transactionnels),
- Taux de transformation ou taux d'abandon sur les sites comprenant des formulaires d'informations ou de
transaction,
- Chemin critique de navigation (l'internaute suit-il un parcours-type et récurrent),
- Tout indicateurs (en valeur absolue, en % et en variation) de statistiques descriptives calculables sur ces
données
Désormais, notamment sur des sites à fort trafic et forte profondeur, le recours à des solutions de Web datamining devient nécessaire, d'autant plus si l'on souhaite croiser les données de profils déclaratifs et de comportements historisés (millions de logs [16] ), modéliser (marketing prédictif, scoring par exemple) et au final extraire des pépites de connaissances clients opérationnelles. Ainsi, à défaut de pouvoir tout avoir et tout faire, je cherchais de nouveaux moyens de collecter et enrichir les profils de nos internautes membres. Il s’agissait alors de trouver des « alibis » de captation d’informations.
En effet diffuser un questionnaire long et fastidieux est naturellement dissuasif; nous inventons alors ce que j’appelle le QDP, questionnaire thématique à diffusion progressive, il s’agissait tout simplement de profiter de connexions des internautes identifiés (inscription/identification obligatoire ) pour leur proposer de répondre de façon assez simple et rapide à une question thématique, non pas sous forme de « pop up » volante mais dans un format intégré dans leur interface familière de gestion de leur compte Webmail.
De fil en aiguille, de connexion en connexion sur une période d’un mois on recommence l’opération en essayant constamment de trouver un juste équilibre entre l’efficacité(récupérer une réponse pertinente sur l’internaute) et le caractère non intrusif (parasitage de la navigation) ; il faut donc être à la fois clair, concis et attractif. Progressivement nous arrivons en quelques semaines à récupérer sur plusieurs centaines de milliers de répondants de données tournant autour des thématiques suivantes :
- Pratiques/ usages du web,
- Pratiques Touristiques,
- Pratiques Financières (Banque, organismes de crédits, assurances),
- Pratiques et équipements de sports,
- Habitudes Médias (presse, Tv, radio),
- Equipement TIC,
- Abonnement téléphonie,
- Equipement Automobile,
- Logement Habitation,
- Etc.
Chaque thématique s’inscrit dans une formulation dont l’objet au final est de savoir:
- Qui (unité(s) consommatrice(s)),
- Quoi (produits, services, marques),
- Où (contexte, lieux fréquentés, canaux utilisés),
- Comment (usages spécifiques),
- Combien (taux de possession d’équipements, fréquence, montant),
- Quand (récence et fréquence achat/utilisation),
- Intentions (achat, souscription...à court ou moyen terme).
A noter l’attention toute particulière accordée aux intentions exprimées, comme réservoir de prospection future en marketing direct. Une fois ces données collectées il devenait aisée de créer une interface de sélection affinitaire pour le ciblage annonceurs (e-pub et e-mailing et permission) et on pouvait même « packager des profils types » selon des critères suffisamment saillants.
8 - Du sociostyle au webstyle
Partant d’une hypothèse tout à fait discutable que les modes de vie réels, les opinions, pouvaient impacter (et non pas expliquer) les comportements « virtuels » nous entreprîmes de portraitiser nos internautes ; qu’est ce à dire ?
Il s’agissait tout simplement de présenter à l’internaute des affirmations, jugements ou opinions sur lesquelles il devait s’exprimer en choisissant celles qui lui correspondaient le mieux.
Ces questions étaient liées aux valeurs, aux imaginaires et aux rapports entretenus dans divers domaines de la vie quotidienne (loisirs, technologies, les autres, la famille, l’argent. Le travail...). Evidemment en amont de ces questionnaires, avaient été définis des portraits types, représentés (pour le coté « fun ») par des figures emblématiques célèbres (personnages, acteurs, chanteurs...) susceptibles de « parler » à nos cibles répondantes (dont la majorité avait entre 15 et 30 ans).
Il y eut, de mémoire plus de 250 000 répondants en quelques semaines et nous parvenions dès lors à dégager quelques grands segments qualitatifs au sein desquels nous pouvions répartir nos internautes. Voila une petite histoire de base, béaba de la data qui montre modestement à nombre de PME comment on peut avec un peu de bon sens, générer de la connaissance client sans céder forcément aux sirènes des solutions toutes faites parfois lourdes et inabordables. A l’inverse se lancer dans une démarche datamining ne s’improvise pas et relève d’un véritable projet. Connaître plus et mieux ses clients est en soi un véritable projet d’entreprise avec des méthodes, des compétences, des applications et des coûts.
Le tout est de savoir ce que l’on veut faire, et surtout ce que l’on cherche.
Denis FAILLY
[1] « L'autopoïèse est le modèle d'organisation d'un réseau dans lequel chaque composant doit participer à la production ou à la transformation des autres. Certains de ces composants forment une frontière ou clôture opérationnelle, qui circonscrit le réseau de transformations tout en continuant de participer à son autoproduction. » (Source L’encyclopédie de l’Agora (http://agora.qc.ca/mot.nsf/Dossiers/Autopoiese)
[2] The One to One Manager: Real-World Lessons in Customer Relationship Management by Don Peppers, Martha Rogers http://www.amazon.com/exec/obidos/tg/detail/-/0385494084/002-4952669-3431218?v=glance . Le site Web de Peppers & Rogers se trouve à l’adresse: http://www.1to1.com.
[3] Le CESP (Centre d’Etudes des Supports de Publicité) est un organisme chargé de l’audit et du contrôle des études d’audiences des médias en france, http://www.csp.org
[4] Soit en Français, mesure par le site ou mesure par l’utilisateur.
[5] IAB: « Créé en 1998, l’IAB compte à ce jour 100 sociétés membres. La mission de l'IAB est triple : 1) structurer le marché de la communication sur Internet, 2) favoriser son usage et optimiser son efficacité, 3) L'IAB c'est également un réseau d'experts au service des autres organisations professionnelles, des institutions et des médias qui s'interrogent sur l'impact du développement de cette nouvelle donne économique ». Informations issues du site de l’IAB à l’adresse : http://www.iabfrance.com/home/home.asp
[6] NetImpact 2 : disponible sur le site de l’IAB : http://www.iabfrance.com/travaux/netimpact.asp
[7] Le Bêta de mémorisation est la probabilité qu’un individu exposé une fois à un message publicitaire le mémorise, voir l’article http://www.journaldunet.com/0210/021001pub.shtml
[8] « GRP (Gross Rating Point) ou Point de Couverture Brute : Indice de pression d’une campagne publicitaire sur une cible définie. Il s’agit du nombre moyen de contacts d’une campagne publicitaire rapporté à 100 personnes de la cible étudiée. Plus précisément, le GRP est calculé à l’aide de la formule suivante: taux de couverture (ou taux de pénétration) multiplié par la répétition moyenne. Exemple : Un site touche 18,6% des femmes entre 18 et 49 ans. Si cette population cible a l’occasion de voir deux fois un message publicitaire (fréquence moyenne de répétition de la publicité sur le site de 2), on obtient un GRP de 18,6 x 2 = 37,2 ». Source : Encyclopédie e-business du Journal du Net à l’adresse http://www.journaldunet.com/encyclopedie/definition/445/33/21/grp.shtml.
[9] Entropie : « Grandeur thermodynamique exprimant le degré de désordre de la matière ». Source : http://atilf.atilf.fr/ le Trésor de la Langue française informatisé.
[10] Barbarisme souvent utilisé en gestion de base de données et en informatique, désignant toute action pouvant donner lieu à un historique (alias historisation). Gageons que, ce terme ayant une signification particulière dans un contexte professionnel, on puisse un jour l’ajouter à notre dictionnaire.
[11] Alias « Profilage »
[12] http://visionarymarketing.com/articles/internetsearch2003.html
[13] Voir sur http://www.web-datamining.net, à la page http://www.web-datamining.net/publications/dossiers/neural/sasiml.asp
[14] Pour les spécialistes et inconditionnels du jargon quantitatif http://www.fas.umontreal.ca/BIOL/Casgrain/fr/labo/R/v3/description/kmeans.html
[15] Clémentine de SPSS, NDLR (voir http://www.spss.com/fr/Produits_Solutions/Detail_Clementine.htm pour plus de détails sur cette offre de ce célèbre éditeur de logiciels Marketing.
[16] Terme technique désignant les traces laissées par une activité sur un ordinateur, serveur, applicatif, site Web, etc. Habituellement traduit en Français par l’expression « fichier journal ». Il s’agit ici de la trace des visiteurs d’un site Web.
21:40 Écrit par Denis Henri Failly | Lien permanent | Commentaires (0) | Tags : datamining, crm, denis failly, marketing, base de données | | Facebook | | | Imprimer | |