Comment améliorer le profilage des cookies ?

BigSurv18
Image

"Learning on Survey Data to Qualify Big Data in a Web Environment".

Par Lucie Duprat Machan, responsable Pôle statistiques, Claudio Barros, data scientist, et Aurélie Vanheuverzwyn, directrice exécutive - Data et méthodes - Médiamétrie

Dans le secteur de la publicité en ligne, l'un des principaux défis consiste à fournir la bonne annonce au bon utilisateur. Dans ce contexte, un groupe d'éditeurs en ligne souhaite améliorer le profilage de ses cookies. Chaque éditeur possède un ou plusieurs site(s) Web et un tag est implémenté sur chaque page de ses sites Web pour suivre la navigation par cookie. Le tag est un code qui envoie un log à une base de données lorsqu'un utilisateur visite une adresse URL des sites web des éditeurs. Ce log contient un cookie, la date et l’heure de la visite et l'URL visitée.

L'objectif du projet est d'attribuer un profil sociodémographique avec une tranche d'âge et un sexe à chaque cookie. Comme il existe chaque jour de nouveaux cookies et une nouvelle navigation en ligne pour les cookies déjà qualifiés, cette qualification doit être mise à jour quotidiennement.

Pour résoudre ce problème, nous avons créé un modèle d’apprentissage supervisé. En effet, Mediametrie est la référence en matière de mesure d'audience en France pour la télévision, la radio et l’Internet. Pour mesurer l'audience Internet sur ordinateur, Mediametrie Net Ratings dispose d'un panel de 18 000 personnes représentatif de la population française disposant d'un accès à Internet. Les connexions sont mesurées à l’aide d’un logiciel installé sur leurs ordinateurs qui transmet les données aux serveurs de Mediametrie. Ainsi, nous avons un accès complet au surf Internet de nos panélistes et nous connaissons également leur profil sociodémographique. Ceci constitue nos données d'apprentissage.

À partir de ces données, la première étape a été de créer plusieurs variables depuis la date et l’heure et l'URL (les seules informations disponibles sur le tag). Tout d'abord, nous créons des variables relatives au jour et à la plage horaire de la visite, au domaine visité et à la présence de certains mots clés dans l'URL. Nous utilisons ensuite différentes méthodes de traitement du langage naturel pour analyser les URLs et créer plusieurs clusters de mots et clusters d’URLs. À la fin du feature engineering, nous avons plus de 1 000 fonctionnalités.

La deuxième étape consistait à tester différentes structures de modèles (par exemple, prédire d’abord le sexe puis l’utiliser pour prédire l’âge) et différents algorithmes de qualification. Nous avons créé un workflow en Python qui sélectionne les variables discriminantes avec une forêt aléatoire, compare les algorithmes de scikit-learn et XGBoost pour la qualification, teste différentes combinaisons de ces algorithmes et exporte des fichiers pour superviser les résultats et ajuster les paramètres.

Lorsque la combinaison et les paramètres sont fixes, nous devons appliquer le modèle à tous les logs reçus depuis le tag. Nous appliquons d’abord des filtres pour travailler sur un périmètre comparable au panel, puis créons toutes les variables et appliquons le modèle. Ce traitement est effectué avec PySpark en raison du grand volume de données impliqué.

Dans un processus de production, le modèle est mis à jour tous les mois et les cookies sont qualifiés tous les jours. Nous lancerons la première campagne publicitaire avec cette qualification dans les prochains mois.

 

Pour consulter l'intégralité de cette présentation, cliquez sur l'icône de téléchargement ci-dessous.

Pour consulter l'intégralité de ce document, cliquez sur l'icône de téléchargement ci-dessous.
Téléchargement(s)

Téléchargements

Calcul d’intervalle de confiance à 95%

Taille de l'échantillon ou d'une cible dans l'échantillon

n =

Proportion observée dans l'échantillon ou sur une cible dans l'échantillon

p =

%

Attention : ne s'applique qu'à une proportion. Le Taux Moyen est une moyenne de proportions et la Part d'audience un rapport de proportions.
Cet outil est donné à titre indicatif. Il ne saurait pouvoir s'appliquer sans autres précautions à des fins professionnelles.

Test de significativité des écarts entre deux proportions

Permet d'évaluer si la différence entre 2 proportions est significative au seuil de 95%

Proportion

Taille de l'échantillon

Échantillon 1

%

Échantillon 2

%

Attention : ne s'applique qu'à une proportion. Le Taux Moyen est une moyenne de proportions et la Part d'audience un rapport de proportions.
Cet outil est donné à titre indicatif. Il ne saurait pouvoir s'appliquer sans autres précautions à des fins professionnelles.

En complément
×
Dictionnaire
Les mots
des médias
Nouvelle
édition
+500
définitions
A
B
C
D
E
F
G
H
I