Détection et traitement des valeurs atypiques pour une mesure Internet Global robuste

12ème Colloque Francophone sur les Sondages, mars 2023, sous l'égide de la SFdS (Société Française de Statistique)
Image
Article

"Détection et traitement des valeurs atypiques de la mesure internet global"

Par Magdalena Auvinet, Responsable Pôle statistiques Direction Data Science - Internet, Médiamétrie

et Mathieu Hostin, Data analyst Direction Data Science - Internet, Médiamétrie

Médiamétrie est l’acteur de référence pour la mesure d’audience en France de la Télévision, de la radio et d’Internet. Le Pôle Internet produit chaque mois les données d’audience de la consommation internet des Français à travers trois écrans : l’ordinateur, le mobile et la tablette. La mesure internet fonctionne à travers le suivi de la consommation internet d’environ 25 000 panélistes. Tout un processus (composé d’étapes de nettoyage des données, de traitements statistiques, etc.) est déroulé tous les mois afin d’obtenir, à partir de l’activité de ces panélistes, la consommation internet française globale. Durant le processus, un traitement spécifique est appliqué à chacun des trois écrans : la méthode de détection et de traitement des observations atypiques se déroule au cours de chacun d’entre eux afin de corriger les valeurs atypiques de chaque écran indépendamment des autres. Lors de ces traitements, le travail se fait sur une base de tickets agrégée, la partie suivante de cette note aborde la composition de cette base.

Une observation atypique trop éloignée du reste des données peut avoir un effet néfaste sur l’analyse de ces dernières car elle peut être mal interprétée et peut biaiser l’ensemble de l’analyse, en particulier lors d’une mesure d’audience. C’est pourquoi il est important de détecter et de traiter ces observations atypiques. Cette étape intervient tôt dans le processus de la mesure d’audience afin de traiter les données en amont des étapes qui risqueraient de multiplier la dimension atypique de ces observations. La méthode qui est présentée dans cette note a été pensée et conçue au sein du Pôle Internet de la Direction Data Science de Médiamétrie.

Cette note explique la méthode utilisée pour détecter et traiter les observations atypiques au sein du surf des panélistes sur les trois écrans, sur lesquels est basée la mesure Internet Global. La méthode choisie pour détecter les observations atypiques est l’Isolation Forest, méthode qui détecte les anomalies via isolement. Graphiquement, l’algorithme va séparer les données par des lignes orthogonales et va attribuer un score d’anomalie qui sera plus ou moins élevé selon la difficulté que l’algorithme aura eu à séparer une observation des autres. Une observation qui est facilement séparable des autres est une observation qui est logiquement plus atypique que les autres observations. La méthode choisie pour traiter les observations atypiques traite ces anomalies au cas par cas afin de s’adapter à nos besoins métiers. Elle a pour objectif de diminuer l’impact de ces données sans supprimer entièrement les informations qu’elles peuvent apporter à la mesure d’audience.

Pour consulter l'intégralité de cette présentation, cliquez sur l'icône de téléchargement ci-dessous.

To view the full document, click on the download icon below.
Téléchargement(s)

Download

Solutions associées

Confidence interval calculus

Sample size or target in the sample

n =

Proportion observed in the sample or on a target in the sample

p =

%

Warning: only applies to a proportion. The Average Rate is an average of proportions and the Audience Share a ratio of proportions. This tool is provided for information purposes. It cannot be applied for professional purposes without further precautions.

Test of significance of the differences between two proportions

Used to assess whether the difference between 2 proportions is significant at the 95% threshold

Proportion

Sample size

1st sample

%

2nd sample

%

Warning: only applies to a proportion. The Average Rate is an average of proportions and the Audience Share a ratio of proportions. This tool is provided for information purposes. It cannot be applied for professional purposes without further precautions.

More
×
Dictionnaire
Les mots
des médias
New
edition
+500
definitions
A
B
C
D
E
F
G
H
I