- Home
- Expertises
- Détection et traitement des valeurs atypiques pour une mesure Internet Global robuste
Détection et traitement des valeurs atypiques pour une mesure Internet Global robuste
"Détection et traitement des valeurs atypiques de la mesure internet global"
Par Magdalena Auvinet, Responsable Pôle statistiques Direction Data Science - Internet, Médiamétrie
et Mathieu Hostin, Data analyst Direction Data Science - Internet, Médiamétrie
Médiamétrie est l’acteur de référence pour la mesure d’audience en France de la Télévision, de la radio et d’Internet. Le Pôle Internet produit chaque mois les données d’audience de la consommation internet des Français à travers trois écrans : l’ordinateur, le mobile et la tablette. La mesure internet fonctionne à travers le suivi de la consommation internet d’environ 25 000 panélistes. Tout un processus (composé d’étapes de nettoyage des données, de traitements statistiques, etc.) est déroulé tous les mois afin d’obtenir, à partir de l’activité de ces panélistes, la consommation internet française globale. Durant le processus, un traitement spécifique est appliqué à chacun des trois écrans : la méthode de détection et de traitement des observations atypiques se déroule au cours de chacun d’entre eux afin de corriger les valeurs atypiques de chaque écran indépendamment des autres. Lors de ces traitements, le travail se fait sur une base de tickets agrégée, la partie suivante de cette note aborde la composition de cette base.
Une observation atypique trop éloignée du reste des données peut avoir un effet néfaste sur l’analyse de ces dernières car elle peut être mal interprétée et peut biaiser l’ensemble de l’analyse, en particulier lors d’une mesure d’audience. C’est pourquoi il est important de détecter et de traiter ces observations atypiques. Cette étape intervient tôt dans le processus de la mesure d’audience afin de traiter les données en amont des étapes qui risqueraient de multiplier la dimension atypique de ces observations. La méthode qui est présentée dans cette note a été pensée et conçue au sein du Pôle Internet de la Direction Data Science de Médiamétrie.
Cette note explique la méthode utilisée pour détecter et traiter les observations atypiques au sein du surf des panélistes sur les trois écrans, sur lesquels est basée la mesure Internet Global. La méthode choisie pour détecter les observations atypiques est l’Isolation Forest, méthode qui détecte les anomalies via isolement. Graphiquement, l’algorithme va séparer les données par des lignes orthogonales et va attribuer un score d’anomalie qui sera plus ou moins élevé selon la difficulté que l’algorithme aura eu à séparer une observation des autres. Une observation qui est facilement séparable des autres est une observation qui est logiquement plus atypique que les autres observations. La méthode choisie pour traiter les observations atypiques traite ces anomalies au cas par cas afin de s’adapter à nos besoins métiers. Elle a pour objectif de diminuer l’impact de ces données sans supprimer entièrement les informations qu’elles peuvent apporter à la mesure d’audience.
Pour consulter l'intégralité de cette présentation, cliquez sur l'icône de téléchargement ci-dessous.
Download
Test of significance of the differences between two proportions
Used to assess whether the difference between 2 proportions is significant at the 95% threshold
Warning: only applies to a proportion. The Average Rate is an average of proportions and the Audience Share a ratio of proportions. This tool is provided for information purposes. It cannot be applied for professional purposes without further precautions.
des médias
edition
definitions