vendredi 30 janvier 2009

L'air du temps

J'avais déjà suggéré il y a quelques temps que si l'on voulait connaître l'état d'esprit des gens, il n'y avait qu'à consulter les statistiques de fréquentation de l'encyclopédie. Le projet est devenu une référence suffisamment incontournable pour qu'à chaque fois qu'une sujet brûlant apparaisse dans les médias, on ait une variation sensible dans le volume des requêtes de l'article correspondant.

Preuve étant faite que cela marche pour les questions d'actualité, je me suis demandé si cela valait aussi pour les choses un peu plus anodines de notre vie quotidienne. L'outil de mesure de la fréquentation des articles sur la Wikipédia francophone ayant pratiquement complété un cycle de 12 mois, je me suis dit que ce serait une bonne occasion de s'intéresser à la vie d'articles "cycliques", comme par exemple celui sur le rhume:

Fréquentation de l'article rhume sur la Wikipédia francophone, février 2008 à janvier 2009 (cliquez pour agrandir).

Première constatation: les gens sont moins intéressés par le rhume pendant les mois d'été que les mois d'hiver. Ca paraît une évidence, mais on en a ici la confirmation empirique. Ce qui m'a en fait vraiment surpris, c'est de voir cette immense progression à partir de septembre, mois que je n'associerais pas spontanément avec les grands froids. Mais en y regardant de plus près (c'est à dire le décompte quotidien, encart de droite), on s'aperçoit que l'essentiel du volume des requêtes s'opère dans la deuxième moitié du mois... quand le temps se refroidit effectivement. On notera aussi les deux petites bosses en avril et juin, que j'associerais à des pics de rhume des foins, article dont la fréquentation augmente au printemps (encart de gauche).

Pour s'assurer que la baisse de fréquentation estivale n'est pas simplement due à la simple baisse de l'utilisation d'internet pendant cette période, qu'y a-t-il de mieux que regarder les statitistiques de l'article sur le coup de soleil?

Fréquentation de l'article coup de soleil sur la Wikipédia francophone, février 2008 à janvier 2009.

Visiblement, c'est un problème dès l'arrivée des beaux jours (alors que j'aurais pensé aux seuls mois de juillet et août). J'ajouterai que la granularité des données est ici assez impressionnante, il suffit pour s'en convaincre de regarder les statistiques de fréquentation de ce même article pour le seul mois de juin:

Je ne me souviens pas si le début du mois était gris, mais on distingue très clairement 3 groupes de pics les 8, 9, 22, 23, 29 et 30 du mois. Et vous savez quoi? Les 8, 22 et 29 juin 2008 sont des dimanches, et les 9, 23 et 30 juin des lundis. Prenez le soleil le week-end, sentez-en les effets le lendemain.

Enfin, si l'on combine les données précédentes, on obtient ça :

(je vous laisse deviner qui est qui)

11 commentaires:

darkoneko a dit…

Marrant ça :)

Pour les graphes à courbes, tu as fait ça avec quoi ? me semble que grock.se ne fait que dans les barres

Popo le Chien a dit…

J'ai tout bêtement recopié les valeurs mois par mois dans un tableur Excel...

DS a dit…

Ouch. Tu es un maso. Mais le résultat est très intéressant :-).

Un petit regret concernant les stats de grock, c'est de ne pas différencier les accès depuis un autre article des accès depuis la fonction de recherche. Dans le premier cas, on peut montrer que la consultation d'un article est un effet de bord de la consultation d'un autre, dans le deuxième, on est sur que le lecteur cherchait une information précisément sur le sujet.

GillesC a dit…

Tu es dans l'air du temps...

Voici quelques jours, j'avais vu passer un petit article sur l'utilisation de l'historique des requêtes Google sur le mot "flu" (grippe...) pour suivre l'évolution de l'épidémie aux États-Unis. Là-bas en effet, l'épidémie est suivie officiellement avec un décalage d'environ deux semaines, par des indicateurs officiels.

Les résultats (depuis étendus aux allergies et aux coups de soleil) sont disponibles sur la page Flu Trends de Google. C'est assez impressionnant !

Frederic a dit…

@DS: il y a un projet à la Wikimedia Foundation pour inclure des informations statistiques sur le lien cliqué pour arriver à la page ("referer" dans le jargon).

Malheureusement, il se heurte pour l'instant à deux problèmes: d'abord, une question de quantité de données énorme (on parle d'échantilloner l'information pour une requête sur mille, seulement, ce qui serait un problème pour les pages qui ont peu de requêtes), et ensuite des problèmes de confidentialité (mais regarder si c'est un lien internet ou si ça vient du moteur de recherche ne devrait pas être un problème -- ce sont les liens depuis l'extérieur qui peuvent être plus embêtants si on les rend publics).

Affaire à suivre.

Frédéric

Erdrokan a dit…

A noter que si on avait plus (+) de lecteurs dans l'hémisphère sud (zone tempérée), la courbe serait sans doute moins marquée. Les saisons, c'est relatif après tout

nojhan a dit…

C'est le moment de lire un article de mathématique sur wikipédia : http://fr.wikipedia.org/wiki/Corr%C3%A9lation_(math%C3%A9matiques)

Allez, maintenant j'attends la quantification des relations qui semblent être décelées :-)

Je pense qu'il doit être possible d'estimer la fiabilité de l'approche prédictive en mesurant le coefficient de corrélation entre la statistiques de visite et celles effectivement observées pour telle ou telle maladie (j'imagine que ça doit se récupérer facilement sur le web).

Frederic a dit…

@nojhan: Google fait ça en essayant de prédire les épidémies de grippe à différents endroits dans le monde suivant les mots-clés que les habitants ont cherché dans le moteur de recherche: Google predicts spread of flu using huge search data

Vachement cool, dans le genre application pas prévue à l'origine.

Il y a aussi un projet de récupérer les adresses IP des requêtes sur Wikipédia pour regarder d'où elles viennent, mais les problèmes de protection des données sont encore plus grands que ceux que je mentionnais dans mon commentaire plus haut. C'est l'avantage de Google: ils peuvent faire tout ça à l'interne, alors que sur WP, ça implique presque toujours des bénévoles, donc plus difficile de garantir la confidentialité des données...

Frédéric

Anonyme a dit…

Bouleversant...

GillesC a dit…

@Frederic: c'est exactement ce que j'indiquais plus haut. Qui plus est, cela a fait l'objet d'un papier dans Nature...

Frederic a dit…

@GillesC: ah oui, désolé, je l'avais loupé.