Affichage des articles dont le libellé est statistiques. Afficher tous les articles
Affichage des articles dont le libellé est statistiques. Afficher tous les articles

mercredi 21 décembre 2011

Effet vautour

La suite de ma petite réflexion de lundi sur le fait qu'il y a tous les jours des gens qui meurent, c'était de me demander si en fait Wikipédia, qui a atteint une certaine maturité depuis quelques temps déjà, "profite" encore de ces décès par effet piranha, ou si elle se contente simplement désormais d'offrir une information relativement complète au curieux de passage.

La réponse, comme toujours, est "les deux mon capitaine".

On a deux types de morts célèbres: les gens célèbres parce qu'ils sont morts (on pensera à Mohammed Bouazizi), et les gens célèbres qui meurent (Oussama ben Laden). Entre les deux, on trouve une catégorie intermédiaire et probablement plus vaste de gens anciennement célèbres, ayant pris leur retraite, et de retour pour un temps dans l'actualité parce que décédés.

Pour deux de ces catégories, il est évident que l'actualité apporte un flot d'informations qui n'étaient peut-être pas disponible auparavant. Dans le cadre du présent billet, je me suis du coup concentré sur les gens qui n'avaient pas besoin de mourir pour qu'on sache qu'ils existent. La première surprise que j'ai eue à ce niveau est que même les gens connus voient un pic de fréquentation assez époustouflant sur leurs articles lorsqu'ils quittent la scène. Voici ce que j'ai constaté pour neuf "célébrités" tirées un peu au hasard:

Croissance de la fréquentation des articles le jour de l'annonce du décès par rapport à la veille.
Vous lisez bien: la fréquentation de l'article sur la chanteuse Amy Winehouse a été multipliée par plus de 1'600 entre les 22 et 23 juillet 2011. De 280 visites on est passés d'un coup à 450'000, ce que pour le coup je trouve assez énorme. Même si les variations sont moins dramatiques pour les autres elles restent substantielles, avec des creux pour Gbagbo (qui n'est "que" mort militairement) et Khadafi, dont la chute aura été pour tous deux relativement longue et aura donc distribué le trafic sur une période plus étendue. Pour l'anecdote, l'ancien président Jiang Zemin n'est pas mort non plus, mais une rumeur diffusée sur une seule chaîne de Hong-Kong et reprise l'espace de quelques heures seulement en occident aura visiblement suffit à faire son petit effet.

L'augmentation du traffic étant établie, je suis allé voir la variation de la taille de ces mêmes articles entre la veille du décès et aujourd'hui:

Tailles des articles avant et après l'annonce de décès (kilooctets)
Nouvelle surprise: à hausses de fréquentation inégales, croissance des contenus à peu près égale - environ 20% de contenu en plus (en texte brut), avec Annie Girardot et Steve Jobs qui dépassent un peu1. Autre détail intéressant: les chiffres concernant l'ancien secrétaire d'État américain Warren Christopher sont pris sur la version anglophone mais totalement similaires (+17%). Non indiqué, Vaclav Havel est dans les mêmes termes sur le wiki en tchèque (+19%).

La conclusion immédiate que je tire, ou plutôt les conclusions, sont pour l'heure les suivantes:
  1. Même un article qu'on peut considérer comme relativement complet profite en terme de contenu d'un effet d'annonce lié à son sujet (en l'occurence un décès), et cette croissance est substantielle;
  2. La quantité de nouveau contenu apporté n'est pas liée à la taille initiale de l'article, et elle n'est pas liée à l'augmentation de la fréquentation: il faudrait par ailleurs voir s'il y a eu des protections ou semi-protections en écriture intempestives qui auraient pu brider les progrès.
Des chiffres intéressants, donc: il faudrait étendre la taille de l'échantillon pour voir si on a mis là le doigt sur une simple coïncidence ou une vraie règle empirique de Wikipédia. Ce sera toutefois pour un autre jour2.


1. +45 et +67%, respectivement, alors que les autres sont entre +13 et 26%. J'aurais tendance à mettre Annie Girardot dans la catégorie des gens dont on se rappelle à cause du décès, l'essentiel de sa carrière s'étant fait avant l'avènement de WP (j'ai retrouvé une progression similaire pour Jean Amadou, d'ailleurs).
2. Je lis toutefois que l'ex-président mexicain Miguel de la Madrid ne va vraiment pas fort: il sera intéressant de regarder ce qu'il se passe sur :es dans les prochains jours.

mardi 9 août 2011

Citez les sources qui vous citent

On a déjà parlé du fait que publier un article scientifique à propos Wikipédia n'est plus vraiment une nouveauté. Le graphique ci-contre est celui que je vous présentais en avril dernier: quand bien même on n'y voyait que les chiffres jusqu'en 2007, la tendance y est plutôt nette.

Pour l'anecdote (et pour rappel), sachez que la plupart sont des articles liés à l'informatique et à l'organisation de connaissances en réseau. Un peu aride et pas très surprenant.
La bonne nouvelle, c'est qu'une nouvelle publication sur le sujet vient de sortir, avec des chiffres quelque peu mis à jour. On a désormais quelque chose qui ressemble plus au graphique de gauche1. En tant que tel on n'y voit rien de nouveau, si ce n'est qu'on remarquera un début de tassement - vient bien un moment où après dix ans l'essentiel de ceux qui ont quelque chose à dire se sont fait connaître.


Le petit plus de cet dernière publi, par contre, vient d'un nouvelle donnée que les auteurs ont choisit d'inclure dans leurs recherches: le nombre de fois où Wikipédia est citée comme source:

Outre le fait qu'elles sont beaucoup plus nombreuses, le tassement me paraît également beaucoup moins évident: on hésite apparemment de moins en moins, dans les publications sérieuses, à admettre par exemple que la définition introductive donnée sort directement de Wikipédia - et qu'elle est tout à fait correcte.

Ceci devrait faire plaisir aux contributeurs wikipédiens il me semble, car cela montre la progression de l'image du projet et la popularisation de son usage. Mais un point amusant qui en découle est que Wikipédia, à terme, pourrait se voir citer des articles qui la citent: ça ressemble drôlement à de la référence circulaire, qui comme chacun le sait est un des nombreux avatars du Mal™.



1. Les chiffres sont différents du premier car les auteurs utilisent une autre base de données (scopus), et ne distinguent pas les articles publiés des publications lors de conférences scientifiques.

mercredi 3 août 2011

Élégance

Une forme d'élégance consiste à faire beaucoup avec peu. Il s'agira par exemple de géolocaliser 36'000 articles de Wikipédia avec une ligne et demi de code en tout et pour tout:

Nombre d'articles géolocalisés sur fr.wikipedia.org

Cela me rappelle également pourquoi certains modèles sont protégés et pourquoi je fais dix essais dans un coin avant d'en modifier un pour de bon.

jeudi 30 juin 2011

C'est officiel

Le sexe attire plus que la violence :

Fréquentation des articles wikipédiens durant les sept premiers jours du cycle de news (milliers de visites).
Mais pas de beaucoup.

mardi 28 juin 2011

Savoyards et Haut-Savoyards

Un peu plus de granularité dans les résultats de la Prise de Décision sur l'obligation de mise en place d'une page de contestation pour les administrateurs de Wikipédia, dont je parlais il y a peu. On se rappellera que celle-ci s'était soldée par un très serré 74 à 73 en faveur de l'obligation:
Répartition des votes (%).
Hmmm.

jeudi 19 mai 2011

Wiki...news?

Indépendamment de ce que l'on pense de ce que Wikipédia devrait être, il y a une chose qu'elle est déjà: un outil de référence vers lequel on se dirige pour en savoir plus à propos d'un évènement d'actualité. Appelons cela une seconde lecture de l'actualité - d'abord la nouvelle elle-même, transmise par les médias traditionnels, puis pour ceux qui veulent en savoir un peu plus sur le fond ou le contexte, un tour sur Wikipédia. 

Si les gens venaient sur l'encyclopédie pour s'informer d'une nouvelle immédiate, on pourrait penser que Wikinews a un présent et un avenir: ce n'est pas le cas. Les lecteurs de l'encyclopédie viennent donc bien pour un complément d'information (éventuellement une synthèse) plutôt que pour une information brute. Cela est régulièrement évoqué sur ce blog, comme ici et , donc rien de nouveau sous le soleil.

Ce qui pourrait être intéressant, ce serait de voir quelles facettes d'un même évènement (ou de deux évènements proches et similaires) suscitent le plus l'intérêt ou la curiosité de masses. 

Regardons par exemple les articles concernant Ben Ali et Moubarak au moment de leurs chutes respectives:

Fréquentation des articles Zine el-Abidine Ben Ali (haut, janvier 2011) et Hosni Moubarak (bas, février 2011) sur la Wikipedia francophone.
J'étais un peu surpris de constater que la chute de Moubarak attirait deux fois moins de chalands que Ben Ali, jusqu'au moment où j'ai réalisé que les Tunisiens sont des francophones. Forcément, ça change bien des choses - les rapports sont d'ailleurs inversés en anglais et en allemand, et plutôt dans l'ordre de 1 pour 3 voire 1 pour 5 en faveur de l'Égyptien.

Autre duo célèbre et pour le coup très lié, les protagonistes du conflit ivoirien:
Fréquentation des articles Laurent Gbagbo (haut) et Alassane Ouattara (bas) sur la Wikipedia francophone, avril 2011.
Tiens, là c'est intéressant, le vaincu a vu deux fois plus de visites que le vainqueur (le rapport de quasiment deux pour un est similaire chez les anglophones et germanophones). Je soupçonne un petit "effet vautour" autour du perdant, de la même manière qu'un "effet glamour" aura profité à Catherine Middleton, dont l'article a été visité deux fois plus que celui de son époux William (138'000 visites contre 88'000 le jour du mariage où, pour le coup, les deux étaient vraiment présents au même endroit au même moment1).

Avec un peu de recul, cela nous donne même un aperçu de la manière dont l'actualité se développe. On a exactement ce genre de situation avec le séisme, puis le tsunami, puis l'alerte nucléaire au Japon en mars dernier:
De haut en bas: Séisme, tsunami et centrale nucléaire, mars 2011.
Si séisme et tsunami font exactement le même score le jour de leur déclenchement, mais au fur et à mesure que l'on réalise l'ampleur du désastre les rapports changent: les immeubles japonais ont dans l'ensemble beaucoup mieux résisté aux secousses qu'aux flots, et il faut à peu près quatre jours pour voir la centrale de Fukushima rejoindre le même niveau d'attention dans le cycle informatif. 

Pour l'anecdote, la fréquentation de ces trois articles, après trois mois, a bien évidemment baissé mais n'est toujours par revenue à son niveau pré-cataclysme. Les gens ne s'informent donc pas sur Wikipédia mais -et c'est tant mieux parce que c'est le but- ils s'instruisent aussi.


1. A noter que Kate aura rassemblé plus de visiteurs sur sa page que les protagonistes de deux révolutions et une guerre civile réunis.  O tempora, o mores!

jeudi 12 mai 2011

Wikipédia, produit occidental

Je répercute ici le dernier billet d'Erik Zachte, statisticien de la Fondation Wikimedia, et qui nous parle encore une fois de géolocalisation des éditions. Sauf que comme il est très fort et qu'il a accès au Ventre de la Bête, ça donne un résultat vraiment pas mal. Le principe: répertorier l'intensité et l'origine des éditions réalisées sur divers projets linguistiques le 14 février dernier, et voir leur évolution au cours de la journée.

Le lien direct vers l'animation est ici. Jouez avec tout votre soûl, j'aimerais pour ma part soulever quelques points qui m'ont paru intéressants.

Première image: la distribution des éditions, tous langages confondus.

Cliquez pour agrandir.
C'est une évidence mais c'est toujours mieux quand on le dit: pour éditer sur Wikipédia il faut 1. une connexion internet et 2. du temps de loisir, deux choses pas forcément disponibles de par le monde.

Du coup, à part l'Europe, la Côte Est américaine, le Japon et une ou deux grandes zones urbaines par-ci par là (Sydney, l'axe Buenos Aires-Rio, Taiwan et Israel), c'est plutôt calme.

Deuxième info d'intérêt: les wikipédiens sont polyglottes. Cela se voit un peu sur cette carte des contributions sur les principaux langages (mais distingués par couleur):

Cliquez pour agrandir.
Où l'on constate que les Indiens et Philippins contribuent avant tout en anglais (les points rouges y dominent). C'est encore mieux sur cette carte là, qui justement n'indique que les éditions en anglais:

Cliquez pour agrandir.
Où l'on s'aperçoit que l'Europe continentale contribue substantiellement dans la langue de Shakespeare. Un phénomène évidemment moins évident pour le français, mais qu'on trouve un peu hors de ses frontières linguistiques traditionnelles quand même:

Cliquez pour agrandir.
On relèvera l'intensité du côté Sud-Ouest de l'Ontario, pas énorme mais pas inexistante à côté de la vallée du Saint-Laurent, le Sud-Ouest de l'Allemagne et, surtout, le désert abyssal que représente l'Afrique, tant maghrebine que sub-saharienne. Je sais d'expérience qu'on y parle un très bon français mais, que ce soit pour des raisons économiques ou culturelles, on a visiblement mieux à faire de ses journées.

Et donc quoi? C'est intéressant, mais il manque une certaine granularité et longueur de temps (un mois? une année?) pour en profiter réellement.

Ce que je relève surtout avec ces contributions en anglais qu'on voit un peu partout en Europe et en Inde, c'est que Wikipédia est encore un produit occidental pour élites occidentalisées. Ce n'est pas un mal en soi, mais ça permet en tout cas de contextualiser l'importance des plans de la Fondation visant à faciliter l'accès aux locuteurs de nouveaux idiomes. Il y a du potentiel, vu que les classes moyennes indienne et chinoise comptent paraît-il entre 50 et 300 millions d'individus chacune, mais il y a peut-être aussi un fossé culturel qu'il faudra franchir pour y arriver.

mercredi 27 avril 2011

Les nouveaux

Les nouveaux ne sont pas des Wikipédiens comme les autres. En fait, si l'on y regarde de très près, à peine un cinquième se conduisent d'emblée comme de bons petits Wikipédiens - il faut donc croire que c'est une attitude beaucoup plus acquise qu'elle n'est innée.

J'essplique.

Je suis allé ce matin consulter le journal des créations des comptes utilisateur sur Wikipédia, histoire de voir ce que nos potentiels nouveaux correligionaires avaient sous le capot. J'ai comme d'habitude pris au hasard une tranche de 100 comptes que j'ai utilisés comme étalon de ce qui suit. Caveat emptor, donc: cela ne représente qu'un échantillon restreint à un instant t, et peut légèrement différer de la réalité des 450 comptes créés quotidiennement. D'un autre côté, ça peut aussi permettre de se donner une bonne idée ce à quoi ces 450 peuvent ressembler.

Bref. Premier constat (et première surprise), ce n'est pas parce qu'on crée un compte qu'on va se mettre à contribuer dans la foulée. Bien au contraire:

Même en ayant eu le temps nécessaire à la rédaction de ce billet, j'avoue ne pas avoir d'explication au fait que 60% des comptes créés ce matin n'ont commis aucune contribution - même pas une qui fut effacée par la suite. Quelque chose qui me surprend moins par contre, c'est que les quatre cinquièmes de ceux qui se lancent dans la grande aventure du bouton modifier ne le font que sur une seule et même page. Je dirais que c'est la variante 2.0 du "trempons un doigt de pied pour voir si ça mouille".

Zoomons un peu pour regarder ce que font ces nouveaux contributeurs un peu plus déshinibés que les autres:

Je vais partir du principe que tout le monde sait lire et que les catégories sont suffisamment explicites -à défaut d'avoir pu trouver des couleurs suffisamment tranchées-, et faire court dans l'analyse: on a au final assez peu de comptes créés pour vandaliser, pas mal d'autopromotion1, et quelques personnes qui soit comprennent la machine soit, dans un cas sur six, pas du tout - c'est cette dernière catégorie qui pour moi regroupe à la fois ceux qui "font un essai" sur leur page utilisateur, écrivent sur une page méta parce qu'ils se croient sur un forum, et enfin commettent une violation de copyright (le fameux "copyvio"), parce que c'est bien connu que tout ce qu'on trouve sur internet, c'est gratuit. 

De l'autre côté, même si la plupart de ces gens n'auront au final et comme indiqué plus haut contribué que sur un seul article, une bonne moitié l'aura fait pour l'améliorer. C'est pas si mal pour un début.

Derniers chiffres qui n'en sont pas, en guise de conclusion:
  • Toutes les créations autopromotionnelles ont été supprimées, et tous les vandalismes ont été révoqués;
  • La plupart des nouveaux comptes ayant contribué positivement ont vu leur page de discussion gratifiée d'un bandeau de bienvenue (quelques autres aussi), alors que ce bandeau est quasi-inexistant sur les pages des contributeurs "non-contribuant";
  • A l'inverse, tous les vandales / autopromoteurs n'ont pas eu de message d'avertissement sur leur page (ce qui en soit n'est pas forcément un mal, j'y reviendrai à l'occasion).
Il faudra à l'occasion regarder quelle proportion de ces "bons contributeurs" reviennent dans les semaines qui suivent, et quelle proportion de ces vandales et apparentés fait de même. M'est avis que dans les deux cas on aura pas mal de pertes.



1. par exemple le compte "Toto productions" qui créera un article sur, hmm, Toto productions.

mardi 5 avril 2011

Small is beautiful

C'est bête à dire, mais moins on est à se parler, et plus on se parle. C'est en tout cas le constat que j'ai au sortir du dernier Comité d'arbitrage (CAr) wikipédien en comparaison du précédent: le Comité n'a je crois jamais été aussi serré (quatre membres actifs), mais ça faisait également longtemps qu'il n'avait pas été aussi réactif (et ça s'est remarqué). Si je devais m'aventurer à une explication, je dirais qu'outre une bonne dynamique personnelle il y a le fait qu'un message était vite répondu et, surtout, qu'on savait qu'on obtiendrait une réponse.

J'essplique.

Le graphique ci-dessous présente succintement le nombre d'arbitres théoriques (élus ou restant pour liquider les arbitrages du Comité précédent) et effectifs (ceux qui intervenaient encore sur la liste de diffusion interne ou les diverses pages du CAr en fin de mandat) pour les deux Comités dont j'ai été membre (printemps et automne 2010):
Effectifs du Comité d'arbitrage
Dans le premier cas (XIIe CAr, de mars à septembre 2010), on avait 14 arbitres en place. De fait, après l'éviction des zombis qui étaient là sans l'être, on s'est retrouvés à cinq dans la pièce arrivés à la fin du mandat. En septembre 2010 nouvelle élection (XIIIe CAr), avec cette fois six élus et une feuille quasi-blanche pour redémarrer.

Le deuxième graphique, maintenant, vous montre le nombre d'emails ayant circulé sur la liste de diffusion interne lors de ces deux périodes:
Nombre d'emails échangés.
Il y a comme un changement de dynamique alors que, sur le fond, les interventions restent les mêmes (j'ai pas le temps, qui veut être coordinateur, je suis parti/de retour).

Il y a quand même eu quelques changements mineurs mais d'importance. Première innovation que je n'avais pas remarquée jusqu'à ce que Turb le relève: on a commencé à annoncer les nouveaux arbitrages sur la liste. Il faudrait voir si cela a accéléré les délais pour les décisions de recevabilité, mais cela a en tout cas contribué à la création d'un esprit de groupe. Des intervenants externes sont également intervenus un peu plus souvent (généralement à la demande des arbitres, notamment dans un arbitrage ou deux). Et, surtout, quand quelqu'un posait une question, on y répondait. Rien d'essentiel, donc, et c'est pour ça que c'est important.

C'est bête à dire, mais ça vous change un monde que de savoir qu'on ne parle pas dans le vide. J'ai souvenir dans le premier CAr auquel j'ai participé du mail d'un arbitre demandant à un autre quand il comptait rendre son avis qui traînait depuis x mois. Pas de réponse de ce dernier, ni de commentaire de la part des 12 autres. Mon impression à ce moment:  j'ai mis les pieds dans un cimetière.

Première remarque à ce stade: tout le monde (ou presque) a une vie privée qui passe avant Wikipédia, et le problème des arbitres disparaissant du jour en lendemain est voué à persister. Il ne s'agit donc pas de jeter la pierre aux zombis, qui sont aussi des gens. L'important est d'en prendre acte et d'agir en conséquence, c'est à dire dans notre cas de reconnaître le problème et d'arrêter d'attendre. L'attente c'est l'inertie, l'inertie c'est la perte de temps, et c'est démotivant pour tout le monde.

Plein de messages échangés, même sur des sujets bénins, ça crée une dynamique de confiance. Fruit de cette dynamique ou honnêteté personnelle, quand trois des arbitres se sont successivement retrouvés hors service cet hiver, tous ont laissé un mot pour dire qu'il ne fallait pas compter sur eux pendant quelques temps. Cela a du coup permis aux autres de continuer à avancer et de garder la dynamique - voyez la communication comme un cercle vertueux: la gestion des arbitrages n'était plus tant une corvée qu'un objectif.

Le graphique ci-dessous illustre assez bien le phénomène dont je veux parler ici:
Nombre de messages théoriquement envoyés par chaque arbitre.
Rapporté aux nombre d'arbitres théorique, il indique l'intensité de la participation qui est, vous l'aurez compris, beaucoup plus élevée dans un CAr restreint où tout le monde répond présent. 

Maintenant que cela est établi, comme une petite plante il faudra l'entretenir. Le CAr est passé à neuf membres ce 31 mars et, selon toute probabilité, deux ou trois d'entre eux ne finiront pas leur mandat. En ce sens je ne vois pas de tragédie dans le fait que les dix postes à pourvoir n'aient pas été pris - l'important n'est pas tant le nombre que l'implication, et il faut trois à cinq arbitres seulement pour un arbitrage. L'essentiel, en fait, sera pour les sortants de transmettre cet esprit aux petits nouveaux.

jeudi 17 février 2011

Usure

Il y a eu, entre les 10 et 17 février, exactement une intervention sur le Bulletin des administrateurs de Wikipédia. C'est peu.

C'est peu mais cela n'est pas tellement surprenant, la tendance aux jours creux s'étant renforcée ces derniers temps - on ne s'en plaindra pas, il s'agit après tout d'un endroit où sont gérés les problèmes majeurs qui affectent le fonctionnement de l'encyclopédie et demandent une certaine coordination. Pas de nouvelles, donc, bonne nouvelle.

C'est calme, donc, mais combien est-ce calme, exactement? La meilleure chose à faire dans ce genre de situation est de remonter un peu en arrière et d'aller voir ce qu'il se passait dans le temps où, pour une fois, les choses n'allaient pas mieux.

Je suis donc allé rapidement éplucher les archives du bulletin des admins, fort aimablement classées par mois et semaine. Pour chaque jour de la semaine où il y avait un peu d'action, j'ai mis un tic, indépendamment du nombre d'évènements signalés pour une même journée (le décompte aurait sinon pris plus de temps, le rangement étant parfois un peu bancal. Je précise toutefois que la tendance m'a semblé, à vue de nez, similaire). Au final, on voit ceci:

Jours actifs par semaine écoulée sur le Bulletin des admins / Juin 2007 - Février 2011

La tendance est effectivement à la baisse. A trafic égal, j'y vois plusieurs explications possibles:
1. On a moins de problèmes ou, plus exactement, moins de problèmes inédits que les admins ne sauront traiter sans se coordonner avec leurs collègues;
2. La création de la page de Requêtes aux administrateurs, qui permet de filtrer une partie des demandes;
3. Un phénomène d'usure liés à certains conflits violents et qui font que certains se seront éloignés d'un endroit réputé trollogène (quitte à demander de l'aide par d'autres canaux type IRC, bistro, contact direct ou je ne sais quoi).

Le dernier point, en fait est une interprétation des trois chutes d'activité que l'on peut observer autour de septembre 2008 ainsi que mai et juillet 2010. En ces trois occasions on a eu une diminution de deux ou trois jours actifs par semaine et pendant plusieurs semaines - en clair, si on avait plein de signalements à faire début de juin, tout semblait beaucoup calme le reste du mois. On ne peut exclure les variations normales d'activité, mais c'est quand même surprenant. 

Je suis donc allé voir ce qu'il se disait la semaine précédant ces trois creux, et je me suis rendu compte d'une chose: c'était à chaque fois l'occasion pour les admins d'étaler leurs dissensions:
  • Fin Août 2008: c'est l'affaire Aliesin - chute de 2 points en septembre;
  • Avril 2010: accrochages autour de Meodudlye - chute de 2 points en mai;
  • Fin juin 2010: on parle cette fois d'Addacat - chute de 3 points en juillet.
A chaque fois ça y va plutôt fort, il faut bien le dire, et on compte pas mal de participants. Je sais bien que corrélation n'est pas causation, mais on pourrait imaginer un "effet fatigue" - après s'être joyeusement opposés les uns aux autres, les admins ont besoin d'un peu de temps pour récupérer. Ce n'est qu'une hypothèse. Mais suite au dernier accrochage en date, il est troublant de constater une nouvelle baisse de régime substantielle dans la semaine qui suit.

Si cette hypothèse se confirme, cela signifierait que les premières personnes fatiguées par les conflits entre admins, ce sont les admins eux-mêmes.

mercredi 9 février 2011

POV

Je decouvrais l'autre jour l'existence d'un outil qui permet de mesurer, sur Wikipédia, le nombre de visites par articles et de classer ceux-ci en fonction de leur fréquentation et selon le projet auquel ils sont affiliés.

Un projet, rappelons-le, a pour vocation de coordonner (ou à tout le moins d'encourager) la coordination du travail autour d'une thématique particulière. Une autre facette de ce travail consiste par ailleurs à "noter" les articles (ébauche, bon début, AdQ, etc.) et à leur attribuer une priorité. Il me semble que cela est à l'origine lié à un putatif projet "Wikipédia 1.0" qui vise à sortir une version stable du projet, mais je ne me suis pas trop penché dessus et le laisserai de côté pour l'instant.

Non, ce qui est intéressant quand on associe le premier et le second point, c'est qu'on découvre ceci:
Projet Culture
Projet Anime et BD asiatique
Projet Paranormal
Deux choses sautent ici aux yeux:
  1. Ce n'est pas parce qu'un article est d'importance "faible" ou "élevée" que cela motivera quelqu'un à y écrire quelque chose ou pas: on a d'une part des labels de qualité considérés d'importance "faible", et d'autre part des articles d'importance "maximale" qui ne sont guère que de bons débuts;
  2. Il n'y a pas de forte corrélation entre l'importance attribuée à un article et sa fréquentation.
En d'autres mots, ce critère d'importance ne répond pas à ce que les lecteurs de Wikipédia viennent apparemment chercher.

Je soupçonne que la notation consiste plus ou moins officieusement à recopier ce que fond les encyclopédies "sérieuses", et que cela reflète dès lors le jugement totalement subjectif du relecteur quant à la signification du terme "article sérieux". C'est vrai que voir que les gens s'intéressent plus aux pluies d'animaux qu'à l'Opéra Garnier, ça peut être dur à avaler, surtout si l'on a une certaine vision de ce qui est encyclopédiquement Bien ou Mal. Mais il faudra peut-être un jour, il me semble, assumer un peu mieux la notion de projet encyclopédique populaire.

vendredi 14 janvier 2011

Sky is the limit

Nous apprenons par le biais du blog de Wikimedia France que la bibliothèque Commons vient d'atteindre les huit millions de fichiers. Me souvenant avoir vu  il n'y a pas si longtemps un billet célébrant les cinq millions, je me dis que ce truc se remplit à la vitesse grand V. Du coup, je décide de vérifier, juste comme ça, ce que cela représente d'ajouter plus de 6'000 fichiers par jours:

Nombre de fichiers hébergés sur Wikimédia Commons, 2004-2011
Plus il y en a, et plus on semble en ajouter (bon, ce n'est pas le stockage qui coûte le plus cher de nos jours). Et puisqu'on me soutient mordicus que tout reste à faire et à documenter (ce qui n'est pas faux), où va-t-on, avec tout cela? Excel me propose de calculer (et tracer) une courbe de tendance:

Projection jusqu'en 2014
Il semble qu'on franchira allégrement le cap des dix millions de fichier aux alentours du 1er septembre de cette année et, inch'allah, les vingt millions d'ici deux ans et demi.

Ca va faire beaucoup de photos de chats. Je n'ose imaginer la taille de certains catégories mais, avec de la chance, cela incitera les développeurs à passer à un système de balises à la Flickr qui aidera à rendre cette masse un peu plus exploitable.

mardi 11 janvier 2011

Notabilia

Le processus de suppression de page - les PàS de sinistre mémoire- semble apparemment fonctionner sur un système proche de l'unanimité. C'est en tout cas ce que laisse penser notabilia.net, un site web dont le propos semble d'examiner les 100 plus longues discussions ayant abouti à une conservation ou une suppression d'article. Je précise qu'ils ont regardé sur la version anglophone du projet, mais la plupart de leurs remarques me semblent pouvoir s'appliquer à la francophonie.

Et le petit plus sympa dans tout ça, c'est qu'ils ont donné une forme graphique à leur travail.

Commençons par la fin, comme eux, et voyons ce que ça donne au final:
Une sorte d'arbre, avec à gauche les conservations, à droite les discussions ayant mené à la suppression de l'article.

Comment en sont-ils arrivés là, et pourquoi cette forme de spaghettis? Tout simplement en mesurant l'alternance des keep et des delete. L'un fait pencher la barre à gauche, l'autre à droite, et si la discussion est équilibrée entre chaque camps, l'alternance des côtés fait qu'on reste tout droit:

A gauche: l'alternance de "Conserver" et "Supprimer" permet de garder le cap.
A droite: les avis quasi-unanimes pour la conservation font pencher le fil vers la gauche.
En regardant l'arbre ci-dessus, on s'aperçoit que finalement assez peu de décisions vont à l'encontre du nombre - notre arbre a comme qui dirait une raie au milieu. Il est cela dit intéressant de relever qu'il existe quand même des suppressions ou des conservations qui vont à l'encontre du simple vote numérique - on peut soupçonner que cela traduit le fait que l'administrateur faisant la clôture prend soin de regarder la nature des discussions, passant éventuellement outre certains effets de rameutage.

Les auteurs relèvent également que les discussions les plus longues ne sont pas les plus représentatives. En fait, en s'intéressant au presque 200'000 (!) procédures lancées entre 2002 et 2010, on s'aperçoit que la plupart sont closes après 4 ou 5 interventions:
Autres conclusions remarquables:
  • Toutes les propositions de suppressions ne commencent pas avec une demande de suppression de la part du proposant - celui-ci recommande parfois la fusion et l'intégration du contenu dans un autre article;
  • Les conservations immédiates (sans laisser au débat le temps de s'installer) sont plus nombreuses que les suppressions immédiates. Je soupçonne qu'on a là une différence notable avec la réalité francophone;
  • Les suppressions tendent beaucoup plus à dépendre d'une relative unanimité des participants. A l'inverse, il n'est pas inédit de conserver une page si l'avantage des suppressionistes est faible. C'est la fameuse absence de consensus.
Ce projet a fait l'objet d'une courte communication scientifique lors d'une récente conférence et, outre le site indiqué plus haut vous pouvez en consulter le pdf ici.

jeudi 21 octobre 2010

Le Nègre, il t'emmerde

Je contemple avec attention la polémique qui enfle, de ce côté-ci du Sahara en tout cas, autour de la dernière sortie de Jean-Paul Guerlain, qui admet avoir travaillé sur son dernier parfum "comme un nègre". Et d'ajouter qu' "[Il] ne sait pas si les nègres ont toujours tellement travaillé, mais enfin..."

Belle levée de bouclier en perspective, et d'ailleurs ça chauffe -un peu- sur l'article consacré au parfumeur français.

Le tableau ci-dessous montre la fréquentation de l'article Guerlain ces derniers jours:

Et celui qui suit concerne Patrick Bruel, qui a visiblement commis une déclaration le 6 septembre dernier dont personne ne se souvient probablement à l'heure actuelle:

Première constatation, une journée quelconque pour Patrick, c'est la meilleurs fréquentation que peut espérer Jean-Paul. On n'est pas égaux devant la curiosité populaire.

La deuxième constatation, malheureusement, c'est que les nègres sont assez peu connectés, et que les toubabs n'ont rien à foutre de ce genre de dérapage ordinaire (situation très justement résumée par Audrey Pulvar sur son blog).

La réflexion corollaire qu'on peut en tirer, en pensant que pas mal de connexions viennent probablement des DOM-TOM français, c'est que les Africains francophones n'ont pas encore le réflexe Wikipédia (parce que croyez-moi, on en a parlé dans la presse et les discussions au coin café). J'ai commencé à m'en rendre compte en allant regarder les stats de fréquentation autour des indépendances et autres "Fête nat."


De haut en bas et de gauche à droite, les taux de fréquentation des articles sur le Mali, le Sénégal, le Gabon et la France (Prise de la Bastille) lors des mois durant lesquels se trouvent leurs fêtes nationales respectives (22 septembre, 4 avril, 17 août et 14 juillet).

Comme on le voit, c'est pas la grosse affluence. En chiffres bruts, l'anniversaire de la réunification allemande a même attiré plus de gens sur l'article en français qu'il n'y en a eu pour ces cinquantenaires des indépendances. C'est quand même fou. Surtout si l'on se dit que le trafic vers le Mali et le Sénégal ont peut-être été artificiellement gonflés par des mentions dans les journaux français (j'ai souvenir d'avoir vu des papiers dans le Monde), alors que l'anniversaire du Gabon, pilier indefectible de la Françafrique, est passé relativement incognito.

Bref. On a encore de la marge en termes de trafic.

La bonne nouvelle, parce qu'il faut toujours voir le verre à moitié plein, c'est que les vandalismes sur les pages afférentes restent largement sous contrôle, que ce soit pour la page Guerlain ou pour ces divers pays qui ont des élections à venir dans les prochains jours. C'est le cas par exemple de la Guinée (élections le 24 octobre), le Niger (référendum le 31), la Côte d'Ivoire (élections le 31).

Mais si vous êtes des contributeurs réguliers, ça ne coûte rien de les ajouter à votre suivi (ainsi que celles de quelques candidats, notamment Cellou Dalein Diallo et Alpha Condé en Guinée et Laurent Gbagbo en Côte d'Ivoire). On ne sait jamais.

Quant au titre de ce billet, il est d'Aimé Césaire.

lundi 27 septembre 2010

Suivisme

Je ne me lasse décidément pas des statistiques qui n'en sont pas. Je jouais l'autre jour avec cet outil qui permet de savoir combien de personnes ont inclu une page lambda de l'espace wikipédien dans leur liste de suivi. Le jeu est simple, puisqu'il consiste à taper le nom d'une page au hasard et de voir au final si les Beatles sont finalement plus populaires que Jésus-Christ (ils ne le sont pas, mais de peu), si Genève est plus suivie que Zurich (elle l'est), si la bière est plus suivie que le vin (oui).

Outre le fait qu'on puisse comparer presque n'importe qui à presque n'importe quoi, je me dis qu'incorporer un article à sa liste de suivi est un geste qui n'est jamais totalement anodin (sauf peut-être pour les articles qu'on a créés soi-même et pour lesquels c'est automatique). Est-ce un reflet de sa proximité par rapport au sujet ou bien, en tant que Wikipédien, un réflexe vis-à-vis d'un article qu'on sens plus chahuté que la moyenne et sur lequel il est bon de garder un oeil?

C'est peut-être un mélange des deux mais, l'un dans l'autre, nous sommes rarement seuls dans nos choix.

dimanche 19 septembre 2010

The expendables

Hop c'est parti, les élections pour le douzième Comité d'arbitrage wikipédien (nouvelle formule™) sont lancées à partir de ce lundi. La plupart d'entre nous n'aurons jamais vraiment affaire au CAr lors de leur passage sur le projet (c'est normal et c'est tant mieux!) mais il n'empêche, qu'on l'aime ou pas c'est un élément important de la vie wikipédienne. J'en veux pour preuve qu'une douzaine de demandes impliquant environ 25 individus ont encore été déposées ces 6 derniers mois, et que si un arbitrage ne concerne a priori que deux arbitrés (ou trois, rarement plus) et cinq arbitres, on a en moyenne 40 à 50 personnes pour suivre ce qui s'y dit en mettant la page en suivi (plutôt que d'attendre benoîtement l'annonce de la décision).

Bref, dix places pour dix candidats, tous avec une certaine expérience du bouzin: sachant qu'il nous faut cinq (5) arbitres en théorie pour faire tourner la machine on aura, même avec sept ou huit élus seulement, de la marge pour fonctionner et essayer de changer ce qui ne marche pas1.

Je passe rapidement sur les profils: 5 admins et 5 pas admins, tous avec au moins un an d'activité. Si l'on regarde le rythme de contributions sur les douze derniers mois -en tout cas pour ceux dont l'editcount est accessible-, on a cela:


Ce qu'il faut regarder n'est pas tant au niveau du nombre absolu de contributions (tout le monde peut jouer avec LiveRC ou les catégorisations à la chaîne si ça lui chante), mais bien la stabilité du rythme. Premier constat, donc: on a ici une belle brochette de drogués qui viennent pour leur dose régulière.

L'important aussi dans ces histogrammes n'est pas tant ce qu'ils nous disent du passé de ces contributeurs que ce qu'on pourra en retenir pour l'avenir. L'avenir c'est dans six mois, et si tout va bien une moitié de tous ces gens ne se représentera pas. A vrai dire si tout va mal une moitié ne se représentera pas non plus: j'ai été accroché par Chaps the idol sur le fait que j'avais contribué à son éviction du CAr pour cause d'inactivité, lui-même étant assez dépité du manque de réactivité de ses collègues dans l'arbitrage sur lequel il était impliqué. Et il a bien raison: si l'on regarde son taux de contributions avant l'élection de mars on a ça:

qui ressemble plus ou moins à ce qu'on a au-dessus, mais quand on va voir ce qu'il se passe après l'élection, on tombe sur cela:

Effectivement, grosse fatigue.

Le challenge qui attend les élus est donc de trouver en interne une méthode pour éviter que ce genre de situation de découragement ne se reproduise trop souvent.



1. J'en suis désormais convaincu: le problème ce ne sont pas les arbitres, mais ce qu'on s'est mis à attendre d'eux.

jeudi 16 septembre 2010

Les vieux anars font la loi

Une source pas du tout anonyme1 est venue me trouver avec une remarque intéressante concernant la prise de décision sur l'interdiction / la limitation / l'imposition du terme états-unien, et j'en ai profité pour rédiger un petit billet à diffusion différée avant mon départ pour quelque aventure africaine (je vais photographier l'aéroport de Ouaga, s'il existe). Je suis sensible à l'argument qu'on ne vote pas sur des questions éditoriales, mais ayant comme seul exemple d'états-unien les diatribes d'Ignacio Ramonet j'ai voté pour la proposition, me berçant d'illusions quant au fait que la formulation "lorsqu'il est possible d'utiliser le terme « américain » à leur place" empêchera quiconque d'aller désormais essayer d'imposer ce dernier de manière systématique.

Bref, la proposition est passée et il se trouve, pour changer, que je suis dans la majorité mais que, pour changer, je me demande si ce n'est pas une erreur.

Beaucoup plus intéressant que mes errements existentiels, c'est le petit tableau ci-dessous qui regroupe les votes par année de création des comptes s'étant exprimés:



Résultats
AnnéePour/ContreParticipants
Tous55.83%219
201080%5
200968.75%18
200861.54%28
200747.37%41
200657.45%48
200556.25%53
200450%20
200333.33%3
200233.33%3

Première remarque: on s'aperçoit que plus on remonte dans les années d'ancienneté, moins on est succeptible d'avoir envie de réglementer le contenu. C'est probablement contre-intuitif pour certains, mais cela ne me surprend pas: avec le temps, on s'aperçoit que les règles sur Wikipédia ne fonctionnent que pour ceux qui les édictent - le système semble la plupart du temps suivre son propre cours, parfois en dépit de tout bon sens (au moins en apparence).

L'autre remarque qu'on pourra faire, et qui me surprend à peine plus, c'est que cette décision aura été en fin de compte prise par des personnes ayant créé leur compte il y a entre trois et cinq ans (2005 à 2007, 140 votants sur 220), ce qui est somme toute assez ancien. Une explication que j'aurais (outre l'inéluctable disparition des nouveaux contributeurs), c'est que ceux qui sont plus vieux sont partis (et étaient moins nombreux à la base), et que les plus jeunes ne sont pas encore intéressés à la politique interne wikipédienne, qui n'a que peu ou pas d'influence sur le contenu.


1. Que nous protégerons quand même par le pseudonyme Buisson_xy, merci à lui.

mardi 14 septembre 2010

Retour à la case départ

Suite du billet précédent.

On a donc un problème de représentativité sur notre dernier graphe quand des contributeurs tels que Coeur ou Kelson se réveillent au bout de plusieurs années et décident qu'en fait, un balai, ça leur faciliterait bien la vie. Forcément, la moyenne pour leur génération augmente: avec des comptes créés en 2003, ils ont traîné plus de temps sans le balai que certains administrateurs n'en ont tout simplement passé sur Wikipédia. Et puis il y a les bots, sysopés sur la foi de leurs dresseurs, eux-mêmes déjà admins.

On peut corriger cela en virant lesdits bots et en limitant le calcul de la moyenne à ceux s'étant lancés les premiers: on comparera donc pour chaque année les jeunes loups entre eux, ceux qui les premiers se lancent dans la course au balai et, surtout, sont élus. Cela nous donne le graphique suivant:

Attente moyenne pour les cinq premiers admins élus, par année de création de compte et en jours.
C'est quand même très différent: un an d'attente pour les comptes créés en 2003, puis 5 mois entre 2004 et 2006, puis une croissance pour revenir à au moins un an désormais. Mais comment l'interpréter?

Il me semble qu'en ce qui concerne la génération 2003, c'est simplement parce que Wikipédia, à l'époque, est encore un grand espace vide où on peut créer des articles comme Nicolas Sarkozy ou JFK. Personne ne connaît Wikipédia à part les trois pingouins qui sont dessus. Pas ou peu de vandales, de besoin de fusion ou de suppression. Et donc pas vraiment besoin d'admins pour aider ceux qui sont là depuis 2001 ou 20021 et qui n'ont quasiment rien à faire de technique.

Cela change progressivement, et le nombre d'admins croit avec le besoin et la popularité de l'encyclopédie. On reste en petit comité, et on est dans cet âge d'or où le monde est régit par des geeks qui n'ont pas encore appris les joies de la politique interne (ou qui ne sont pas bons à cela). On a bien déjà un ou deux trolls, mais personne ne sait trop quoi en faire et ils sont donc plus ou moins tolérés.

Et puis vient le moment où les admins commencent à documenter leurs erreurs et désaccords sur le BA, et l'on devient plus exigeant sur les candidats. A partir de 2007, on demande un niveau de bouteille qui va croissant. Tant et si bien qu'aujourd'hui, en 2010, on est quasiment revenus aux délais des premiers jours, à celà près que le niveau des élus est incomparablement plus élevé. Pour un Markadet arrivé en janvier 2005 et élu en août de la même année avec 100% d'approbation des 50 votants, on a Ascaron (vraiment actif depuis 2008) qui obtient en août 2010 un taux légèrement inférieur sur 91 avis. Autre temps, autres moeurs.

Je me garderai bien de dire si les derniers admins sont meilleurs que les vieux - ils ont avant tout eu moins de temps pour commettre des bêtises. Mais la tendance est intéressante. Ce qui serait tout aussi intéressant, et probablement similaire, serait de mesurer maintenant l'évolution du nombre d'éditions pour les élus2.



1. Données inexploitables sur le toolserver.
2. J'avais abordé la question mais cela semble plus compliqué (ou moins facile) que prévu: maintenant qu'on a les dates de sysopage pour 200 et quelques personnes, il faudrait en fait compter toutes les contribs (idéalement par domaine) jusqu'à cette date: un genre d'editcount limité, donc. Si vous avez des idées, j'ai le fichier.

lundi 13 septembre 2010

Moins vite, moins haut, plus forts

C'est officiel: c'était plus facile de devenir admin avant. J'en ai déjà parlé, Théoliane en parle, mais cette fois j'ai mieux: des chiffres. J'en profite d'emblée pour remercier Stanlekub et son accès au toolserver sans qui tout ce qui va suivre n'aurait pas été possible1.

Aujourd'hui, donc, nous allons parler des administrateurs et surtout du temps que les 233 élus auront mis à l'être. Pour ce faire, autant vous bazarder les graphiques et commenter au fur et à mesure.

Premier ensemble de données, le nombre d'admins par année de création de compte:


A noter que ce graphique inclut aussi les administrateurs ayant depuis démissionné ou été démis.

Ici à première vue pas de surprise, cela suit la courbe de progression de l'encyclopédie, avec un pic en 2005. Sauf qu'après, alors que la courbe des éditions se stabilise, celle des admins chute: un seul compte créé en 2010 est à ce jour administrateur, et en plus c'est un bot. C'est à rapprocher de ce billet de janvier dernier, où je montrais que le nombre de candidats baissait, et m'aventurait à quelques explications (en gros les mêmes que Théoliane: des attentes de plus en plus fantasmatiques):

Nombre d'élections par an (histogrammes), et taux de succès (orange/noir)
J'indiquais donc que Wikipédia en français passait doucement de 90% à près de 55% de succès pour les candidatures au balai. On semble voir une amélioration en 2010 (près de 70% de réussite à ce jour), mais cela reste à confirmer.

Et voici maintenant un troisième graphique, qui nous montre l'attente moyenne avant de lancer sa candidature et être élu (par opposition à lancer sa candidature et ne pas être élu, qui n'est pas discuté ici):
Durée moyenne entre la création de compte et l'acquisition du statut d'administrateur, par année de création (x) et en jours (y)
Bonne nouvelle! Ca baisse. Sauf que oui, mais non. Ce graphique est doublement faux parce que d'une part le seul compte admin créé en 2010 est celui d'un bot, qui n'a pas vraiment eu besoin de faire ses preuves socialement et a donc acquis le statut en 40 jours et, surtout, on a sur WP de vieux dinosaures de 2003, 2005 ou 2007 qui un jour se réveillent et décident de devenir admins quand tous ceux de leur génération ont déjà quitté le projet. Forcément, cela influe sur la moyenne.

La correction, parce que ce billet est déjà long, sera discutée demain.


1. Ainsi que GL et Manoillon, dont je ne désespère pas de faire un jour bon usage des données fournies.

jeudi 12 août 2010

Le pathétique en dessin

Tiens, un truc rigolo sur le blog Information is beautiful: les conflits éditoriaux les plus pitoyables de la Wikipédia anglophone mises sous forme graphique. Une façon intéressante de voir que là-bas aussi il y a eu et il y a toujours de sérieux problèmes de chicon.


L'autre enseignement, c'est que dans la préhistoire wikipédienne (2001!) ça chauffait déjà pas mal. Enfin, parce qu'on n'est jamais mieux servi que par soi-même, il semble que la plus grosse guerre d'édition se soit déroulée sur l'article Wikipedia: Jimbo Wales en est-il le fondateur, ou le co-fondateur?

Ca méritait au moins 29'000 interventions. La version francophone me paraît, tout d'un coup, bien calme.