dimanche 1 août 2010

Fermons les écoles

Le vandalisme est une constante - pas une menace croissante: c'est en tout cas une conclusion que l'on peut tirer du dernier billet d'Erik Zachte sur Infodisiac, excellent blog de statistiques wikipédiennes. Sa dernière fournée nous parle de nombre révocations (un sujet à la mode ces derniers temps), de qui est révoqué et par qui.

Je ne vous fais pas plus attendre et vous montre le premier graphe d'intérêt pour la Wikipédia francophone, celui qui nous parle du taux de contributions révoquées. Attention, il ne s'agit pas uniquement de vandalismes, on peut aussi y inclure les guerres d'éditions. Mais la question, en gros, est que sur 100 éditions commises par un anonyme, un utilisateur enregistré ou un bot, combien sont-elles révoquées?


Eh bien finalement pas tant que ça: environ 4% du total des éditions (la ligne noire), et la croissance (quasi-nulle) suit celle des contributions ces dernières années: il y a donc un plateau pour le vandalisme aussi.

Une chose qui me surprend en fait est la ligne verte (les bots): 1% de leur modifications sont révoquées. Ca veut soit dire que les bots se plantent, et c'est un problème, soit que les bots se plantent et qu'on s'en aperçoit, ce qui est plutôt une bonne nouvelle. L'un dans l'autre, avec 0.7% de leurs éditions on peut considérer cela comme assez mineur (après tout ils corrigent surtout des éléments secondaires, comme les interwikis ou catégorisations) et n'affectant pratiquement pas la qualité de l'article touché. C'est donc trivial, surtout en comparaison des 16% de révocations touchant les contributeurs non enregistrés (les IP), principal pointque je voulais évoquer.

Premier constat à ce sujet, parce que le verre est toujours à moitié plein: c'est qu'a priori 84% des contributions sous IP sont acceptables. La question revient souvent sous une forme ou une autre, et je trouve que c'est plutôt une bonne nouvelle de savoir que les anonymes sont nos amis.

Deuxième constat, visible uniquement pour l'oeil le plus aiguisé: les révocations de contribution sous IP semblent connaître un creux régulier, on dirait quelque part vers le milieu d'année... A vue de nez en juillet-août, quand les jours sont longs... et les classes d'informatique fermées.

Se pourrait-il que ces petits morveux nos chères têtes blondes, déjà coupables de recopier Wikipédia pour leurs devoirs1, soient en plus des vandales de masse? M'est avis que la réponse est dans la question.

Avec la mise en place progressive des filtres automatisés, on peut raisonnablement espérer que la capacité à insérer un "Justin Bieber est guay mais ne veut pas l'avouer" diminuera sensiblement. Et que du coup on n'aura pas à bloquer tous les groupes scolaires de France et Navarre par défaut (parce qu'en voyant ce graphique, c'est ce que j'aurais envie de faire).





1. De mon temps c'était le Larousse.

8 commentaires:

Arkanosis a dit…

C'est bien connu, les chiffres sont sujet à interprétation...

Le ratio de révocations diminue, c'est un fait, maintenant est-ce que cela signifie qu'il y a moins de vandalisme ou que les patrouilleurs sont moins actifs... Bon en vrai, je pense comme toi, il suffit de faire un tour sur LiveRC pour se rendre compte qu'en ce moment c'est calme plat (cette nuit, j'ai même cru que LRC était en panne, parce qu'il n'y avait aucune contribution qui défilait).

Concernant la quantité de vandalismes dus aux têtes blondes, je pense que ça n'est pas une surprise... Cependant, il faut faire attention au fait que :
- On n'a pas de chiffres permettant d'estimer la proportion de contributions valables qu'on leur doit ;
- ... ni (et c'est le plus important à mon avis), de moyen d'évaluer à quel point on profite de leur accès à Wikipédia pour « recruter » de nouveaux contributeurs ;
- la période en question n'est pas uniquement celle des vacances scolaires, mais celle des vacances de beaucoup de monde... les vandales ne sont pas uniquement là où on pense qu'ils sont au premier abord (d'expérience, on a « pas mal » de vandalismes par des IP d'entreprise ; souvent plus sournois que ceux des IP scolaires, sans compter le spam)

iluvalar a dit…

+1 Arkanosis, qu'on revert 1/5 des IPs, c'est quand même une bonne nouvelle; En éliminant du lot juste les vandalisme con... ça leur fait une bonne moyenne.

Mais il ne faut surtout pas glisser dans la perception du 21% fâcheux. Il faut se rappeler toujours que le IP les plus motivé finissent par rejoindre nos rangs et "perdre" ne serait-ce que 1/5 d'entre eux parce qu'on manque de WP:FOI parce qu'on se fit uniquement à notre expérience générale serait inacceptable.

Une autre information hyper intéressante dans ces stats : Le IPs comptent pour 75% de toutes les modifications. C'est eux la majorité et nous la minorité.

Maurilbert a dit…

Question comme ça, c'est quoi le pic vert épouvantable au printemps 2004 ? Un bot complètement maboul qu'il a fallu réverter de façon hallucinante ?

Moyg a dit…

@Maurilbert : j'ai eu la même réaction. Mais il n'y avait que 4 ou 5 bots à l'époque, on tombe donc dans le problème des petits échantillons : la moindre RBOT revertée représente beaucoup de %, sans compter l'incertitude (faux positifs) qui est plus importante.

Toujours sur les bots, d'après http://stats.wikimedia.org/EN/EditsRevertsFR.htm 45% des bots revertés le sont par un bot (dans 1/3 de ces cas, c'est un autorevert). Cela dit, j'aimerais bien voir les reverts comptabilisés pour voir si la méthode est bien valide. Apparemment la taille du diff est juste comparée avec celle du diff suivant. Les bots font souvent des petits edits, on a beaucoup plus facilement des faux positifs là dessus (probabilité plus forte qu'un edit de +2 octets soit suivi d'un -2 qui n'a rien à voir que +1381 suivi de -1381)

GL a dit…

@Moyg : ces statistiques ne se basent pas sur la table des diffs et le nombre de caractères retirés ou ajoutés mais sur les dumps XML et l'ensemble du texte de l'article (via une fonction de hachage), voir infodisiac.com

Moyg a dit…
Ce commentaire a été supprimé par l'auteur.
Moyg a dit…

@ GL : Au temps pour moi, ça m'apprendra à survoler ce que je lis.

@ Popo : Faut mettre un bouton Modifier pour corriger les commentaires.

RB a dit…

"Le verre est toujours à moitié plein" ? Meuh non, parfois il est à moitié vide, et d'autres fois encore, il est deux fois trop grand !