Les (trop nombreux) défauts des sondages

L'inférence statistique sert régulièrement les sondeurs, qui peuvent grâce à elle s'abriter derrière la légitimité incontestable des sciences. Sauf que, comme souvent, la beauté de la théorie se heurte toujours aux difficultés de la pratique.

Mais qu'est-ce que l'inférence statistique ? Pour rapidement résumer, elle consiste à induire, grâce à des résultats récoltés au hasard sur un échantillon d'une population, une règle générale de l'ensemble de cette population.

Si vous souhaitez, par exemple, connaître le nombre d'habitants de votre rue qui ont une voiture verte, vous allez descendre à heure fixe interroger les passants et leur demander :

s'ils habitent effectivement votre rue
la couleur de leur voiture
(et aussi bien sûr s'ils veulent bien vous répondre !)

Ensuite, vous allez répéter l'expérience autant de fois que nécessaire pour affiner vos données. Enfin, vous allez passer les données recueillies dans différentes moulinettes pour obtenir une estimation des possesseurs de voitures vertes chez les habitants de votre rue.

Les sondeurs sont très forts à ce petit jeu, notamment parce qu'ils ont des moyens d'enquête très poussés. Malgré tout, je crois que les sondages ont à peu près les mêmes défauts que les micro-trottoirs, à savoir :

une pauvreté informationnelle (tant ont dit "oui", tant ont dit "non", ok, et alors ?)
une tendance à conforter chacun dans ses opinions plutôt que de décrire toutes les faces d'un problème
un remplissage facile et avéré de l'espace

Mais, là où on peut facilement hausser les épaules après l'écoute d'un micro-trottoir en se disant que quatre personnes ne peuvent pas exprimer une tendance générale, les sondages, par l'utilisation de statistiques très poussées, peuvent prendre le noble apparat de la science impartiale.

En réalité, les choses sont, comme toujours, un peu plus compliquées que dans la théorie.

Tout est dans la méthodo

Généralement, les médias s'empressent plus de livrer une interprétation hâtive d'un sondage qu'ils ont commandé plutôt que de se pencher un tant soit peu sur la méthodologie. Pourtant, celle-ci peut, à elle seule, expliquer les nombreux défauts des sondages.

Impossible hasard

Pour que l'inférence statistique ait un sens, il faut que les données que l'on traite aient été récoltées au hasard. Dans la pratique, ce hasard est quasiment impossible à atteindre.

Par exemple, si l'on souhaite contacter des gens au hasard dans la journée :

si l'on utilise exclusivement les Pages jaunes, on va tomber essentiellement sur des retraités ou des non actifs, autrement dit un échantillon peu représentatif de l'ensemble du pays
si l'on utilise exclusivement Internet, on va tomber essentiellement sur des gens plus jeunes, autrement dit un échantillon peut représentatif de l'ensemble du pays

Certes, les sondeurs utilisent plus la "méthode des quotas" pour tenter d'harmoniser les sociologies des personnes interrogées : s'il y a dans le pays 15% de retraités, on va faire en sorte d'interroger 15% de retraités dans le sondage.

Mais même cette méthode peut révéler très vite des faiblesses : Mediapart relevait par exemple dans un sondage très orienté sur le voile à l'université des échantillons unanimes, ce qui est franchement très très suspect.

Impossibles questions neutres

On entre plus dans le domaine de la psychologie dans cette partie, avec les questions orientées. Ceux qui ont dû faire dans leur vie des questionnaires le savent, on a très vite fait d'induire une réponse directement dans une question.

Concrètement, demander "Pensez-vous payer trop d'impôts ?" n'induira pas du tout les mêmes réponses que "Êtes-vous prêts à payer des impôts pour avoir des services publics gratuits ?".

Impossible analyse

Nous allons retrouver notre comparaison avec le micro-trottoir avec cet aveu : il est souvent ardu, voire impossible, d'analyser les résultats d'un sondage.

Une première raison est que les gens ne peuvent être experts en tout, et qu'on puisse se demander quelle valeur accorder à leur réponse sur une question très pointue.

Par exemple, quand un institut révèle que 67% des Français jugent la suspension de l'écotaxe "justifiéee", il ne dit pas pourquoi ces derniers la trouvent "justifiée". Ahem...

Autre raison, les conclusions non détaillées. L'exemple suivant est formidable : 34% des Français se sentent proches des idées du FN, ça fait froid dans le dos, non ?

Pourtant, le curieux réalisera bien vite que dans le sondage, on ne sait pas à quelles idées précises les gens pensent (anti-immigration, anti-euro, protectionnisme), alors que le chiffre de 34% favorables va insidieusement marquer les esprits...

Autre raison encore, le sondage d'anticipation : par exemple, quand le Nouvel Obs nous dit que le FN est le premier parti en intentions de votes des prochaines européennes, il serait peut-être bien inspiré d'attendre qu'au moins les programmes des uns et des autres soient déclarés...

Impossible redressement

Autre joyeuseté des sondages, les redressements a posteriori. Illustrons-le avec un constat connu : on ne sait pas sonder le FN en France.

La raison principale vient du fait qu'une partie des électeurs de ce parti a des scrupules à se déclarer, et qu'on doit donc corriger après coup pour avoir la "vraie" proportion du Front National.

Mais là, on entre dans un domaine proche de la boule de cristal : quel.s pourcentage.s retirer à quel.s parti.s pour ensuite le.s redonner au FN et qu'est-ce qui le justifie ? Mystère...

Tout est dans les marges

Oublions tout ce que nous venons de dire et admettons que l'on ait réussi à avoir une méthodologie absolument parfaite pour effectuer un sondage.

Un institut souhaite se servir de cette prouesse pour répondre à une question absolument essentielle : combien de Français sont "vraiment vraiment pour", et combien sont "très très contre" ?

Pendant la première récolte de données, je vais être interrogé. 19 autres personnes, qui ont à peu près le même passé et profil que moi, sont catégoriques : ils sont "très très contre", tandis que les 980 autres sondés vont se prononcer "vraiment vraiment pour".

Sauf que les sondeurs, très appliqués, savent que ce résultat est sûrement faux, car, redressant régulièrement le pourcentage des Français "vraiment vraiment pour", ils obtiendraient un résultat unanime.

Ce graphique, très précis, est trop incertain pour être retenu.

Il faut donc répéter l'expérience jusqu'à obtenir une estimation fiable à 95%, autrement dit un sondage qui sera faux cinq fois sur 100. Sauf que ce qu'on gagne en certitude, on le perd en précision.

Ce que l'on publie

Finalement, on trouve ce résultat éloquent dans la presse : 34% des Français sont "vraiment vraiment pour".

Incroyable, plus d'un tiers des Français "vraiment vraiment pour" ? Sauf qu'encore une fois, la réalité est un poil plus complexe.

Ce que l'on devrait publier

En réalité, l'imprécision que l'on récolte en répétant l'expérience s'appelle la (ou les) marge.s d'erreur, et pourrait se visualiser comme suit (en prenant cette fois des pourcentages) :

Il est du coup impossible de trancher dans cette marge : assurer qu'il n'y a que 15% ou au contraire affirmer qu'il y a 34% de Français "vraiment vraiment pour" serait une erreur, mais ce serait évidemment bien moins vendeur.