123 shaares
15 results
tagged
statistiques
Cette carte a été produite par un docteur en mathématiques, autant dire qu'il doit roxxer en proba. Assez hypnotique au final !
(via @GurvanKris)
(via @GurvanKris)
Je suis de ceux qui pensent qu'on ne peut pas aveuglément croire les sondages dont on nous abreuve quotidiennement, et tente d'expliquer pourquoi.
Bon allez, je reprends un peu la veille ! Une ressource plutôt utile (et surtout gratuite) : une sélection complète des pièges que peuvent abriter les statistiques. Y a matière à dire...
Bon angle qui rappelle les quelques pincettes à prendre après l'annonce d'un sondage "extra" (ouh la la, la droite passe devant la gauche à Paris pour la première fois depuis des mois)...
En réalité, les sondeurs ont déterminé un écart de 1% entre droite et gauche, alors que les marges d'erreur sont de +-3%. Mouais mouais, et ce n'est évidemment pas la seule zone d'ombre à ce beau tableau...
Bref, un bon papier :-) !
(via @alphoenix)
En réalité, les sondeurs ont déterminé un écart de 1% entre droite et gauche, alors que les marges d'erreur sont de +-3%. Mouais mouais, et ce n'est évidemment pas la seule zone d'ombre à ce beau tableau...
Bref, un bon papier :-) !
(via @alphoenix)
Précision tout de même au milieu de l'article : "la marge d'erreur autour de 20% est de plus ou moins 1,8 point : aucun des trois partis n'est assuré de sa place exacte sur le podium".
Autrement dit, on pourrait mettre l'UMP en première position et avoir aussi raison. Mais c'est évidemment moins vendeur...
Autrement dit, on pourrait mettre l'UMP en première position et avoir aussi raison. Mais c'est évidemment moins vendeur...
C'est pourtant pas compliqué : quand, après un merveilleux sondage, un candidat est donné à moins de 55%, son adversaire peut très bien gagner aussi... Mais évidemment, annoncer une victoire du FN, c'est tellement plus vendeur :-/...
Cet article est très intéressant car il détaille comment, à partir des mêmes données, on peut dire une chose et son contraire. Cette explication détaillée est évidemment salutaire !
(via @alphoenix)
(via @alphoenix)
Pour ceux qui n'auraient pas aperçu la maxi boulette que le Progrès de Lyon a osé qualifier d'infographies comme pour les autres, cet éclairage pourra apporter son lot d'éclaircissements intéressants. Il ressemble en plusieurs points à cette autre analyse publiée après la sortie de "La France orange mécanique", un brûlot faussement impertinent qui savait juste aussi bien manier les clichés : http://leplus.nouvelobs.com/contribution/798328-la-france-orange-mecanique-un-tissu-d-aneries-qui-sert-le-fn.html.
J'aime beaucoup, pour le peu que j'en ai lu, le politogue Thomas Guénolé, notamment pour son rappel perpétuel de l'importance de l'abstention dans les "gros" scores que peut enregistrer le Front national.
On crédite en effet le parti "Le Pen, de père en fille" 20%, ce qui paraît beaucoup, mais qui doit être mis au regard de la participation estimée à 40%. Or, que font 20% de 40% d'un ensemble ? 8% de l'ensemble... Autrement dit, si l'espèce de prophétie autoréalisatrice d'un FN au premier tour qu'on nous serine depuis des semaines se produit à peu près comme les sondages l'ont évaluée, on aura un parti d'extrême droite devenu roi avec moins d'un électeur sur dix.
De quoi relativiser la "percée" qu'on nous commente à longueur de temps en se rappelant que le seul parti qui gagne des voix en France n'en est pas un, puisqu'il s'agit de l'abstention. J'avais d'ailleurs modestement essayé de parler de cet effet dans un article tout en data : http://blog.m0le.net/2013/10/02/comment-labstention-peut-aider-le-fn/
On est donc en pleine crise de la démocratie puisque, si le FN arrive en tête, il va pouvoir gonfler les muscles sur une belle escroquerie statistique que personne ne dénoncera, et qui risquera d'aggraver encore plus le marasme de ceux qui de plus en plus nombreux désertent les urnes. Les solutions proposées par Guénolé me vont de plus en plus : rendre le vote obligatoire (il n'y a qu'à voir les taux d'abstention en Belgique et au Luxembourg pour se rendre compte que ça fonctionne) et surtout compter le vote blanc, en prévoyant au besoin la réorganisation des élections s'il arrive en tête.
On crédite en effet le parti "Le Pen, de père en fille" 20%, ce qui paraît beaucoup, mais qui doit être mis au regard de la participation estimée à 40%. Or, que font 20% de 40% d'un ensemble ? 8% de l'ensemble... Autrement dit, si l'espèce de prophétie autoréalisatrice d'un FN au premier tour qu'on nous serine depuis des semaines se produit à peu près comme les sondages l'ont évaluée, on aura un parti d'extrême droite devenu roi avec moins d'un électeur sur dix.
De quoi relativiser la "percée" qu'on nous commente à longueur de temps en se rappelant que le seul parti qui gagne des voix en France n'en est pas un, puisqu'il s'agit de l'abstention. J'avais d'ailleurs modestement essayé de parler de cet effet dans un article tout en data : http://blog.m0le.net/2013/10/02/comment-labstention-peut-aider-le-fn/
On est donc en pleine crise de la démocratie puisque, si le FN arrive en tête, il va pouvoir gonfler les muscles sur une belle escroquerie statistique que personne ne dénoncera, et qui risquera d'aggraver encore plus le marasme de ceux qui de plus en plus nombreux désertent les urnes. Les solutions proposées par Guénolé me vont de plus en plus : rendre le vote obligatoire (il n'y a qu'à voir les taux d'abstention en Belgique et au Luxembourg pour se rendre compte que ça fonctionne) et surtout compter le vote blanc, en prévoyant au besoin la réorganisation des élections s'il arrive en tête.
Un blog plein d'analyses statistiques et électorales pointues, je dis <3 (attention, public averti ;-)) !
EDIT : J'apprends dans cet article de Mediapart (http://www.mediapart.fr/journal/france/270514/quatre-scores-surprenants-disent-les-ressorts-du-vote-front-national) que Joël Gombin est doctorant à l'Université de Picardie-Jules Verne, et grand spécialiste du vote FN.
EDIT : J'apprends dans cet article de Mediapart (http://www.mediapart.fr/journal/france/270514/quatre-scores-surprenants-disent-les-ressorts-du-vote-front-national) que Joël Gombin est doctorant à l'Université de Picardie-Jules Verne, et grand spécialiste du vote FN.
François Morel résume avec beaucoup d'humour un fait incontestable : on n'a jamais tort de dire que les choses sont toujours "un peu plus compliquées que ça". Cela s'applique très bien aux statistiques, discipline aux nombreux pièges. Voici quelques modestes contributions à ce sujet.
- erreurs très répandues, des comparaisons pas adaptées. En gros, cela revient à mettre sur un pied d'égalité des citrouilles et des carottes, sous prétexte que les deux sont de couleur orange. On peut par exemple citer le film "Bienvenue chez les Ch'tis" qui a dépassé le nombre de places de "La Grande Vadrouille". Sauf que ce dernier était sorti à une époque où la France était bien moins peuplée... http://blog.m0le.net/2013/08/01/quelques-limites-de-lutilisation-des-donnees/
- le fantasme des données "objectives" est l'une des pires habitudes que l'on puisse prendre, puisqu'elle revient à privilégier la forme au fond. Il faut juste se rappeler que les données brutes ne disent rien, et que n'importe quel traitement est un choix éminemment subjectif. Il faut donc assumer ce choix jusqu'au bout en l'analysant et ne pas balancer un graphe comme si sa démonstration coulait elle-même de source (typiquement, ça c'est pas génial : https://twitter.com/ssoumier/status/477017740923133953). Les statistiques ne sont pas un domaine facile d'accès, donc on peut produire une explication claire mais jamais se permettre d'être simpliste avec elles. http://blog.m0le.net/2013/10/26/les-donnees-sont-elles-si-objectives-que-ca/
- l'existence de paradoxes comme celui de Simpson devrait en faire réfléchir beaucoup sur l'utilisation exclusive des pourcentages et autres moyennes. Se plonger un tant soit peu dans les données brutes ou remarquer des différences conséquentes dans ses échantillons peut prévenir bon nombre de conclusions hâtives : http://blog.m0le.net/2014/06/14/des-paradoxes-statistiques-plus-repandus-quon-ne-croit/
- erreurs très répandues, des comparaisons pas adaptées. En gros, cela revient à mettre sur un pied d'égalité des citrouilles et des carottes, sous prétexte que les deux sont de couleur orange. On peut par exemple citer le film "Bienvenue chez les Ch'tis" qui a dépassé le nombre de places de "La Grande Vadrouille". Sauf que ce dernier était sorti à une époque où la France était bien moins peuplée... http://blog.m0le.net/2013/08/01/quelques-limites-de-lutilisation-des-donnees/
- le fantasme des données "objectives" est l'une des pires habitudes que l'on puisse prendre, puisqu'elle revient à privilégier la forme au fond. Il faut juste se rappeler que les données brutes ne disent rien, et que n'importe quel traitement est un choix éminemment subjectif. Il faut donc assumer ce choix jusqu'au bout en l'analysant et ne pas balancer un graphe comme si sa démonstration coulait elle-même de source (typiquement, ça c'est pas génial : https://twitter.com/ssoumier/status/477017740923133953). Les statistiques ne sont pas un domaine facile d'accès, donc on peut produire une explication claire mais jamais se permettre d'être simpliste avec elles. http://blog.m0le.net/2013/10/26/les-donnees-sont-elles-si-objectives-que-ca/
- l'existence de paradoxes comme celui de Simpson devrait en faire réfléchir beaucoup sur l'utilisation exclusive des pourcentages et autres moyennes. Se plonger un tant soit peu dans les données brutes ou remarquer des différences conséquentes dans ses échantillons peut prévenir bon nombre de conclusions hâtives : http://blog.m0le.net/2014/06/14/des-paradoxes-statistiques-plus-repandus-quon-ne-croit/
Elle est pas trop mal cette petite incursion statistique des Decodeurs, qui dressent grâce à des données précises le portrait du quartier où a eu lieu cet effroyable fait divers contre un jeune homme rom.
Après une petite discussion sur Twitter, l'échantillon pour les revenus par unité de consommation a été analysé aux petits oignons, en écrémant au préalable le premier décile (les dix premiers pourcents de l'échantillon) et le neuvième décile (les dix derniers pourcents de l'échantillon), et ce pour éviter que des valeurs trop extrêmes trahissent la photographie de l'ensemble.
Très bon réflexe, qui mérite d'être souligné !
(via @decodeurs)
Après une petite discussion sur Twitter, l'échantillon pour les revenus par unité de consommation a été analysé aux petits oignons, en écrémant au préalable le premier décile (les dix premiers pourcents de l'échantillon) et le neuvième décile (les dix derniers pourcents de l'échantillon), et ce pour éviter que des valeurs trop extrêmes trahissent la photographie de l'ensemble.
Très bon réflexe, qui mérite d'être souligné !
(via @decodeurs)
Ca, c'est une excellente lecture, notamment pour ceux qui imaginent qu'on peut faire de la cartographie pertinente sans connaissance statistiques. L'article montre notamment que, en appréhendant de trois façons différentes (quantiles, déviation standar et intervalles réguliers) un échantillon distribué normalement et moins régulièrement réparti, on obtient bien trois cartes différentes qui peuvent chacune prêter ses propres conclusions.
(via @albertocairo)
EDIT : Je me rends compte en y repensant que j'avais déjà rencontré ce type de problème pour une de mes premières piges pour Rue89Strasbourg (http://www.rue89strasbourg.com/index.php/2013/11/26/politique/municipales-bastions-ps-ump-strasbourg/). Il y a aussi le lien vers les explications d'harmonisation : http://blog.m0le.net/2013/11/26/autopsie-dune-dataviz-4-des-cartes-choroplethes-harmonisees/
(via @albertocairo)
EDIT : Je me rends compte en y repensant que j'avais déjà rencontré ce type de problème pour une de mes premières piges pour Rue89Strasbourg (http://www.rue89strasbourg.com/index.php/2013/11/26/politique/municipales-bastions-ps-ump-strasbourg/). Il y a aussi le lien vers les explications d'harmonisation : http://blog.m0le.net/2013/11/26/autopsie-dune-dataviz-4-des-cartes-choroplethes-harmonisees/
Autant j'apprécie l'excellent travail d'investigation de Mediapart, autant je trouve cet article très très faiblard niveaux stats.
Voici le petit florilège que j'ai relevé :
- on dirait que l'auteur découvre le joyeux monde des moyennes. Commeçons avec son attaque, "un taux de chômage plus important pour l'Alsace". Elle pourrait également se traduire par "un taux de chômage moins important pour la Champagne-Ardenne ou la Lorraine". La première affirmation ne chasse pas l'autre, au contraire, elles sont toutes les deux complémentaires
- idem quand l'article affirme vers la fin que "la proportion de Régions qui seront au-dessus de la moyenne nationale du chômage (9,8 %) reste stable, voire augmente". C'est le principe d'une moyenne, sensible aux valeurs extrêmes !!! Peut-être qu'un paquet de régions actuelles sont à 9,7% ou 9,6% de chômage sans qu'on puisse pour autant dire qu'elles vont franchement mieux économiquement. Bref, une médiane pour clarifier tout ça n'aurait pas été de trop.
- la comparaison des PIB des nouvelles régions est largement biaisée : pour qu'elle ait du sens, il faut comparer lesdits PIB aux nombres d'habitants. Ces derniers n'étant pas répartis de manière homogène sur ces différents territoires, il paraît évident que les régions les moins peuplées seront de facto les plus pauvres...
- le diagramme en camembert me paraît aussi peu pertinent par rapport à l'angle de l'article. Si inégalité entre régions il y a en France, c'est surtout par la présence de l'Île-de-France, qui truste à elle seule presque un tiers du PIB du pays... Tiens, qu'est-ce que ça aurait donné si on l'avait éclatée ? Mystère...
- enfin, il semble que les rapprochements entre les régions se font avant tout sur des critères de proximité géographique que sur ces considérations-là. Faire une région Alsace-Bretagne sous prétexte qu'elles ont un taux de chômage moindre n'aurait absolument aucun sens...
Bref, on aime beaucoup Mediapart, mais attention aux stats !!
Voici le petit florilège que j'ai relevé :
- on dirait que l'auteur découvre le joyeux monde des moyennes. Commeçons avec son attaque, "un taux de chômage plus important pour l'Alsace". Elle pourrait également se traduire par "un taux de chômage moins important pour la Champagne-Ardenne ou la Lorraine". La première affirmation ne chasse pas l'autre, au contraire, elles sont toutes les deux complémentaires
- idem quand l'article affirme vers la fin que "la proportion de Régions qui seront au-dessus de la moyenne nationale du chômage (9,8 %) reste stable, voire augmente". C'est le principe d'une moyenne, sensible aux valeurs extrêmes !!! Peut-être qu'un paquet de régions actuelles sont à 9,7% ou 9,6% de chômage sans qu'on puisse pour autant dire qu'elles vont franchement mieux économiquement. Bref, une médiane pour clarifier tout ça n'aurait pas été de trop.
- la comparaison des PIB des nouvelles régions est largement biaisée : pour qu'elle ait du sens, il faut comparer lesdits PIB aux nombres d'habitants. Ces derniers n'étant pas répartis de manière homogène sur ces différents territoires, il paraît évident que les régions les moins peuplées seront de facto les plus pauvres...
- le diagramme en camembert me paraît aussi peu pertinent par rapport à l'angle de l'article. Si inégalité entre régions il y a en France, c'est surtout par la présence de l'Île-de-France, qui truste à elle seule presque un tiers du PIB du pays... Tiens, qu'est-ce que ça aurait donné si on l'avait éclatée ? Mystère...
- enfin, il semble que les rapprochements entre les régions se font avant tout sur des critères de proximité géographique que sur ces considérations-là. Faire une région Alsace-Bretagne sous prétexte qu'elles ont un taux de chômage moindre n'aurait absolument aucun sens...
Bref, on aime beaucoup Mediapart, mais attention aux stats !!
Elle est #old, je ne suis évidemment pas d'accord avec tout, mais dans l'esprit, cette critique de Stéphane Soumier (BFM Business) est à lire.
J'en retiens surtout une formule qui me semble très bien envoyée : "un chiffre sert à interroger, pas à affirmer".
C'est peut-être ce qu'il manque à pas mal d'articles de fact-checking : l'avis (éventuellement contradictoire) d'experts.
Cette interrogation de tiers spécialisée était d'ailleurs conseillée par l'excellent Alberto Cairo quand il a tiré à balles réelles sur le datajournalisme (http://www.niemanlab.org/2014/07/alberto-cairo-data-journalism-needs-to-up-its-own-standards/). Tout en insistant sur la valeur ajoutée de ce domaine du journalisme web.
J'en retiens surtout une formule qui me semble très bien envoyée : "un chiffre sert à interroger, pas à affirmer".
C'est peut-être ce qu'il manque à pas mal d'articles de fact-checking : l'avis (éventuellement contradictoire) d'experts.
Cette interrogation de tiers spécialisée était d'ailleurs conseillée par l'excellent Alberto Cairo quand il a tiré à balles réelles sur le datajournalisme (http://www.niemanlab.org/2014/07/alberto-cairo-data-journalism-needs-to-up-its-own-standards/). Tout en insistant sur la valeur ajoutée de ce domaine du journalisme web.