Les données sont assez naturellement considérées comme objectives. Sauf que ce pétrole du début du XXIe siècle ne saurait être récolté sans un minimum de recul, sans quoi on pourra toujours affirmer quelque chose et son inverse à partir des mêmes chiffres.
Dans leur passionnant Doing Data Science, Rachel Schutt et Cathy O'Neil affirment que les données ne sont pas objectives, comme on le prétend assez naturellement. Elles mettent en garde contre ce mythe qui pourrait être largement conforté par l'avènement de Big Data.
Leur raisonnement, très clair et limpide, peut se résumer comme suit :
- même si les moyens de collecte de données augmentent en volume et en efficacité, il y a trop de paramètres à prendre en compte pour atteindre l'objectivité. Aucune machine, aussi puissante soit-elle, ne pourra jamais capter la complexité du monde dans son ensemble
- les données brutes ne servent absolument à rien. Il convient de les trier, de les visualiser, de les mettre en perspective. Or, le tri est un choix, et comme lorsque le journaliste choisit l'angle de son papier, ce choix est éminemment subjectif
Les deux auteures illustrent les risques d'une confiance aveugle en Big Data avec un exemple concret : le recrutement de talents via des algorithmes spécialisé dans les données.
L'un des effets pervers de ce cas est le suivant : à compétences égales, l'algorithme vous dira de préférer un homme à une femme, parce que cette dernière aura mis plus de temps à gravir les échelons et aura perçu son travail d'une moins bonne manière.
Sauf que le problème vient plus d'une attitude sexiste dans le monde de l'entreprise que des données "objectives" rattachées à la candidate...
On pourrait multiplier les exemples, mais arrêtons-nous sur un intéressant paradoxe de la statistique descriptive : pouvoir affirmer une chose et son contraire, en ayant toujours raison.
Exemple : les demandeurs d'asile en Europe
La statistique descriptive est jugée être ultra simple pour les profanes pour une raison : on part d'une observation assidue des chiffres, sans trop de traitements alambiqués comme dans l'inférentielle.
Pourtant, on peut très souvent affirmer une chose et son contraire à partir des mêmes chiffres. Prenons par exemple le tableau page 12 de ce doc trouvé sur EuroStat, et qui concerne les demandeurs d'asile en Europe.
A partir de données très basiques (nombre de demandes total, nombre de demandes acceptées, nombre de demandes refusées), on va successivement affirmer que la France accueille beaucoup et peu de réfugiés. En ayant à chaque fois raison :-).
La France accueille beaucoup de réfugiés
La carte suivante montre le nombre de demandeurs d'asile acceptés par plusieurs pays d'Europe. On voit que la France, sans être le pays qui accueille le plus (elle est 10e), est plutôt dans le peloton de tête :
On peut donc affirmer que la France est plutôt une terre d'accueil de réfugiés, et avoir parfaitement raison.
La France accueille peu de réfugiés
La carte suivante montre à présent, à partir des mêmes chiffres, le pourcentage de réfugiés acceptés par rapport au nombre total de demandes.
En rouge se trouvent les pays qui acceptent moins de 50% des demandes, en vert ceux qui en acceptent plus de 50% :
On vient d'affirmer l'exact inverse de ce que l'on disait avant et on a encore une fois raison, car la France se classe alors que comme le 6e pays le moins accueillant d'Europe. Comparer des carottes à des potirons
Les plus observateurs auront déjà remarqué un petit problème : l'Estonie se retrouve 2e pays le plus accueillant (plus de 66% de réfugiés acceptés) avec un total ridicule.
C'est d'autant plus frappant que ses 10 demandeurs d'asile ne représente qu'à peine 1% du total de la France, pourtant classé dans les pays moins accueillants (moins de 9% de demandes acceptées).
Sous prétexte d'utiliser des données "objectives", on peut affirmer une chose et son contraire en ayant toujours raison, et en croyant sincèrement avoir cloué le bec de l'autre partie.
Mais en réalité, c'est un peu comme si on comparait des carottes à des potirons en arguant le fait, recevable, que les deux sont des légumes de couleurs orange !
Assumer son angle
Beaucoup de visualisations de données que je vois ces derniers temps ne consistent qu'en une belle présentation de données, comme si elles pouvaient par enchantement livrer leurs secrets toutes seules.
Sans minimiser la performance technique et les efforts qu'il faut pour coder les plus belles, je trouve dommage de passer à côté d'une vraie analyse en assumant une part de subjectivité.
Dans le cas précédent, une seule des deux cartes ne livrerait qu'une partie du problème, elle le rendrait simpliste au lieu de le rendre simple, le but premier d'une visualisation de données.
Pour aller plus loin, on pourrait par exemple pointer le fait que ce sont les pays les plus peuplés d'Europe qui accueillent le plus de réfugiés, et ajouter qu'ils en refusent à la fois beaucoup parce qu'ils reçoivent un total conséquent de dossiers par rapport aux autres.
On pourrait également minimiser ces chiffres en les ramenant aux populations totales des pays et se rendre compte qu'ils sont franchement dérisoires, ou encore se pencher sur les critères de refus des dossiers.
Ce qu'une visualisation seule, aussi léchée soit-elle, ne pourra jamais faire.
Pour aller plus loin
La démonstration des cartes s'inspire en partie d'un chapitre du livre de Nicolas Gauvrit, Statistiques : méfiez-vous !.