Cartographie numérique : précis de discrétisation pour les nuls

Faire des cartes, c'est bien. Choisir judicieusement les plages de couleurs qui la font, c'est encore mieux ! Passage en revue des principales méthodes de discrétisation.

En géographie, on appelle "discrétisation" une méthode qui "rend discrètes" les données considérées. En gros, il faut trouver le meilleur compromis entre statistiques et géographie.

Pour cela, on découpe généralement sa carte en un certain nombre de "classes" dans lesquelles sont rangées des valeurs colorées avec une teinte unique.

Sauf qu'il y a différentes manières de discrétiser une carte, et qu'aucune d'entre elles n'est parfaite. Bien les connaître permet en revanche de se faire une rapide idée de celle qui est la plus judicieuse à appliquer.

Dans ce qui suit, on considérera le même jeu de données appliqué à 78 zones géographiques, à colorier en six classes.

Discrétisation en classes d'amplitude égale

Une des questions que l'on se pose le plus souvent quand on traite d'importants volumes de données est : que faire des valeurs extrêmes ?

On peut soit les considérer comme négligeables, voire parasitaires et ne pas les valoriser, ou bien articuler toute une histoire autour d'elles.

La discrétisation en classes d'amplitude égale, l'une des plus répandues, permet précisément de valoriser les valeurs extrêmes.

Pour obtenir l'amplitude type, on divise simplement l'étendue de l'échantillon (maximum-minimum) par le nombre de classes. Dans notre cas, la valeur maximale est de 19.88 et la minimale de 1.83, et notre amplitude sera donc de (20-2)/6=3.

La première classe ira donc de 2 à 5, la deuxième de 5 à 8, et ainsi de suite jusqu'à la dernière, de 17 à 20. Concrètement, ça nous donne ceci :

Avantages

ultra simple à réaliser
très courante, donc très facilement interprétable par le lectorat

Inconvénient

ce modèle est "idéal" pour des distributions uniformes et dans une moindre mesure symétriques, cas plutôt rares. Dans notre cas, la distribution est franchement dissymétrique, et ça se ressent dans les effectifs très déséquilibrés : la classe la plus élevée contient à peine quatre zones, tandis que la moins élevée en contient une grosse vingtaine.

Discrétisation avec moyenne et écart type

La moyenne et l'écart type sont deux mesures ultra courantes en statistique descriptive, mais qui ont le défaut d'être très sensibles aux valeurs extrêmes. Malgré tout, dans le cas où on compare plusieurs cartes, la moyenne et l'écart type peuvent entièrement se justifier.

Par exemple, remarquer qu'une même zone est systématiquement deux écarts types au-dessus de la moyenne peut amener un éclairage intéressant quand on analyse des données.

Dans notre cas, la moyenne et l'écart type sont de 8 et de 4, une fois arrondis. On aura donc une classe de 8 à 12 (un écart type au-dessus de la moyenne), une de 8 à 4 (un écart type en-dessous de la moyenne), puis une de 12 à 16, etc...

Avec cette méthode, la moyenne finira borne de classe si leur nombre est pair, et centre d'une classe si leur nombre est impair. Notre exemple s'adapte mal à un nombre pair, car la distribution est trop dispersée.

Autrement dit, on finirait par avoir une classe inutile, ce qui n'est pas le cas en passant à cinq classes, comme ici :

Avantages

méthode particulièrement taillée pour les comparaisons
elle est assez simple et intuitive à reproduire : il suffit d'utiliser deux options d'Excel ou de Calc et de construire ses classes à partir de la moyenne

Inconvénient

s'adapte mal aux distributions dissymétriques, dont les valeurs extrêmes tirent la moyenne vers le haut ou vers le bas. Dans notre cas, c'est plutôt la première tendance qui se produit

Discrétisation en progression géométrique

On peut du coup se demander : comment faire pour traiter correctement une distribution dissymétrique ?

Une des discrétisations très utilisées propose de traiter les classes de la distribution cartographiée comme les membres d'une suite géométrique.

Ce choix par de l'observation que les données produites dans la nature et dans nos sociétés ont tendance à mieux coller à un modèle multiplicatif qu'additif.

Un triste et récent exemple est le nombre de morts causés par le virus Ebola : la courbe des personnes décédées dans le temps ressemble diablement à une courbe exponentielle.

Pour revenir à la suite géométrique, sa raison s'obtient grâce à un logarithme (de préférence en base 10) : comme on part d'une distribution "log-normale", la conversion en logarithme nous donne une distribution normale (autrement dit : le Graal :-)).

Voici la formule de la raison, avec max la valeur maximale de la distribution et min la valeur minimale

raison = 10^((log(max)-log(min)/nombre de classes)

Appliquons-la concrètement à notre exemple. Avec un maximum de 19.88, un minimum de 1.83 et six classes à construire, on obtient :

log raison =(log(19.88)-log(1.83))/6

log raison = (1.30-0.26)/6

log raison = 0.17

donc raison = 10^0.17 =1.48 (en arrondissant à chaque fois)

On peut construire les classes comme suit : d'abord 1.83, puis 2.71 (1.831.48), puis 4.01 (2.711.48), etc jusqu'à la valeur maximale. Ce qui nous donne, en arrondissant, la carte suivante :

Avantage

cette méthode s'adapte très bien aux distributions dissymétriques, qui sont parmi celles que l'on rencontre le plus souvent

Inconvénients

pas très conseillée pour les comparaisons
pas la plus simple à mettre en oeuvre

Discrétisation avec seuils naturels

Cette expression est un peu ambigüe, puisque son application n'est pas franchement "naturelle".

La méthode des seuils naturels revient à décréter que les plus fortes discontinuités observées dans la distribution constituent des paliers marquants, qu'il convient donc de séparer en classes.

On peut utiliser un logiciel comme QGis pour trouver ses bornes de classes, ou bien les faire au doigt mouillé, comme ici :

Avantage

cette méthode est particulièrement conseillée quand on observe une distribution dont les zones ont leur dispersion caractéristique. Si on considère par exemple le taux de natalité dans le monde, il y aura un seuil de rupture entre les pays européens et africains, et établir des classes entre les deux se justifiera aisément

Inconvénients

méthode très aléatoire : à partir des mêmes données, différents logiciels ou personnes choisiront des classes différentes
pas idéale quand il s'agit de comparer

Discrétisation par quantiles

La discrétisation par quantiles est très simple à comprendre : elle attribue le même nombre d'unités géographiques aux classes de la carte.

Dans notre exemple, chaque classe aura exactement 13 zones, ce qui évitera les effectifs très inégaux observés dans la première discrétisation.

Voici, concrètement, le résultat :

Avantages

assez simple à réaliser
cette discrétisation est bien profilée pour dresser des cartes comparatives

Inconvénient

les valeurs extrêmes se retrouvent noyées avec des zones n'ayant pas forcément le même ordre de grandeur. Il n'y a donc que lorsqu'elles sont négligeables comme ici que l'on pourra se servir des quantiles. En revanche, dans un cas comme des comparaisons de populations régionales, il serait peu judicieux de mélanger l'Île-de-France avec d'autres régions...