Calcul de percentile et de quartiles
Données
| Valeurs | 4, 8, 15, 16, 23, 42 |
|---|---|
| Percentile | 75 |
Résultats
| Valeur au p-ième percentile | 21,25 |
|---|---|
| Q1 (25e percentile) | 9,75 |
| Q2 (Médiane) | 15,5 |
| Q3 (75e percentile) | 21,25 |
| Écart interquartile (EIQ) | 11,5 |
Calcul de percentile et de quartiles
Calculez un percentile quelconque, les quartiles (Q1, Q2, Q3) et l'écart interquartile à partir d'une série de données. Méthode d'interpolation linéaire (PERCENTILE.INC d'Excel, méthode 7 du NIST).
Données
Résultats
Quartiles
Un percentile est une valeur de la série en dessous de laquelle se situe un pourcentage donné des observations. Le 90e percentile d'une série correspond à la valeur que 90 % des données ne dépassent pas. Les quartiles sont les trois percentiles — Q1 (25e), Q2 (50e) et Q3 (75e) — qui divisent la série triée en quatre parts de taille égale. Ce calculateur détermine tout percentile et les trois quartiles pour une série de nombres séparés par des virgules (les décimales doivent être saisies avec un point, ex. : 4.5), ainsi que l'écart interquartile (EIQ).
Méthode de calcul : interpolation linéaire inclusive
Plusieurs conventions coexistent pour le calcul des percentiles. Ce calculateur applique la méthode d'interpolation linéaire inclusive, connue sous le nom de méthode 7 dans R. Elle est identique à la fonction PERCENTILE.INC d'Excel et à numpy.percentile de Python avec l'interpolation linear par défaut.
L'algorithme comprend trois étapes :
- Trier les n valeurs par ordre croissant.
- Calculer l'indice fractionnaire : position = (n − 1) × p / 100.
- Poser lo = ⌊position⌋ et hi = ⌈position⌉, et frac = position − lo. Le percentile vaut : valeur[lo] + frac × (valeur[hi] − valeur[lo]).
Lorsque la position est entière, la fraction d'interpolation est nulle et le résultat correspond exactement à la valeur observée à cet indice. Pour p = 0, le résultat est le minimum de la série ; pour p = 100, c'est le maximum.
Exemple de calcul
Prenons la série 4, 8, 15, 16, 23, 42 — six valeurs déjà triées par ordre croissant.
Q1 (p = 25) : position = (6 − 1) × 0,25 = 1,25. La valeur à l'indice 1 est 8 ; à l'indice 2, elle est 15. Q1 = 8 + 0,25 × (15 − 8) = 8 + 1,75 = 9,75.
Q2 / Médiane (p = 50) : position = 5 × 0,50 = 2,5. Les valeurs aux indices 2 et 3 sont 15 et 16. Q2 = 15 + 0,5 × (16 − 15) = 15,5.
Q3 (p = 75) : position = 5 × 0,75 = 3,75. Les valeurs aux indices 3 et 4 sont 16 et 23. Q3 = 16 + 0,75 × (23 − 16) = 16 + 5,25 = 21,25.
EIQ = Q3 − Q1 = 21,25 − 9,75 = 11,5. La moitié centrale de cette série s'étend sur une plage de 11,5 unités.
Pour le 10e percentile : position = 5 × 0,10 = 0,5. Les valeurs aux indices 0 et 1 sont 4 et 8. P10 = 4 + 0,5 × (8 − 4) = 6,0.
Quartiles et boîte à moustaches
Le résumé en cinq nombres — minimum, Q1, Q2, Q3 et maximum — est la base de la boîte à moustaches (box-and-whisker plot). Dans sa représentation standard, la boîte s'étend de Q1 à Q3, le trait intérieur marque la médiane (Q2), et les moustaches atteignent les valeurs les plus extrêmes qui restent dans un intervalle de 1,5 × EIQ à partir des bords de la boîte.
Les valeurs situées au-delà des moustaches sont qualifiées de valeurs aberrantes. Pour la série de l'exemple, la borne inférieure est Q1 − 1,5 × EIQ = 9,75 − 17,25 = −7,5 et la borne supérieure est Q3 + 1,5 × EIQ = 21,25 + 17,25 = 38,5. La valeur 42 dépasse la borne supérieure et serait donc signalée comme valeur atypique modérée.
L'écart interquartile comme mesure robuste de dispersion
L'écart interquartile est la mesure de dispersion statistique robuste la plus couramment utilisée. Contrairement à l'écart type, qui prend en compte chaque écart par rapport à la moyenne, l'EIQ ne porte que sur les 50 % centraux de la série triée. Une valeur extrême isolée ne modifie ni Q1 ni Q3 : l'EIQ est donc insensible aux valeurs aberrantes.
Cette propriété en fait la mesure de dispersion privilégiée pour les distributions asymétriques — revenus des ménages, prix de l'immobilier, délais d'attente hospitaliers — où l'écart type peut être dominé par quelques valeurs atypiques et donner une image trompeuse de la variabilité habituelle.
Comparaison des conventions de calcul
Le logiciel R recense neuf méthodes distinctes, et divers domaines scientifiques ont établi leurs propres conventions. Les différences portent principalement sur le traitement des indices fractionnaires et sur le rang attribué au minimum de la série.
| Méthode | Convention | Plage valide |
|---|---|---|
Méthode 7 (ce calculateur, R par défaut, PERCENTILE.INC d'Excel, numpy) | position = (n − 1) × p / 100 | 0 à 100 inclus |
Méthode 6 (PERCENTILE.EXC d'Excel, SPSS par défaut) | position = n × p / 100 | 1/(n+1) à n/(n+1) |
| Méthodes 1 à 3 | Rang entier le plus proche | Valeur observée, sans interpolation |
Pour des séries de plusieurs centaines de valeurs, toutes les méthodes convergent vers des résultats pratiquement identiques. Les différences sont les plus visibles sur de petits échantillons. Lorsque vous comparez des sorties entre logiciels, vérifiez quelle méthode chacun applique.
Relation avec le score z
Un percentile est une mesure purement empirique : il décrit la position d'une valeur dans la série observée sans supposer de loi de distribution. Le 90e percentile est simplement la valeur en dessous de laquelle se trouvent 90 % des données.
Un score z, en revanche, exprime l'écart d'une valeur à la moyenne en unités d'écarts types et n'est pleinement interprétable que si les données suivent approximativement une loi normale. Sous une distribution gaussienne parfaite, un score z de 1,28 correspond au 90e percentile. Dans une distribution fortement asymétrique ou multimodale, le même score z peut correspondre à un rang empirique très différent.
Les percentiles sont donc plus adaptés aux données dont la distribution est inconnue ou non normale, tandis que les scores z conviennent lorsque l'hypothèse de normalité est raisonnable et que des comparaisons sur des échelles de mesure différentes sont souhaitées.
Taille minimale de la série
La méthode d'interpolation linéaire requiert au moins deux valeurs. Avec exactement deux valeurs, les quartiles sont calculés par interpolation sur l'intervalle unique formé par les deux points, et tous les percentiles entre le minimum et le maximum sont accessibles.
En pratique, des estimations fiables nécessitent des séries plus importantes. L'incertitude d'un percentile calculé sur un échantillon est inversement liée à la taille de cet échantillon : l'intervalle de confiance à 95 % pour le vrai 90e percentile de la population est sensiblement plus large avec n = 20 qu'avec n = 200.
Questions fréquentes (FAQ)
Quelle méthode de calcul des percentiles est utilisée ?
Ce calculateur applique la méthode d'interpolation linéaire inclusive, connue sous le nom de méthode 7 dans R et équivalente à la fonction PERCENTILE.INC d'Excel (ainsi qu'à numpy.percentile en Python avec l'interpolation linéaire par défaut).
L'algorithme détermine la position fractionnaire du p-ième percentile par la formule (n − 1) × p / 100, puis interpole entre les deux valeurs triées encadrantes. Pour la série [4, 8, 15, 16, 23, 42] au rang p = 25, la position est 5 × 0,25 = 1,25. Le résultat est la 2e valeur (8) augmentée de 0,25 × (15 − 8) = 8 + 1,75 = 9,75.
D'autres logiciels peuvent employer des conventions différentes — R recense neuf méthodes distinctes. Lorsque vous comparez des résultats entre outils, vérifiez quelle méthode chacun applique.
À quoi sert l'écart interquartile ?
L'écart interquartile (EIQ) mesure la dispersion des 50 % centraux d'une série en calculant Q3 moins Q1. Il est couramment utilisé à deux fins.
Premièrement, il sert de base à la règle standard de détection des valeurs aberrantes : toute valeur inférieure à Q1 − 1,5 × EIQ ou supérieure à Q3 + 1,5 × EIQ est considérée comme une valeur atypique modérée ; au-delà de 3 × EIQ, elle est classée comme extrême. Cette règle est appliquée par défaut dans R, matplotlib (Python) et Excel pour la construction des boîtes à moustaches.
Deuxièmement, l'EIQ constitue une mesure robuste de la dispersion en présence de valeurs aberrantes. Contrairement à l'écart type, qui est sensible aux valeurs extrêmes, l'EIQ ne dépend que des deux quartiles et reste insensible aux valeurs en queue de distribution. Il est donc particulièrement adapté aux séries asymétriques telles que les revenus, les prix immobiliers ou les délais d'attente.
Comment les quartiles découpent-ils une série de données ?
Les quartiles partagent une série triée en quatre parties égales, chacune représentant 25 % des valeurs. Q1 (25e percentile) sépare le quart inférieur du reste. Q2 (50e percentile, ou médiane) divise la série en deux moitiés de même taille. Q3 (75e percentile) sépare le quart supérieur du reste.
Lorsque le nombre de valeurs est un multiple de quatre, les quartiles coïncident avec des valeurs observées. Dans les autres cas, la méthode d'interpolation linéaire produit des valeurs fractionnaires qui respectent les proportions. L'écart interquartile, défini par Q3 − Q1, couvre les deux quartiles centraux et constitue le résumé chiffré de la dispersion le plus fréquemment utilisé en analyse exploratoire.
Quelle différence entre un percentile et un score z ?
Un percentile est une position ordinale dans la série observée : il indique quelle fraction des valeurs est inférieure à un seuil donné, sans supposer de loi de distribution particulière. Le 75e percentile est simplement la valeur en dessous de laquelle se trouvent 75 % des données.
Un score z mesure l'écart d'une valeur à la moyenne en unités d'écarts types. Cette mesure n'est pleinement interprétable que si les données suivent approximativement une loi normale : sous une distribution gaussienne parfaite, un score z de 1 correspond au 84e percentile. Dans une distribution asymétrique ou multimodale, le même score z peut correspondre à un rang très différent.
Les percentiles sont préférables lorsque la distribution est inconnue ou non normale — revenus, résultats scolaires plafonnés, valeurs de référence médicales. Les scores z conviennent davantage lorsque l'hypothèse de normalité est raisonnable et que des comparaisons sur des échelles différentes sont nécessaires.
Recommandations
Calculatrice Moyenne, Médiane et Mode
Calculez la moyenne, la médiane, le mode et l'étendue d'un jeu de données. Entrez les nombres séparés par virgules pour obtenir les quatre mesures de tendance centrale.