Calcolo di Percentili e Quartili
Dati di input
| Valori del campione | 4, 8, 15, 16, 23, 42 |
|---|---|
| Percentile | 75 |
Risultati
| Valore al p° percentile | 21,25 |
|---|---|
| Q1 (25° percentile) | 9,75 |
| Q2 (Mediana) | 15,5 |
| Q3 (75° percentile) | 21,25 |
| SIQ (Scarto Interquartile) | 11,5 |
Calcolo di Percentili e Quartili
Calcola qualsiasi percentile, i quartili (Q1, Q2, Q3) e lo scarto interquartile da una serie di dati separati da virgole. Metodo di interpolazione lineare (PERCENTILE.INC di Excel / Metodo 7 NIST).
Dati di input
Risultati
Quartili
Un percentile è un valore del campione al di sotto del quale cade una determinata percentuale delle osservazioni. Il 75° percentile, ad esempio, è il valore al di sotto del quale si trova il 75% dei dati ordinati. I quartili sono i tre percentili — Q1 (25°), Q2 (50°) e Q3 (75°) — che suddividono il campione in quattro parti uguali. Questo calcolatore determina qualsiasi percentile e tutti e tre i quartili per un elenco di numeri separati da virgole, insieme allo scarto interquartile (SIQ).
Metodo di interpolazione lineare
Esistono diverse convenzioni per il calcolo dei percentili. Questo calcolatore adotta il metodo di interpolazione lineare inclusiva, denominato Metodo 7 in R e identico alla funzione PERCENTILE.INC di Excel e alla funzione numpy.percentile di Python con la modalità di interpolazione predefinita.
L'algoritmo si articola in tre passi:
- Ordinare gli valori in senso crescente.
- Calcolare l'indice frazionario: posizione .
- Siano e , con . Il percentile vale .
Quando la posizione è un numero intero, la frazione di interpolazione è zero e il risultato coincide esattamente con . Per il risultato è il valore minimo; per è il valore massimo.
Esempio di calcolo
Si consideri il campione 4, 8, 15, 16, 23, 42 — sei valori già ordinati in senso crescente.
Q1 (p = 25): posizione . Il valore all'indice 1 è 8; all'indice 2 è 15. Q1 .
Q2 / Mediana (p = 50): posizione . I valori agli indici 2 e 3 sono 15 e 16. Q2 .
Q3 (p = 75): posizione . I valori agli indici 3 e 4 sono 16 e 23. Q3 .
SIQ = Q3 − Q1 = 21,25 − 9,75 = 11,5. La metà centrale di questo campione si estende per 11,5 unità.
Per il 10° percentile: posizione . I valori agli indici 0 e 1 sono 4 e 8. P10 .
Quartili e diagramma a riquadro
Il riassunto in cinque numeri — valore minimo, Q1, Q2, Q3 e valore massimo — è la base del diagramma a riquadro (in inglese box plot, o diagramma a scatola e baffi). In un diagramma a riquadro standard il rettangolo si estende da Q1 a Q3, la linea interna indica la mediana (Q2), e i baffi arrivano ai valori estremi ancora compresi entro 1,5 × SIQ dai bordi del rettangolo.
I valori al di fuori dei baffi sono contrassegnati come valori anomali (outlier). Per il campione dell'esempio, il limite inferiore è Q1 − 1,5 × SIQ = 9,75 − 17,25 = −7,5 e il limite superiore è Q3 + 1,5 × SIQ = 21,25 + 17,25 = 38,5. Il valore 42 supera il limite superiore e verrebbe quindi classificato come valore anomalo lieve.
SIQ come misura robusta della dispersione
Lo scarto interquartile è la misura robusta di dispersione statistica più utilizzata. A differenza della deviazione standard, che eleva al quadrato e somma ogni scostamento dalla media, il SIQ considera esclusivamente il 50% centrale dei valori ordinati. Un singolo valore estremo non modifica Q1 né Q3, quindi il SIQ è insensibile ai valori anomali.
Questa proprietà rende il SIQ la misura di dispersione preferibile per le distribuzioni asimmetriche — redditi familiari, prezzi degli immobili, tempi di attesa in pronto soccorso — dove la deviazione standard può essere dominata da poche osservazioni estreme e fornire un quadro fuorviante della variabilità tipica.
Confronto tra convenzioni di calcolo
Il linguaggio R documenta nove metodi distinti per il calcolo dei percentili, e vari campi scientifici hanno stabilito proprie convenzioni. Le principali differenze riguardano la gestione degli indici frazionari e il modo in cui viene trattato il rango del valore minimo (0% o 1/n × 100%).
- Metodo 7 (questo calcolatore, impostazione predefinita di R,
PERCENTILE.INCdi Excel, numpy predefinito): posizione = (n − 1) × p/100. Assegna p = 0 al minimo e p = 100 al massimo. - Metodo 6 (
PERCENTILE.EXCdi Excel, impostazione predefinita di SPSS): posizione = n × p/100. Il minimo e il massimo non sono percentili raggiungibili; l'intervallo valido è da 1/(n+1) a n/(n+1). - Metodi 1–3: metodi basati sul rango più vicino che restituiscono un valore effettivamente osservato anziché uno interpolato. Il Metodo 1 (rango superiore) è la convenzione adottata da alcuni libri di testo di statistica descrittiva.
Per campioni di alcune centinaia di osservazioni o più, tutti i metodi convergono verso lo stesso risultato. Le differenze sono più visibili con campioni piccoli. Prima di confrontare output di percentili tra strumenti diversi, è opportuno verificare quale metodo ciascuno utilizza.
Relazione con il punteggio z
Il percentile è un rango puramente empirico: descrive la posizione di un valore all'interno del campione osservato senza assumere alcuna distribuzione. Il 90° percentile è semplicemente il valore al di sotto del quale cade il 90% dei dati.
Il punteggio z (z-score), al contrario, misura di quante deviazioni standard un valore si discosta dalla media ed è significativo principalmente quando i dati si distribuiscono in modo approssimativamente normale. Sotto una distribuzione perfettamente normale, un punteggio z di 1,28 corrisponde al 90° percentile. In una distribuzione fortemente asimmetrica o bimodale, lo stesso punteggio z può corrispondere a un percentile empirico molto diverso.
I percentili sono pertanto più appropriati per dati la cui distribuzione è sconosciuta o non normale, mentre i punteggi z sono preferibili quando l'ipotesi di normalità è ragionevole e sono necessari confronti indipendenti dalla scala di misura. Per un approfondimento sulla distribuzione normale, si rimanda al calcolatore della distribuzione normaleCalcolatore della distribuzione normale.
Dimensione minima del campione
Il metodo di interpolazione lineare richiede almeno due valori. Con esattamente due osservazioni, i quartili vengono calcolati per interpolazione sull'unico intervallo disponibile, e tutti i valori dal minimo al massimo sono percentili raggiungibili.
Per stime attendibili dei percentili nella pratica sono necessari campioni più ampi. L'incertezza nella stima di un percentile campionario diminuisce all'aumentare della dimensione del campione: un intervallo di confidenza al 95% per il vero 90° percentile della popolazione è sostanzialmente più ampio con n = 20 rispetto a n = 200.
Domande frequenti (FAQ)
Quale metodo di calcolo dei percentili viene utilizzato?
Questo calcolatore applica il metodo di interpolazione lineare inclusiva, noto come Metodo 7 in R e corrispondente alla funzione PERCENTILE.INC di Excel (equivalente anche a numpy.percentile di Python con l'interpolazione lineare predefinita). Il rango del p-esimo percentile è calcolato nella posizione (n − 1) × p/100, e il risultato viene interpolato tra i due valori ordinati adiacenti.
Ad esempio, per il campione [4, 8, 15, 16, 23, 42] con p = 25, la posizione è 5 × 0,25 = 1,25. Il risultato è il 2° valore (8) più 0,25 × (3° valore − 2° valore) = 8 + 0,25 × 7 = 9,75.
Altri software possono adottare convenzioni diverse (R ne supporta nove). Prima di confrontare risultati tra strumenti diversi è opportuno verificare quale metodo ciascuno utilizza.
A cosa serve lo scarto interquartile?
Lo scarto interquartile (SIQ, o IQR dall'inglese interquartile range) misura la dispersione del 50% centrale dei dati come differenza tra Q3 e Q1. Ha due principali impieghi statistici.
In primo luogo, costituisce la base della regola standard per l'identificazione dei valori anomali: un valore inferiore a Q1 − 1,5 × SIQ o superiore a Q3 + 1,5 × SIQ è classificato come valore anomalo lieve; oltre 3 × SIQ dai bordi del riquadro, il valore è considerato estremo. Questa regola è adottata dai principali software di analisi esplorativa dei dati.
In secondo luogo, il SIQ è una misura robusta della dispersione in presenza di valori anomali. A differenza della deviazione standard, che è sensibile ai valori estremi, il SIQ non è influenzato dai valori nelle code della distribuzione. È pertanto preferibile per distribuzioni asimmetriche, come quelle dei redditi, dei prezzi degli immobili o dei tempi di attesa.
Come i quartili suddividono i dati?
I quartili dividono un campione ordinato in quattro parti uguali, ciascuna contenente il 25% dei valori. Q1 (25° percentile) separa il quarto inferiore dal resto. Q2 (50° percentile, ovvero la mediana) divide i dati a metà. Q3 (75° percentile) separa il quarto superiore dal resto.
Quando il numero di osservazioni è un multiplo esatto di quattro, i quartili coincidono con valori osservati. Negli altri casi, il metodo di interpolazione lineare produce valori frazionari che rispettano i confini proporzionali tra le parti. Lo scarto interquartile (Q3 − Q1) copre i due quartili centrali ed è il riassunto numerico della dispersione più utilizzato nell'analisi esplorativa dei dati.
Qual è la differenza tra un percentile e un punteggio z?
Un percentile è una posizione di rango nel campione reale: indica quale frazione dei valori osservati è inferiore a un dato punto, senza ipotizzare alcuna distribuzione. Il 75° percentile è il valore al di sotto del quale si trova il 75% dei dati.
Un punteggio z (o z-score) misura di quante deviazioni standard un valore si discosta dalla media, ed è significativo principalmente quando i dati seguono una distribuzione approssimativamente normale: un punteggio z di 1 corrisponde all'84° percentile sotto la normalità, ma può corrispondere a un rango molto diverso in una distribuzione asimmetrica o bimodale.
I percentili sono preferibili quando la distribuzione è sconosciuta o non normale — ad esempio per i redditi, i punteggi dei test con un limite superiore o gli intervalli di riferimento clinici. I punteggi z sono preferibili quando l'ipotesi di normalità è ragionevole e si devono effettuare confronti tra scale di misura diverse.
Da provare dopo
Calcolatore di Media, Mediana e Moda
Calcola media, mediana, moda e campo di variazione da qualsiasi insieme di dati. Inserisci i numeri separati da virgola, i risultati appaiono.