Calculadora de Percentiles y Cuartiles
Datos de entrada
| Valores del conjunto de datos | 4, 8, 15, 16, 23, 42 |
|---|---|
| Percentil | 75 |
Resultados
| Valor en el percentil p | 21,25 |
|---|---|
| Q1 (percentil 25) | 9,75 |
| Q2 (mediana) | 15,5 |
| Q3 (percentil 75) | 21,25 |
| RIC (rango intercuartílico) | 11,5 |
Calculadora de Percentiles y Cuartiles
Calcula cualquier percentil, los cuartiles Q1, Q2 y Q3, y el rango intercuartílico a partir de una lista de datos separados por comas. Usa interpolación lineal (Método 7 de R, equivalente a PERCENTILE.INC de Excel).
Datos de entrada
Resultados
Cuartiles
Un percentil es el valor de un conjunto de datos por debajo del cual se sitúa un determinado porcentaje de observaciones. El percentil 75, por ejemplo, es el valor por debajo del cual, o en el cual, se encuentra el 75 % de los datos ordenados. Los cuartiles son los tres percentiles —Q1 (25), Q2 (50) y Q3 (75)— que dividen el conjunto en cuatro partes iguales. Esta calculadora obtiene cualquier percentil y los tres cuartiles a partir de una lista de números separados por comas, junto con el rango intercuartílico (RIC).
El método de interpolación lineal
Existen varias convenciones para calcular percentiles. Esta calculadora emplea el método de interpolación lineal inclusiva, denominado Método 7 en R e idéntico a la función PERCENTILE.INC de Excel y a numpy.percentile de Python con la interpolación linear por defecto.
El algoritmo sigue tres pasos:
- Ordenar los n valores de menor a mayor.
- Calcular el índice fraccionario: posición = (n − 1) × p / 100.
- Siendo lo = ⌊posición⌋ y hi = ⌈posición⌉, y frac = posición − lo, el percentil es ordenados[lo] + frac × (ordenados[hi] − ordenados[lo]).
Cuando la posición es un número entero, la fracción de interpolación es cero y el resultado coincide exactamente con el valor en esa posición. Para p = 0 el resultado es el mínimo; para p = 100, el máximo.
Ejemplo resuelto
Conjunto de datos: 4, 8, 15, 16, 23, 42 — seis valores ordenados de menor a mayor.
Q1 (p = 25): posición = (6 − 1) × 0,25 = 1,25. El valor en el índice 1 es 8; en el índice 2, 15. Q1 = 8 + 0,25 × (15 − 8) = 8 + 1,75 = 9,75.
Q2 / Mediana (p = 50): posición = 5 × 0,50 = 2,5. Valores en los índices 2 y 3: 15 y 16. Q2 = 15 + 0,5 × (16 − 15) = 15,5.
Q3 (p = 75): posición = 5 × 0,75 = 3,75. Valores en los índices 3 y 4: 16 y 23. Q3 = 16 + 0,75 × (23 − 16) = 16 + 5,25 = 21,25.
RIC = Q3 − Q1 = 21,25 − 9,75 = 11,5. La mitad central del conjunto abarca un rango de 11,5 unidades.
Para el percentil 10: posición = 5 × 0,10 = 0,5. Valores en los índices 0 y 1: 4 y 8. P10 = 4 + 0,5 × (8 − 4) = 6,0.
Los cuartiles y el diagrama de caja
El resumen de cinco números —mínimo, Q1, Q2, Q3 y máximo— es la base del diagrama de caja (también llamado gráfico de caja y bigotes). En un diagrama estándar, la caja se extiende de Q1 a Q3, la línea interior indica la mediana (Q2) y los bigotes llegan hasta los valores más extremos que aún se encuentren dentro de 1,5 × RIC desde los bordes de la caja.
Los valores fuera de los bigotes se señalan como valores atípicos. En el ejemplo, la valla inferior es Q1 − 1,5 × RIC = 9,75 − 17,25 = −7,5, y la valla superior es Q3 + 1,5 × RIC = 21,25 + 17,25 = 38,5. El valor 42 supera la valla superior y se clasificaría como valor atípico leve.
El RIC como medida robusta de dispersión
El rango intercuartílico es la medida de dispersión estadística robusta más utilizada. A diferencia de la desviación estándar, que eleva al cuadrado y suma todas las desviaciones respecto a la media, el RIC considera únicamente el 50 % central de los valores ordenados. Una observación extrema no altera Q1 ni Q3, por lo que el RIC es insensible a los valores atípicos.
Esta propiedad hace del RIC la medida de dispersión preferida en distribuciones asimétricas —ingresos por hogar, precios de vivienda, tiempos de espera en urgencias— donde la desviación estándar puede verse dominada por unos pocos valores extremos y ofrecer una imagen distorsionada de la variabilidad típica.
Distintas convenciones de percentiles
El lenguaje R documenta nueve métodos distintos para calcular percentiles, y varios campos científicos han establecido sus propias convenciones. Las principales diferencias surgen en el tratamiento de los índices fraccionarios y en si el percentil del valor mínimo (rango 1) se sitúa en el 0 % o en 1/n × 100 %.
- Método 7 (esta calculadora, R por defecto, Excel
PERCENTILE.INC, numpy por defecto): posición = (n − 1) × p/100. El mínimo corresponde a p = 0 y el máximo a p = 100. - Método 6 (Excel
PERCENTILE.EXC, SPSS por defecto): posición = n × p/100. El mínimo y el máximo no son percentiles alcanzables, por lo que el rango válido es de 1/(n+1) a n/(n+1). - Métodos 1–3: métodos de rango más cercano que devuelven un valor observado real en lugar de uno interpolado. El Método 1 (rango de techo) es la convención empleada en algunos libros de texto de estadística educativa.
Para conjuntos de datos con varios cientos de observaciones o más, todos los métodos convergen en resultados prácticamente idénticos. Las diferencias son más visibles en muestras pequeñas. Al comparar percentiles entre distintas herramientas de software, conviene verificar qué método utiliza cada una.
Relación con el puntaje Z
Un percentil es un rango puramente empírico: describe la posición de un valor dentro del conjunto de datos observado sin presuponer ninguna distribución concreta. El percentil 90 es simplemente el valor por debajo del cual, o en el cual, se encuentra el 90 % de los datos.
El puntaje Z, en cambio, mide cuántas desviaciones estándar se aleja un valor de la media, y resulta significativo principalmente cuando los datos siguen una distribución aproximadamente normal. Bajo una distribución normal perfecta, un puntaje Z de 1,28 corresponde al percentil 90. En un conjunto de datos muy asimétrico o bimodal, el mismo puntaje Z puede corresponder a un percentil empírico muy diferente.
Los percentiles son por tanto más apropiados cuando la distribución es desconocida o no normal, mientras que los puntajes Z se prefieren cuando la suposición de normalidad es razonable y se necesitan comparaciones independientes de la escala. La Calculadora de Puntaje Z computa ambas magnitudes a partir de la media y la desviación estándar.
Tamaño mínimo de muestra
El método de interpolación lineal requiere al menos dos datos. Con exactamente dos valores, los cuartiles se obtienen por interpolación en el único intervalo disponible, y todos los valores entre el mínimo y el máximo son percentiles alcanzables.
Para estimaciones de percentiles fiables en la práctica, es necesario contar con muestras más grandes. La incertidumbre de un percentil muestral es inversamente proporcional al tamaño de la muestra: el intervalo de confianza al 95 % para el percentil 90 de la población es sustancialmente más amplio con n = 20 que con n = 200.
Preguntas frecuentes (FAQ)
¿Qué método de cálculo de percentiles utiliza esta calculadora?
Esta calculadora aplica el método de interpolación lineal inclusiva, conocido como Método 7 en R, equivalente a la función PERCENTILE.INC de Excel (también PERCENTILE, que usa el mismo algoritmo por defecto). El rango del percentil p se sitúa en la posición (n − 1) × p/100 sobre los datos ordenados, y el resultado se obtiene interpolando entre los dos valores adyacentes.
Ejemplo: en un conjunto de 6 elementos [4, 8, 15, 16, 23, 42] para p = 25, la posición es 5 × 0,25 = 1,25. El resultado es el segundo valor (8) más 0,25 × (tercer valor − segundo valor) = 8 + 0,25 × 7 = 9,75.
Otros programas estadísticos pueden utilizar convenciones distintas (R contempla nueve métodos; numpy de Python usa también el Método 7 por defecto). Al comparar percentiles entre herramientas distintas, conviene verificar qué método emplea cada una.
¿Para qué se utiliza el rango intercuartílico?
El rango intercuartílico (RIC) mide la dispersión del 50 % central de un conjunto de datos mediante la diferencia Q3 − Q1. Tiene dos aplicaciones principales.
En primer lugar, es la base de la regla habitual de identificación de valores atípicos: cualquier valor situado a más de 1,5 × RIC por debajo de Q1 o por encima de Q3 se considera un valor atípico leve; los situados a más de 3 × RIC se consideran extremos. Esta regla la emplean programas de diagramas de caja como R, matplotlib de Python y Excel.
En segundo lugar, el RIC es una medida robusta de dispersión frente a valores atípicos. A diferencia de la desviación estándar, que es sensible a los valores extremos, el RIC solo considera los valores centrales, lo que lo hace adecuado para distribuciones asimétricas como ingresos, precios de vivienda o tiempos de espera.
¿Cómo dividen los cuartiles un conjunto de datos?
Los cuartiles dividen un conjunto de datos ordenados en cuatro partes iguales, cada una con el 25 % de los valores. Q1 (percentil 25) separa el cuarto inferior del resto. Q2 (percentil 50, o mediana) divide los datos por la mitad. Q3 (percentil 75) separa el cuarto superior del resto.
Cuando el número de datos es múltiplo exacto de cuatro, los cuartiles caen exactamente entre valores consecutivos. En los demás casos, el método de interpolación lineal produce valores fraccionarios que respetan los límites proporcionales. El RIC, igual a Q3 menos Q1, abarca los dos cuartiles centrales y es el resumen numérico de dispersión más habitual en el análisis exploratorio de datos.
¿Cuál es la diferencia entre un percentil y un puntaje Z?
Un percentil es una posición basada en el rango dentro del conjunto de datos real: indica qué fracción de los valores observados se encuentra por debajo de un punto determinado, sin asumir ninguna distribución concreta. El percentil 75 es el valor por debajo del cual se sitúa el 75 % de los datos.
El puntaje Z mide cuántas desviaciones estándar se aleja un valor concreto de la media, y presupone implícitamente que los datos siguen una distribución aproximadamente normal: un puntaje Z de 1 corresponde al percentil 84 bajo normalidad, pero puede corresponder a un rango muy diferente en una distribución asimétrica o bimodal.
Los percentiles son preferibles cuando la distribución es desconocida o no normal —por ejemplo, ingresos, calificaciones con techo o rangos de referencia médicos—. Los puntajes Z son preferibles cuando la suposición de normalidad es razonable y se necesitan comparaciones entre distintas escalas de medida.
Recomendaciones
Calculadora de Media, Mediana y Moda
Calcula media, mediana, moda y rango de un conjunto de datos numéricos. Introduce los valores separados por comas para obtener las cuatro medidas de tendencia central.