Perzentil- und Quartilrechner
Eingaben
| Datenwerte | 4, 8, 15, 16, 23, 42 |
|---|---|
| Perzentil | 75 |
Ergebnisse
| Wert beim p-ten Perzentil | 21,25 |
|---|---|
| Q1 (25. Perzentil) | 9,75 |
| Q2 (Median) | 15,5 |
| Q3 (75. Perzentil) | 21,25 |
| IQR (Interquartilsabstand) | 11,5 |
Perzentil- und Quartilrechner
Beliebige Perzentile, Quartile (Q1, Q2, Q3) und den Interquartilsabstand aus kommagetrennten Datenwerten berechnen. Methode: lineare Interpolation nach NIST-Methode 7 (identisch mit Excel PERCENTILE.INC).
Eingaben
Ergebnisse
Quartile
Ein Perzentil gibt an, welcher Anteil der Datenwerte unterhalb eines bestimmten Wertes liegt. Das 75. Perzentil ist der Wert, unterhalb dessen 75 % der sortierten Daten fallen. Quartile sind die drei Perzentile — Q1 (25.), Q2 (50.) und Q3 (75.) — die einen Datensatz in vier gleich große Abschnitte teilen. Der Rechner ermittelt aus einer kommagetrennten Liste von Zahlen ein beliebiges Perzentil, alle drei Quartile sowie den Interquartilsabstand (IQR).
Berechnungsmethode: lineare Interpolation
Für die Berechnung von Perzentilen existieren verschiedene Konventionen. Dieser Rechner verwendet die inklusive lineare Interpolation (Methode 7 in R), die mit der Excel-Funktion PERCENTILE.INC und dem Standardverhalten von numpy.percentile in Python übereinstimmt.
Der Algorithmus umfasst drei Schritte:
- Die n Werte werden aufsteigend sortiert.
- Der Bruchrang wird berechnet: Position = (n − 1) × p / 100.
- Es sei lo = ⌊Position⌋ und hi = ⌈Position⌉, sowie frac = Position − lo. Das Perzentil ergibt sich als sortiert[lo] + frac × (sortiert[hi] − sortiert[lo]).
Ist die Position eine ganze Zahl, so entfällt die Interpolation und das Ergebnis entspricht genau dem Wert an dieser Stelle. Bei p = 0 ist das Ergebnis das Minimum, bei p = 100 das Maximum.
Rechenbeispiel
Gegeben sei der Datensatz 4, 8, 15, 16, 23, 42 — sechs Werte in aufsteigender Reihenfolge.
Q1 (p = 25): Position = (6 − 1) × 0,25 = 1,25. Wert an Stelle 1: 8; Wert an Stelle 2: 15. Q1 = 8 + 0,25 × (15 − 8) = 8 + 1,75 = 9,75.
Q2 / Median (p = 50): Position = 5 × 0,50 = 2,5. Werte an Stellen 2 und 3: 15 und 16. Q2 = 15 + 0,5 × (16 − 15) = 15,5.
Q3 (p = 75): Position = 5 × 0,75 = 3,75. Werte an Stellen 3 und 4: 16 und 23. Q3 = 16 + 0,75 × (23 − 16) = 16 + 5,25 = 21,25.
IQR = Q3 − Q1 = 21,25 − 9,75 = 11,5. Die mittlere Hälfte dieses Datensatzes umfasst eine Spannweite von 11,5 Einheiten.
Für das 10. Perzentil: Position = 5 × 0,10 = 0,5. Werte an Stellen 0 und 1: 4 und 8. P10 = 4 + 0,5 × (8 − 4) = 6,0.
Quartile und der Boxplot
Die Fünf-Punkte-Zusammenfassung — Minimum, Q1, Q2, Q3 und Maximum — bildet die Grundlage des Boxplots (auch Box-Whisker-Diagramm). Im Standardboxplot reicht die Box von Q1 bis Q3, die Linie innerhalb der Box markiert den Median (Q2), und die Antennen (Whisker) erstrecken sich bis zu den äußersten Werten, die noch innerhalb von 1,5 × IQR um die Boxgrenzen liegen.
Werte außerhalb der Antennen werden als Ausreißer gekennzeichnet. Im obigen Beispiel ergibt sich die untere Grenze als Q1 − 1,5 × IQR = 9,75 − 17,25 = −7,5 und die obere Grenze als Q3 + 1,5 × IQR = 21,25 + 17,25 = 38,5. Der Wert 42 überschreitet die obere Grenze und wäre im Boxplot als milder Ausreißer markiert.
IQR als robustes Streuungsmaß
Der Interquartilsabstand ist das gebräuchlichste robuste Maß für die statistische Streuung. Im Gegensatz zur Standardabweichung, bei der jede Abweichung vom Mittelwert quadriert und aufsummiert wird, berücksichtigt der IQR ausschließlich die mittleren 50 % der sortierten Werte. Ein einzelner Extremwert verändert weder Q1 noch Q3, sodass der IQR gegenüber Ausreißern unempfindlich bleibt.
Diese Eigenschaft macht den IQR zum bevorzugten Streuungsmaß bei schiefen Verteilungen — etwa bei Haushaltseinkommen, Immobilienpreisen oder Krankenhauswartezeiten —, bei denen die Standardabweichung durch wenige extreme Werte dominiert werden kann und ein verzerrtes Bild der typischen Variabilität vermittelt.
Verschiedene Perzentil-Konventionen
In R sind neun verschiedene Perzentilmethoden dokumentiert, und verschiedene wissenschaftliche Fachgebiete haben eigene Konventionen etabliert. Die wesentlichen Unterschiede betreffen den Umgang mit Bruchrängen sowie die Frage, ob dem Minimum der Rang 0 % oder 1/n × 100 % zugewiesen wird.
- Methode 7 (dieser Rechner, R-Standard, Excel
PERCENTILE.INC, numpy-Standard): Position = (n − 1) × p/100. Dem Minimum entspricht p = 0, dem Maximum p = 100. - Methode 6 (Excel
PERCENTILE.EXC, SPSS-Standard): Position = n × p/100. Minimum und Maximum sind als Perzentile nicht erreichbar; der gültige Bereich liegt zwischen 1/(n+1) und n/(n+1). - Methoden 1–3: Nächster-Rang-Methoden, die einen tatsächlich beobachteten Wert zurückgeben, ohne zu interpolieren. Methode 1 (Aufrunden) wird in einigen Lehrbüchern der deskriptiven Statistik verwendet.
Bei Datensätzen mit einigen Hundert oder mehr Beobachtungen liefern alle Methoden praktisch identische Ergebnisse. Unterschiede zeigen sich vor allem bei kleinen Stichproben. Bei einem softwareübergreifenden Vergleich von Perzentilwerten empfiehlt es sich, die jeweils verwendete Methode vorab zu klären.
Abgrenzung zum z-Wert
Ein Perzentil ist eine rein empirische Lagemaßzahl: Es beschreibt die Position eines Wertes innerhalb des vorliegenden Datensatzes, ohne eine bestimmte Verteilung vorauszusetzen. Das 90. Perzentil ist schlicht der Wert, unterhalb dessen 90 % der Daten liegen.
Ein z-Wert gibt hingegen an, um wie viele Standardabweichungen ein Wert vom Mittelwert abweicht, und ist vor allem dann aussagekräftig, wenn die Daten annähernd normalverteilt sind. Unter einer perfekten Normalverteilung entspricht ein z-Wert von 1,28 dem 90. Perzentil. Bei einer stark schiefen oder multimodalen Verteilung kann derselbe z-Wert einem deutlich anderen empirischen Perzentil entsprechen.
Perzentile sind daher vorzuziehen, wenn die Verteilungsform unbekannt oder nicht normal ist — beispielsweise bei Einkommen, Testergebnissen mit Deckeneffekt oder medizinischen Referenzwerten. z-Werte empfehlen sich, wenn die Normalverteilungsannahme vertretbar ist und skalenunabhängige Vergleiche benötigt werden.
Mindestanzahl an Datenpunkten
Die lineare Interpolationsmethode erfordert mindestens zwei Datenpunkte. Bei genau zwei Werten werden die Quartile durch Interpolation über das einzige Intervall berechnet, und alle Werte zwischen Minimum und Maximum sind als Perzentile erreichbar.
Für verlässliche Perzentilschätzungen in der Praxis sind größere Stichproben erforderlich. Die Unsicherheit einer Stichprobenperzentile nimmt mit wachsendem Stichprobenumfang ab: Das 95-%-Konfidenzintervall für das wahre 90. Perzentil der Grundgesamtheit ist bei n = 20 erheblich breiter als bei n = 200.
Häufig gestellte Fragen (FAQ)
Welche Berechnungsmethode für Perzentile wird verwendet?
Der Rechner verwendet die inklusive lineare Interpolation, in R als Methode 7 bezeichnet und identisch mit der Excel-Funktion PERCENTILE.INC sowie mit dem Standardverhalten von numpy.percentile in Python.
Der Algorithmus bestimmt den Rang des p-ten Perzentils als Position (n − 1) × p/100, wobei n die Anzahl der Datenpunkte ist, und interpoliert anschließend zwischen den beiden benachbarten sortierten Werten.
Beispiel: Im Datensatz [4, 8, 15, 16, 23, 42] mit n = 6 ergibt sich für p = 25 die Position 5 × 0,25 = 1,25. Q1 = Wert an Position 1 (= 8) plus 0,25 × (Wert an Position 2 − Wert an Position 1) = 8 + 0,25 × 7 = 9,75.
Andere Statistiksoftware kann abweichende Methoden verwenden — R dokumentiert neun verschiedene Varianten. Bei einem Vergleich von Ergebnissen verschiedener Programme empfiehlt es sich, die jeweils verwendete Methode vorab zu klären.
Wofür wird der Interquartilsabstand verwendet?
Der Interquartilsabstand (IQR) misst die Streuung der mittleren 50 % eines Datensatzes als Differenz Q3 − Q1. Er wird vor allem für zwei Zwecke eingesetzt.
Erstens bildet er die Grundlage der gebräuchlichen Ausreißerregel: Werte, die mehr als 1,5 × IQR unterhalb von Q1 oder oberhalb von Q3 liegen, gelten als milde Ausreißer; Werte jenseits von 3 × IQR außerhalb dieser Grenzen als extreme Ausreißer. Diese Regel wird von Box-Plot-Software in R, Python und Excel standardmäßig angewendet.
Zweitens ist der IQR ein robustes Streuungsmaß, das gegenüber Ausreißern unempfindlich ist. Im Gegensatz zur Standardabweichung, die jeden Wert in die Berechnung einbezieht, basiert der IQR ausschließlich auf den mittleren Werten. Dadurch eignet er sich besonders für schiefe Verteilungen wie Haushaltseinkommen, Immobilienpreise oder Wartezeiten.
Wie teilen Quartile einen Datensatz auf?
Quartile unterteilen einen sortierten Datensatz in vier gleich große Abschnitte, von denen jeder 25 % der Werte enthält. Q1 (25. Perzentil) trennt das unterste Viertel vom Rest. Q2 (50. Perzentil, Median) halbiert den Datensatz. Q3 (75. Perzentil) trennt das oberste Viertel vom Rest.
Bei Datensätzen, deren Größe kein Vielfaches von 4 ist, liefert die lineare Interpolation Zwischenwerte, die die proportionalen Grenzen korrekt widerspiegeln. Der Interquartilsabstand (IQR = Q3 − Q1) erfasst die mittleren zwei Quartile und ist in der explorativen Datenanalyse das am häufigsten verwendete summarische Streuungsmaß.
Worin unterscheiden sich Perzentil und z-Wert?
Ein Perzentil ist eine rangorientierte Lagemaßzahl innerhalb des tatsächlichen Datensatzes: Es gibt an, welcher Anteil der beobachteten Werte unterhalb eines bestimmten Punktes liegt — ohne Annahmen über die zugrundeliegende Verteilung. Das 75. Perzentil ist schlicht der Wert, unterhalb dessen 75 % der Daten fallen.
Ein z-Wert gibt hingegen an, um wie viele Standardabweichungen ein Wert vom Mittelwert abweicht, und ist aussagekräftig vor allem dann, wenn die Daten annähernd normalverteilt sind. Unter einer perfekten Normalverteilung entspricht ein z-Wert von 1,28 dem 90. Perzentil; bei einer schiefen oder multimodalen Verteilung kann derselbe z-Wert einem völlig anderen empirischen Perzentil entsprechen.
Perzentile sind daher vorzuziehen, wenn die Verteilungsform unbekannt oder nicht normal ist — etwa bei Einkommen, Testergebnissen mit Deckeneffekt oder medizinischen Referenzwerten. z-Werte empfehlen sich, wenn die Normalverteilungsannahme vertretbar ist und skalenunabhängige Vergleiche benötigt werden.
Weitere Empfehlungen
Mittelwert, Median und Modus Rechner
Mittelwert, Median, Modus und Spannweite aus beliebig vielen Werten berechnen. Kommagetrennte Zahlen eingeben – alle vier Lagemaße erscheinen.