Korrelationskoeffizient berechnen (Pearson r)
Pearson-Korrelationskoeffizient r und Bestimmtheitsmaß r² aus zwei Datenreihen berechnen. So ist auf einen Blick erkennbar, ob ein starker, mittlerer oder schwacher linearer Zusammenhang besteht.
Eingaben
Ergebnisse
Pearson-Korrelationskoeffizient
Der Pearson-Korrelationskoeffizient (r) ist eine dimensionslose Kennzahl zwischen −1 und +1, die Richtung und Stärke des linearen Zusammenhangs zwischen zwei numerischen Variablen beschreibt. Bei r = +1 liegen alle Datenpunkte exakt auf einer steigenden Geraden; bei r = −1 auf einer fallenden; bei r = 0 besteht kein linearer Zusammenhang. Das Bestimmtheitsmaß (r²) gibt darüber hinaus an, welcher Anteil der Varianz einer Variablen durch die andere linear erklärt wird.
Formel
Der Grundgedanke: Für jeden Datenpunkt wird die Abweichung von X vom X-Mittelwert mit der Abweichung von Y vom Y-Mittelwert multipliziert. Weichen beide in dieselbe Richtung ab, ist das Produkt positiv; weichen sie entgegengesetzt ab, ist es negativ. Diese Kreuzprodukte werden summiert und anschließend durch die Gesamtstreuung beider Variablen geteilt, um r auf den Bereich [−1, +1] zu normieren.
Dabei bezeichnen und die arithmetischen Mittelwerte der jeweiligen Datenreihe, und die einzelnen Messwerte und die Anzahl der Wertepaare. Der Nenner normiert auf die Gesamtstreuung beider Variablen, sodass r unabhängig von der Maßeinheit stets zwischen −1 und +1 liegt.
Rechenbeispiel
Anhand des Standarddatensatzes: X = [1, 2, 3, 4, 5] und Y = [2, 4, 5, 4, 5].
Schritt 1 — Mittelwerte berechnen.
Schritt 2 — Abweichungen und Kreuzprodukte bestimmen.
| i | xᵢ | xᵢ − x̄ | yᵢ | yᵢ − ȳ | (xᵢ−x̄)(yᵢ−ȳ) | (xᵢ−x̄)² | (yᵢ−ȳ)² |
|---|---|---|---|---|---|---|---|
| 1 | 1 | −2 | 2 | −2 | 4 | 4 | 4 |
| 2 | 2 | −1 | 4 | 0 | 0 | 1 | 0 |
| 3 | 3 | 0 | 5 | +1 | 0 | 0 | 1 |
| 4 | 4 | +1 | 4 | 0 | 0 | 1 | 0 |
| 5 | 5 | +2 | 5 | +1 | 2 | 4 | 1 |
| Σ | 6 | 10 | 6 |
Schritt 3 — Formel anwenden.
Interpretation: r ≈ 0,77 — ein starker positiver Zusammenhang. Rund 60 % der Streuung in Y lässt sich durch den linearen Trend mit X erklären.
Wertebereich und Interpretation
| r-Wert | Bedeutung |
|---|---|
| +1,0 | Perfekt positiver linearer Zusammenhang |
| +0,7 bis +0,99 | Stark positiv |
| +0,3 bis +0,69 | Mittel positiv |
| −0,29 bis +0,29 | Schwach oder kein linearer Zusammenhang |
| −0,3 bis −0,69 | Mittel negativ |
| −0,7 bis −0,99 | Stark negativ |
| −1,0 | Perfekt negativer linearer Zusammenhang |
Diese Grenzen sind Orientierungswerte, keine starren Regeln. In der Epidemiologie kann r = 0,3 praktisch bedeutsam sein; in der Messtechnik ist r < 0,99 häufig bereits ein Zeichen für inakzeptables Rauschen.
r vs. r²
r und r² beantworten unterschiedliche Fragen:
- r gibt Richtung und Stärke des linearen Zusammenhangs an. −0,9 ist genauso stark wie +0,9; das Vorzeichen zeigt lediglich, in welche Richtung der Trend verläuft.
- r² (Bestimmtheitsmaß) gibt den Anteil der Varianz von Y an, der durch X erklärt wird. Es liegt zwischen 0 und 1 und hat kein Vorzeichen. r² = 0,64 bedeutet: 64 % der Streuung in Y lassen sich auf den linearen Trend mit X zurückführen.
Wer nur wissen möchte, wie eng der lineare Zusammenhang ist, nimmt r. Wer quantifizieren möchte, wie viel Erklärungskraft X für Y hat, nimmt r².
Korrelation und Kausalität
Ein hoher r-Wert bedeutet nur, dass X und Y sich gemeinsam linear verändern — nicht warum. Klassische Beispiele:
- Eisverkauf und Badeunfälle steigen beide im Sommer (gemeinsame Ursache: Hitze).
- Schuhgröße und Leseleistung bei Kindern korrelieren positiv (gemeinsame Ursache: Alter).
- Länder mit höherem BIP pro Kopf haben eine längere Lebenserwartung — beides spiegelt allgemeinen Wohlstand wider, nicht eine direkte Ursache-Wirkung-Beziehung.
Kausalität lässt sich nur durch kontrollierte Experimente, zeitliche Abfolge (Ursache geht Wirkung voraus) und den Ausschluss von Störvariablen nachweisen.
Voraussetzungen und Grenzen
Pearson r setzt voraus:
- Beide Variablen sind stetig (Intervall- oder Verhältnisskala).
- Der Zusammenhang ist annähernd linear.
- Keine extremen Ausreißer dominieren die Summe.
Wenn diese Voraussetzungen nicht erfüllt sind, empfiehlt sich die Spearman-Rangkorrelation: Beide Datenreihen werden zunächst in Ränge umgewandelt, dann wird Pearson r auf den Rängen berechnet. Spearman ist robuster gegenüber Ausreißern, funktioniert mit ordinalen Daten und erfasst auch monotone, aber nicht-lineare Zusammenhänge zuverlässig. Faustregel: Zeigt das Streudiagramm ein gleichmäßig gebogenes Muster, oder sitzen ein, zwei Punkte weit abseits der anderen, ist Spearman die sicherere Wahl.
Häufig gestellte Fragen (FAQ)
Was bedeutet r = 0,7?
Ein r von 0,7 zeigt einen starken positiven linearen Zusammenhang zwischen X und Y. Mit steigendem X steigt Y ebenfalls, und die Punkte liegen eng um eine Gerade. Als Faustregel gilt: |r| ≥ 0,7 = stark, 0,3 ≤ |r| < 0,7 = mittel, |r| < 0,3 = schwach. Die genauen Grenzen sind aber fachabhängig: In den Sozialwissenschaften gilt r = 0,5 oft bereits als stark, in den Ingenieurwissenschaften kann r < 0,99 auf erhebliche Streuung hinweisen.
Beweist eine hohe Korrelation eine Kausalität?
Nein. Ein hoher r-Wert bedeutet lediglich, dass X und Y sich gemeinsam linear verändern — nicht warum. Eine dritte Variable (Konfundierungsvariable) kann beide gleichzeitig beeinflussen. Eisverkauf und Ertrinkungsunfälle korrelieren stark, weil beide im Sommer zunehmen — Eis ist natürlich nicht die Ursache.
Kausalität erfordert ein kontrolliertes Experiment, eine zeitliche Abfolge (Ursache vor Wirkung) und den Ausschluss von Störvariablen. Korrelation ist ein Hinweis auf einen Zusammenhang, nicht seine Erklärung.
Was ist der Unterschied zwischen r und r²?
r (Pearson-Korrelationskoeffizient) misst Richtung und Stärke des linearen Zusammenhangs und liegt zwischen −1 (perfekt negativ) und +1 (perfekt positiv). r² (Bestimmtheitsmaß) gibt an, welcher Anteil der Varianz von Y durch X erklärt wird.
Beispiel: r = 0,8 ergibt r² = 0,64 — 64 % der Streuung in Y lässt sich durch den linearen Trend mit X erklären. r² ist immer nicht-negativ und als Prozentwert leicht zu interpretieren, enthält aber keine Vorzeichen-Information: Aus r² allein lässt sich nicht ablesen, ob der Zusammenhang positiv oder negativ ist.
Wann sollte ich Spearman statt Pearson verwenden?
Die Spearman-Rangkorrelation ist besser geeignet, wenn die Daten ordinal (Rangkategorien) sind, wenn der Zusammenhang zwischen X und Y monoton, aber nicht linear ist, oder wenn Ausreißer die Analyse verzerren würden. Spearman wandelt die Rohwerte zunächst in Ränge um und ist dadurch robust gegenüber Extremwerten und nicht-linearen, aber konsistent steigenden (oder fallenden) Mustern.
Pearson ist optimal, wenn beide Variablen stetig und annähernd normalverteilt sind und ein linearer Zusammenhang zugrunde liegt. Faustregel: Zeigt das Streudiagramm ein gleichmäßig gebogenes Muster oder dominieren einzelne Ausreißer den r-Wert, lieber Spearman verwenden.
Weitere Empfehlungen
Varianz und Standardabweichung berechnen
Varianz und Standardabweichung aus kommaseparierten Messwerten berechnen — wahlweise mit Stichproben- oder Grundgesamtheitsformel.
Deskriptive Statistik Rechner
Berechnet Mittelwert, Varianz, Standardabweichung und Spannweite für bis zu 8 Messwerte — jeweils als Populations- und Stichprobenkennwert.