Korrelationskoeffizient — Pearsons r & Interpretation

Mit dem Korrelationskoeffizienten ist meist Pearsons Korrelationskoeffizient gemeint, geschrieben als $r$ . Er misst die Richtung und Stärke eines linearen Zusammenhangs zwischen zwei numerischen Variablen.

Ist $r$ positiv, dann steigen die Variablen tendenziell gemeinsam. Ist $r$ negativ, dann sinkt die eine tendenziell, wenn die andere steigt. Liegt $r$ nahe bei $0$ , dann sagt Pearsons $r$ , dass es wenig lineares Muster gibt, aber nicht unbedingt gar keinen Zusammenhang.

Pearsons $r$ ist am nützlichsten, wenn die Daten paarweise vorliegen, beide Variablen numerisch sind und ein geradliniger Trend das Muster ist, das du zusammenfassen möchtest.

Was dir der Korrelationskoeffizient sagt

Pearsons $r$ ist ein standardisiertes Maß dafür, wie zwei Variablen gemeinsam variieren. Für eine Stichprobe gepaarter Daten lautet die Formel

r = \frac{\sum_{i=1}^n (x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\sum_{i=1}^n (x_i-\bar{x})^2 \sum_{i=1}^n (y_i-\bar{y})^2}}

Der Zähler ist positiv, wenn sich die Variablen tendenziell in dieselbe Richtung bewegen, und negativ, wenn sie sich tendenziell in entgegengesetzte Richtungen bewegen. Der Nenner skaliert diese gemeinsame Bewegung mithilfe der Streuung jeder Variablen.

Wenn Pearsons $r$ definiert ist, gilt immer

-1 \le r \le 1

Wenn eine Variable überhaupt keine Variation hat, wird der Nenner zu $0$ , und dann ist Pearsons $r$ nicht definiert.

Wie man positive, negative und nahezu null Werte interpretiert

Beginne mit dem Vorzeichen:

$r > 0$ : positiver linearer Zusammenhang
$r < 0$ : negativer linearer Zusammenhang
$r = 0$ : kein linearer Zusammenhang

Betrachte dann den Betrag $|r|$ . Werte näher an $1$ bedeuten, dass die Punkte näher an einem geradlinigen Muster liegen. Werte näher an $0$ bedeuten, dass das lineare Muster schwächer ist.

Sei vorsichtig mit Bezeichnungen wie „schwach“, „moderat“ oder „stark“. Diese Grenzwerte hängen vom Kontext ab. In einem Fachgebiet kann $r = 0.3$ wichtig sein. In einem anderen ist es vielleicht zu klein, um eine Entscheidung zu stützen.

Am sichersten ist es, $r$ zusammen mit einem Streudiagramm zu lesen. Die Zahl ist eine Zusammenfassung des Musters, das du siehst; sie sollte das Bild nicht ersetzen.

Durchgerechnetes Beispiel: Berechnung von $r = 0.9$

Angenommen, die gepaarten Daten sind

(1,2),\ (2,3),\ (3,5),\ (4,4),\ (5,6)

Berechne zuerst die Mittelwerte:

\bar{x} = \frac{1+2+3+4+5}{5} = 3

\bar{y} = \frac{2+3+5+4+6}{5} = 4

Liste nun die Abweichungen von den Mittelwerten auf:

Für $x$ : $-2, -1, 0, 1, 2$
Für $y$ : $-2, -1, 1, 0, 2$

Multipliziere die gepaarten Abweichungen und addiere:

(-2)(-2) + (-1)(-1) + (0)(1) + (1)(0) + (2)(2) = 4 + 1 + 0 + 0 + 4 = 9

Berechne nun die beiden Quadratsummensummen:

\sum (x_i-\bar{x})^2 = 4+1+0+1+4 = 10

\sum (y_i-\bar{y})^2 = 4+1+1+0+4 = 10

Also gilt

r = \frac{9}{\sqrt{10 \cdot 10}} = \frac{9}{10} = 0.9

Das sagt dir, dass es in dieser Stichprobe einen starken positiven linearen Zusammenhang gibt. Wenn $x$ steigt, steigt meist auch $y$ , und die Punkte würden ziemlich nah an einer ansteigenden Geraden liegen.

Häufige Fehler bei der Interpretation von Korrelation

Korrelation als Kausalität behandeln

Eine hohe Korrelation beweist nicht, dass eine Variable die andere verursacht. Ein dritter Faktor kann beide beeinflussen, oder der Zusammenhang kann in den beobachteten Daten zufällig sein.

Vergessen, dass Pearsons $r$ linear ist

Pearsons $r$ misst nur lineare Zusammenhänge gut. Ein gekrümmter Zusammenhang kann eine kleine Korrelation ergeben, obwohl die Variablen klar zusammenhängen.

Ausreißer ignorieren

Ein einzelner ungewöhnlicher Punkt kann $r$ stark verändern. Wenn das Streudiagramm einen Ausreißer enthält, kann die Korrelation eine irreführende Geschichte über das Gesamtmuster erzählen.

Pearsons $r$ verwenden, wenn die Voraussetzungen nicht passen

Pearsons $r$ ist für gepaarte numerische Daten und lineare Zusammenhänge gedacht. Wenn eine Variable kategorial ist oder das Muster klar gekrümmt ist, beantwortet dieser Koeffizient möglicherweise nicht die Frage, die dich eigentlich interessiert.

Einen Wert nahe null überinterpretieren

Ein Wert nahe $0$ bedeutet „wenig linearer Zusammenhang“, nicht „überhaupt kein Zusammenhang“.

Wann Pearsons Korrelationskoeffizient verwendet wird

Pearsons $r$ wird häufig in Statistik, Naturwissenschaften, Wirtschaft, Sozialforschung und maschinellem Lernen als schnelle Zusammenfassung gepaarter numerischer Daten verwendet. Besonders nützlich ist er, wenn du wissen möchtest, ob ein geradliniges Muster vorliegt, bevor du zu einem Modell wie der linearen Regression übergehst.

In der Praxis sollte ein Streudiagramm zuerst kommen. Der Koeffizient ist eine Zusammenfassung, kein Ersatz dafür, sich die Daten anzusehen.

Probiere eine ähnliche Aufgabe

Nimm einen kleinen Datensatz, den du bereits verstehst, zeichne die Punkte ein und schätze vor der Berechnung von $r$ , ob der Trend positiv, negativ oder unklar aussieht. Dieser schnelle Vergleich ist eine der besten Methoden, ein Gefühl dafür zu entwickeln, was der Korrelationskoeffizient tatsächlich aussagt.

Wenn du noch einen Schritt weitergehen möchtest, untersuche dieselben Daten mit einer einfachen linearen Regressionsgeraden. So lässt sich leichter erkennen, wie Korrelation und Vorhersage zusammenhängen, aber nicht identisch sind.

Häufig gestellte Fragen

Was misst der Korrelationskoeffizient?: Pearsons Korrelationskoeffizient $r$ misst die Richtung und Stärke eines linearen Zusammenhangs zwischen zwei numerischen Variablen.
Was bedeutet eine Korrelation von $0$?: Das bedeutet, dass Pearsons $r$ keinen linearen Zusammenhang erkennt. Es heißt nicht automatisch, dass überhaupt kein Zusammenhang besteht.
Bedeutet Korrelation Kausalität?: Nein. Auch eine große Korrelation zeigt für sich allein nicht, dass eine Variable die andere verursacht.

Brauchst du Hilfe bei einer Aufgabe?

Lade deine Frage hoch und erhalte in Sekunden eine verifizierte Schritt-für-Schritt-Lösung.

GPAI Solver öffnen →