Mit dem Korrelationskoeffizienten ist meist Pearsons Korrelationskoeffizient gemeint, geschrieben als rr. Er misst die Richtung und Stärke eines linearen Zusammenhangs zwischen zwei numerischen Variablen.

Ist rr positiv, dann steigen die Variablen tendenziell gemeinsam. Ist rr negativ, dann sinkt die eine tendenziell, wenn die andere steigt. Liegt rr nahe bei 00, dann sagt Pearsons rr, dass es wenig lineares Muster gibt, aber nicht unbedingt gar keinen Zusammenhang.

Pearsons rr ist am nützlichsten, wenn die Daten paarweise vorliegen, beide Variablen numerisch sind und ein geradliniger Trend das Muster ist, das du zusammenfassen möchtest.

Was dir der Korrelationskoeffizient sagt

Pearsons rr ist ein standardisiertes Maß dafür, wie zwei Variablen gemeinsam variieren. Für eine Stichprobe gepaarter Daten lautet die Formel

r=i=1n(xixˉ)(yiyˉ)i=1n(xixˉ)2i=1n(yiyˉ)2r = \frac{\sum_{i=1}^n (x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\sum_{i=1}^n (x_i-\bar{x})^2 \sum_{i=1}^n (y_i-\bar{y})^2}}

Der Zähler ist positiv, wenn sich die Variablen tendenziell in dieselbe Richtung bewegen, und negativ, wenn sie sich tendenziell in entgegengesetzte Richtungen bewegen. Der Nenner skaliert diese gemeinsame Bewegung mithilfe der Streuung jeder Variablen.

Wenn Pearsons rr definiert ist, gilt immer

1r1-1 \le r \le 1

Wenn eine Variable überhaupt keine Variation hat, wird der Nenner zu 00, und dann ist Pearsons rr nicht definiert.

Wie man positive, negative und nahezu null Werte interpretiert

Beginne mit dem Vorzeichen:

  • r>0r > 0: positiver linearer Zusammenhang
  • r<0r < 0: negativer linearer Zusammenhang
  • r=0r = 0: kein linearer Zusammenhang

Betrachte dann den Betrag r|r|. Werte näher an 11 bedeuten, dass die Punkte näher an einem geradlinigen Muster liegen. Werte näher an 00 bedeuten, dass das lineare Muster schwächer ist.

Sei vorsichtig mit Bezeichnungen wie „schwach“, „moderat“ oder „stark“. Diese Grenzwerte hängen vom Kontext ab. In einem Fachgebiet kann r=0.3r = 0.3 wichtig sein. In einem anderen ist es vielleicht zu klein, um eine Entscheidung zu stützen.

Am sichersten ist es, rr zusammen mit einem Streudiagramm zu lesen. Die Zahl ist eine Zusammenfassung des Musters, das du siehst; sie sollte das Bild nicht ersetzen.

Durchgerechnetes Beispiel: Berechnung von r=0.9r = 0.9

Angenommen, die gepaarten Daten sind

(1,2), (2,3), (3,5), (4,4), (5,6)(1,2),\ (2,3),\ (3,5),\ (4,4),\ (5,6)

Berechne zuerst die Mittelwerte:

xˉ=1+2+3+4+55=3\bar{x} = \frac{1+2+3+4+5}{5} = 3 yˉ=2+3+5+4+65=4\bar{y} = \frac{2+3+5+4+6}{5} = 4

Liste nun die Abweichungen von den Mittelwerten auf:

  • Für xx: 2,1,0,1,2-2, -1, 0, 1, 2
  • Für yy: 2,1,1,0,2-2, -1, 1, 0, 2

Multipliziere die gepaarten Abweichungen und addiere:

(2)(2)+(1)(1)+(0)(1)+(1)(0)+(2)(2)=4+1+0+0+4=9(-2)(-2) + (-1)(-1) + (0)(1) + (1)(0) + (2)(2) = 4 + 1 + 0 + 0 + 4 = 9

Berechne nun die beiden Quadratsummensummen:

(xixˉ)2=4+1+0+1+4=10\sum (x_i-\bar{x})^2 = 4+1+0+1+4 = 10 (yiyˉ)2=4+1+1+0+4=10\sum (y_i-\bar{y})^2 = 4+1+1+0+4 = 10

Also gilt

r=91010=910=0.9r = \frac{9}{\sqrt{10 \cdot 10}} = \frac{9}{10} = 0.9

Das sagt dir, dass es in dieser Stichprobe einen starken positiven linearen Zusammenhang gibt. Wenn xx steigt, steigt meist auch yy, und die Punkte würden ziemlich nah an einer ansteigenden Geraden liegen.

Häufige Fehler bei der Interpretation von Korrelation

Korrelation als Kausalität behandeln

Eine hohe Korrelation beweist nicht, dass eine Variable die andere verursacht. Ein dritter Faktor kann beide beeinflussen, oder der Zusammenhang kann in den beobachteten Daten zufällig sein.

Vergessen, dass Pearsons rr linear ist

Pearsons rr misst nur lineare Zusammenhänge gut. Ein gekrümmter Zusammenhang kann eine kleine Korrelation ergeben, obwohl die Variablen klar zusammenhängen.

Ausreißer ignorieren

Ein einzelner ungewöhnlicher Punkt kann rr stark verändern. Wenn das Streudiagramm einen Ausreißer enthält, kann die Korrelation eine irreführende Geschichte über das Gesamtmuster erzählen.

Pearsons rr verwenden, wenn die Voraussetzungen nicht passen

Pearsons rr ist für gepaarte numerische Daten und lineare Zusammenhänge gedacht. Wenn eine Variable kategorial ist oder das Muster klar gekrümmt ist, beantwortet dieser Koeffizient möglicherweise nicht die Frage, die dich eigentlich interessiert.

Einen Wert nahe null überinterpretieren

Ein Wert nahe 00 bedeutet „wenig linearer Zusammenhang“, nicht „überhaupt kein Zusammenhang“.

Wann Pearsons Korrelationskoeffizient verwendet wird

Pearsons rr wird häufig in Statistik, Naturwissenschaften, Wirtschaft, Sozialforschung und maschinellem Lernen als schnelle Zusammenfassung gepaarter numerischer Daten verwendet. Besonders nützlich ist er, wenn du wissen möchtest, ob ein geradliniges Muster vorliegt, bevor du zu einem Modell wie der linearen Regression übergehst.

In der Praxis sollte ein Streudiagramm zuerst kommen. Der Koeffizient ist eine Zusammenfassung, kein Ersatz dafür, sich die Daten anzusehen.

Probiere eine ähnliche Aufgabe

Nimm einen kleinen Datensatz, den du bereits verstehst, zeichne die Punkte ein und schätze vor der Berechnung von rr, ob der Trend positiv, negativ oder unklar aussieht. Dieser schnelle Vergleich ist eine der besten Methoden, ein Gefühl dafür zu entwickeln, was der Korrelationskoeffizient tatsächlich aussagt.

Wenn du noch einen Schritt weitergehen möchtest, untersuche dieselben Daten mit einer einfachen linearen Regressionsgeraden. So lässt sich leichter erkennen, wie Korrelation und Vorhersage zusammenhängen, aber nicht identisch sind.

Brauchst du Hilfe bei einer Aufgabe?

Lade deine Frage hoch und erhalte in Sekunden eine verifizierte Schritt-für-Schritt-Lösung.

GPAI Solver öffnen →