Mit dem Korrelationskoeffizienten ist meist Pearsons Korrelationskoeffizient gemeint, geschrieben als . Er misst die Richtung und Stärke eines linearen Zusammenhangs zwischen zwei numerischen Variablen.
Ist positiv, dann steigen die Variablen tendenziell gemeinsam. Ist negativ, dann sinkt die eine tendenziell, wenn die andere steigt. Liegt nahe bei , dann sagt Pearsons , dass es wenig lineares Muster gibt, aber nicht unbedingt gar keinen Zusammenhang.
Pearsons ist am nützlichsten, wenn die Daten paarweise vorliegen, beide Variablen numerisch sind und ein geradliniger Trend das Muster ist, das du zusammenfassen möchtest.
Was dir der Korrelationskoeffizient sagt
Pearsons ist ein standardisiertes Maß dafür, wie zwei Variablen gemeinsam variieren. Für eine Stichprobe gepaarter Daten lautet die Formel
Der Zähler ist positiv, wenn sich die Variablen tendenziell in dieselbe Richtung bewegen, und negativ, wenn sie sich tendenziell in entgegengesetzte Richtungen bewegen. Der Nenner skaliert diese gemeinsame Bewegung mithilfe der Streuung jeder Variablen.
Wenn Pearsons definiert ist, gilt immer
Wenn eine Variable überhaupt keine Variation hat, wird der Nenner zu , und dann ist Pearsons nicht definiert.
Wie man positive, negative und nahezu null Werte interpretiert
Beginne mit dem Vorzeichen:
- : positiver linearer Zusammenhang
- : negativer linearer Zusammenhang
- : kein linearer Zusammenhang
Betrachte dann den Betrag . Werte näher an bedeuten, dass die Punkte näher an einem geradlinigen Muster liegen. Werte näher an bedeuten, dass das lineare Muster schwächer ist.
Sei vorsichtig mit Bezeichnungen wie „schwach“, „moderat“ oder „stark“. Diese Grenzwerte hängen vom Kontext ab. In einem Fachgebiet kann wichtig sein. In einem anderen ist es vielleicht zu klein, um eine Entscheidung zu stützen.
Am sichersten ist es, zusammen mit einem Streudiagramm zu lesen. Die Zahl ist eine Zusammenfassung des Musters, das du siehst; sie sollte das Bild nicht ersetzen.
Durchgerechnetes Beispiel: Berechnung von
Angenommen, die gepaarten Daten sind
Berechne zuerst die Mittelwerte:
Liste nun die Abweichungen von den Mittelwerten auf:
- Für :
- Für :
Multipliziere die gepaarten Abweichungen und addiere:
Berechne nun die beiden Quadratsummensummen:
Also gilt
Das sagt dir, dass es in dieser Stichprobe einen starken positiven linearen Zusammenhang gibt. Wenn steigt, steigt meist auch , und die Punkte würden ziemlich nah an einer ansteigenden Geraden liegen.
Häufige Fehler bei der Interpretation von Korrelation
Korrelation als Kausalität behandeln
Eine hohe Korrelation beweist nicht, dass eine Variable die andere verursacht. Ein dritter Faktor kann beide beeinflussen, oder der Zusammenhang kann in den beobachteten Daten zufällig sein.
Vergessen, dass Pearsons linear ist
Pearsons misst nur lineare Zusammenhänge gut. Ein gekrümmter Zusammenhang kann eine kleine Korrelation ergeben, obwohl die Variablen klar zusammenhängen.
Ausreißer ignorieren
Ein einzelner ungewöhnlicher Punkt kann stark verändern. Wenn das Streudiagramm einen Ausreißer enthält, kann die Korrelation eine irreführende Geschichte über das Gesamtmuster erzählen.
Pearsons verwenden, wenn die Voraussetzungen nicht passen
Pearsons ist für gepaarte numerische Daten und lineare Zusammenhänge gedacht. Wenn eine Variable kategorial ist oder das Muster klar gekrümmt ist, beantwortet dieser Koeffizient möglicherweise nicht die Frage, die dich eigentlich interessiert.
Einen Wert nahe null überinterpretieren
Ein Wert nahe bedeutet „wenig linearer Zusammenhang“, nicht „überhaupt kein Zusammenhang“.
Wann Pearsons Korrelationskoeffizient verwendet wird
Pearsons wird häufig in Statistik, Naturwissenschaften, Wirtschaft, Sozialforschung und maschinellem Lernen als schnelle Zusammenfassung gepaarter numerischer Daten verwendet. Besonders nützlich ist er, wenn du wissen möchtest, ob ein geradliniges Muster vorliegt, bevor du zu einem Modell wie der linearen Regression übergehst.
In der Praxis sollte ein Streudiagramm zuerst kommen. Der Koeffizient ist eine Zusammenfassung, kein Ersatz dafür, sich die Daten anzusehen.
Probiere eine ähnliche Aufgabe
Nimm einen kleinen Datensatz, den du bereits verstehst, zeichne die Punkte ein und schätze vor der Berechnung von , ob der Trend positiv, negativ oder unklar aussieht. Dieser schnelle Vergleich ist eine der besten Methoden, ein Gefühl dafür zu entwickeln, was der Korrelationskoeffizient tatsächlich aussagt.
Wenn du noch einen Schritt weitergehen möchtest, untersuche dieselben Daten mit einer einfachen linearen Regressionsgeraden. So lässt sich leichter erkennen, wie Korrelation und Vorhersage zusammenhängen, aber nicht identisch sind.
Brauchst du Hilfe bei einer Aufgabe?
Lade deine Frage hoch und erhalte in Sekunden eine verifizierte Schritt-für-Schritt-Lösung.
GPAI Solver öffnen →