Was ist die kumulierte Häufigkeit?

Die kumulierte Häufigkeit ist die fortlaufende Summe der Häufigkeiten. Sie zeigt also, wie viele Beobachtungen bei oder unter einem bestimmten Wert oder einer Klassengrenze liegen.

Was ist eine Summenkurve?

Eine Summenkurve ist ein Diagramm der kumulierten Häufigkeit gegen Werte oder Klassengrenzen. Sie wird häufig verwendet, um Median, Quartile und Perzentile abzulesen.

Kann man aus gruppierten Daten exakte Perzentile bestimmen?

Meistens nur näherungsweise. Eine Schätzung innerhalb einer Klasse hängt von einer Interpolationsannahme ab, bei der angenommen wird, dass die Werte in dieser Klasse relativ gleichmäßig verteilt sind.

Kumulierte Häufigkeit — Summenkurve & Perzentile

Die kumulierte Häufigkeit ist die fortlaufende Summe in einer Häufigkeitstabelle. Sie zeigt, wie viele Beobachtungen bei oder unter einem Wert oder einer Klassengrenze liegen. Deshalb ist sie nützlich, um Median, Quartile und Perzentile zu bestimmen.

Eine Summenkurve ist die grafische Darstellung dieser laufenden Summe. Wenn du Tabelle und Graph zusammen lesen kannst, werden Aufgaben mit gruppierten Daten viel einfacher.

Definition der kumulierten Häufigkeit

Wenn die Klassenhäufigkeiten $f_1, f_2, \dots, f_k$ sind, dann ist die kumulierte Häufigkeit bis zur Klasse $k$

F_k = f_1 + f_2 + \cdots + f_k

Jede Zeile fügt dem Gesamtwert eine weitere Klasse hinzu. Wenn die kumulierte Häufigkeit am Ende einer Klasse $28$ beträgt, dann liegen $28$ Beobachtungen in dieser Klasse oder darunter.

Bei ungruppierten Daten ist die kumulierte Häufigkeit einfach eine fortlaufende Zählung. Bei gruppierten Daten ist sie eine fortlaufende Zählung nach Klassenintervallen.

Wie eine Summenkurve beim Ablesen von Perzentilen hilft

Eine Summenkurve trägt die kumulierte Häufigkeit gegen Klassengrenzen auf. Bei gruppierten stetigen Daten trägt man normalerweise ein:

die obere Klassengrenze auf der horizontalen Achse
die kumulierte Häufigkeit auf der vertikalen Achse

Dann verbindet man die Punkte mit einer glatten oder stückweisen Linie. Die Kurve steigt an, weil die kumulierte Häufigkeit nie abnimmt.

Der wichtigste Nutzen einer Summenkurve ist das Ablesen von Positionen in einem geordneten Datensatz. Wenn die Gesamthäufigkeit $N$ ist, dann gilt:

der Median liegt ungefähr beim $N/2$ -ten Wert
das erste Quartil liegt ungefähr beim $N/4$ -ten Wert
das dritte Quartil liegt ungefähr beim $3N/4$ -ten Wert
das $p$ -te Perzentil liegt ungefähr beim $(p/100)N$ -ten Wert

Im Diagramm startest du bei dieser vertikalen Position, gehst waagrecht zur Summenkurve und dann senkrecht nach unten zur horizontalen Achse, um den Wert zu schätzen.

Durchgerechnetes Beispiel: Median und 75. Perzentil

Angenommen, die Testergebnisse von $40$ Schülerinnen und Schülern sind so gruppiert:

Punktzahl	Häufigkeit	Kumulierte Häufigkeit
0-10	$2$	$2$
10-20	$5$	$7$
20-30	$9$	$16$
30-40	$12$	$28$
40-50	$8$	$36$
50-60	$4$	$40$

Die Gesamthäufigkeit ist $N = 40$ .

Bestimme den Median aus der Tabelle

Der Median ist der $N/2 = 20$ -te Wert.

Betrachte die kumulierten Häufigkeiten:

bis 20-30 beträgt die Summe $16$
bis 30-40 beträgt die Summe $28$

Also liegt der $20$ -te Wert in der Klasse $30$ - $40$ .

Wenn du eine Schätzung für gruppierte Daten möchtest, verwende Interpolation nur dann, wenn es sinnvoll ist anzunehmen, dass die Werte in dieser Klasse ziemlich gleichmäßig verteilt sind. Dann gilt

\text{median} \approx L + \frac{N/2 - F_{\text{before}}}{f} \cdot w

Hier ist:

$L = 30$ die untere Grenze der Klasse
$F_{\text{before}} = 16$ die kumulierte Häufigkeit vor dieser Klasse
$f = 12$ die Klassenhäufigkeit
$w = 10$ die Klassenbreite

Also

\text{median} \approx 30 + \frac{20 - 16}{12} \cdot 10 = 30 + \frac{40}{12} \approx 33.3

Diese Schätzung ist nicht exakt. Sie hängt von der Annahme ab, dass die Werte innerhalb der Klasse $30$ - $40$ relativ gleichmäßig verteilt sind.

Schätze das 75. Perzentil

Das $75$ -te Perzentil ist der $(75/100) \cdot 40 = 30$ -te Wert.

Aus den kumulierten Häufigkeiten:

bis 30-40 beträgt die Summe $28$
bis 40-50 beträgt die Summe $36$

Also liegt der $30$ -te Wert in der Klasse $40$ - $50$ .

Mit derselben Interpolationsidee gilt

P_{75} \approx 40 + \frac{30 - 28}{8} \cdot 10 = 42.5

In einer Summenkurve würdest du auf der Achse der kumulierten Häufigkeit die $30$ markieren, waagrecht zur Kurve gehen und dann auf der Punktzahlachse etwa $42.5$ ablesen.

Häufige Fehler bei der kumulierten Häufigkeit

Häufigkeit und kumulierte Häufigkeit verwechseln

Die Häufigkeit sagt dir, wie viele Beobachtungen in einer einzelnen Klasse liegen. Die kumulierte Häufigkeit sagt dir, wie viele Beobachtungen in dieser Klasse und in allen vorherigen Klassen zusammen liegen.

Die falsche Position verwenden

Für den Median oder ein Perzentil ergibt sich die Position aus der Gesamthäufigkeit $N$ . Wenn du die falsche Gesamthäufigkeit verwendest, ist jeder spätere Schritt ebenfalls falsch.

Gruppierte Schätzungen als exakt behandeln

Eine Summenkurve oder Interpolation liefert eine Schätzung innerhalb einer Klasse, keinen exakten ursprünglichen Datenwert. Diese Schätzung hängt davon ab, wie die Daten innerhalb des Intervalls verteilt sind.

Die falschen horizontalen Werte eintragen

Bei gruppierten Daten werden Summenkurven normalerweise gegen Klassengrenzen aufgetragen, besonders gegen obere Klassengrenzen. Wenn du stattdessen Klassenmitten verwendest, ändert sich die Bedeutung.

Wann die kumulierte Häufigkeit verwendet wird

Die kumulierte Häufigkeit wird immer dann verwendet, wenn du die geordnete Position in einem Datensatz brauchst und nicht nur die Anzahl pro Klasse. Dazu gehören Zusammenfassungen von Prüfungsergebnissen, Einkommensverteilungen, Daten aus der Qualitätskontrolle und jede Situation, in der Perzentile oder Mediane wichtiger sind als einzelne Klassenhäufigkeiten.

Sie ist besonders nützlich, wenn die Rohdaten sehr umfangreich sind und eine gruppierte Tabelle leichter zu lesen ist als eine lange Liste von Beobachtungen.

Probiere eine ähnliche Aufgabe zur kumulierten Häufigkeit

Nimm eine beliebige kleine gruppierte Tabelle und ergänze eine Spalte für die kumulierte Häufigkeit, bevor du eine Summenkurve zeichnest. Lies dann den Median und ein Perzentil aus dem Diagramm ab und vergleiche sie mit der Schätzung aus der Tabelle.

Wenn du noch eine zusätzliche Kontrolle möchtest, versuche deine eigene Version mit $N = 50$ und frage dich, in welche Klassen der $20$ -te, $25$ -te und $45$ -te Wert fallen würden. Das ist eine einfache Möglichkeit, die Idee wirklich zu verinnerlichen.

Brauchst du Hilfe bei einer Aufgabe?

Lade deine Frage hoch und erhalte in Sekunden eine verifizierte Schritt-für-Schritt-Lösung.

GPAI Solver öffnen →