Lernziele: Am Ende des Kapitels können Sie
- verschiedene Streuungskennzahlen berechnen und interpretieren.
- Stichproben bzgl. ihrer Schiefe und Wölbung analysieren.
Hinweis: Die mit einem gekennzeichneten Aufgaben können Sie durch schriftliches Rechnen lösen. Die mit gekennzeichneten Aufgaben setzen Grundkenntnisse der Programmierung mit der statistischen Software R voraus. Sie können R hier installieren, falls Sie R nicht auf Ihrem Rechner installiert haben. Zusätzlich empfiehlt sich die Installation einer integrierten Entwicklungsumgebung (IDE), wie zum Beispiel RStudio. Alternativ zur Installation können Sie die Web-Version webR direkt im Browser verwenden.
1 Einführung
Im vorherigen Kapitel dieser Lerneinheit haben wir Kennzahlen für die Lage von Häufigkeitsverteilungen kennengelernt. Allgemein reduzieren Kennzahlen die Stichprobe auf einzelne Werte und beschreiben so einen bestimmten Aspekt oder eine einzelne Eigenschaft des Merkmals. Interessante Charakteristiken einer Stichprobe bzw. Häufigkeitsverteilung sind:
die Lage: Was ist die größte, was ist die kleinste oder was ist die mittlere Beobachtung? Welche Merkmalsausprägung wird am häufigsten beobachtet?
die Variabilität oder Streuung: Ähneln sich die Beobachtungen oder liegen sie weit auseinander?
die Schiefe: Liegen die Beobachtungen symmetrisch um die Mitte oder streuen sie auf einer Seite weniger als auf der anderen?
die Wölbung: Liegen die Beobachtungen gleichmäßig auf dem Wertebereich oder liegen die meisten Werte dicht bei einander und nur einige liegen deutlich entfernt?
In diesem Abschnitt stellen wir Kennzahlen für die übrigen drei Eigenschaften vor und konzentrieren uns dabei auf die Streuung, da diese zusammen mit der Lage am häufigsten untersucht wird.
2 Streuungsmaße
Die Betrachtung von Kennzahlen bezüglich der Lage reicht oft nicht aus, um einen guten Überblick der Daten zu erhalten, da trotz z.B. gleichem arithmetischen Mittel oder Median sich zwei Stichproben stark voneinander unterscheiden können (siehe Abbildung 2). Daher betrachten wir in diesem Abschnitt einen weiteren Typ von Kennzahlen, die Streuungsmaße. Diese beschreiben die Variabilität einer Stichproben, d.h. wie weit weichen die Beobachtungen von ihrer zentralen Lage ab.
Da Streuungsmaße Abstände zwischen den Beobachtungen messen, betrachten wir in diesem Abschnitt in erster Linie quantitative Merkmale, denn bei ihnen können wir die Distanz von Merkmalsausprägungen messen und interpretieren. Der Wert eines solchen Maßes sollte stets nicht-negativ und genau dann Null sein, wenn keine Streuung vorhanden ist, d.h. alle Beobachtungen gleich sind. Diese zweite Eigenschaft wird nicht immer erfüllt, wie wir gleich sehen werden.
Am Ende des Abschnitts lernen wir noch die Entropie kennen. Sie kann als Streuungsmaß für qualitative Merkmale verwendet werden.
2.1 Spannweite und Quantilsabstände
Ein intuitives und einfaches Streuungsmaße ist die Spannweite. Sie misst den Abstand zwischen der kleinsten und der größten Beobachtung.
Definition 1 (Spannweite)
Die Spannweite eines kardinal skalierten Merkmals X mit geordneter Stichprobe \left(x_{(1)}, \dots, x_{(n)}\right) ist gegeben durch \begin{align*} \tilde{q}_{0} = x_{(n)} - x_{(1)}. \end{align*}
Die Spannweite ist nicht robust. Das bedeutet, ein einzelner Ausreißer kann für eine sehr große Spannweite sorgen, auch wenn alle anderen Werte wenig streuen. Um eine gewisse Robustheit gegen Ausreißer zu erhalten, können wir statt des Abstands zwischen den extremsten Werten auch den Abstand zwischen zwei Quantilen betrachten.
Definition 2 (p-Quantilsabstand und Interquartilsabstand)
Sei p \in (0, 0.5). Der p-Quantilsabstand eines kardinal skalierten Merkmals X mit geordneter Stichprobe x_{(1)}, \dots, x_{(n)} ist gegeben durch \begin{align*} \tilde{q}_{p} = \tilde{x}_{(1-p)} - \tilde{x}_{(p)}. \end{align*} Den 0.25-Quantilsabstand bezeichnen wir auch als Interquartilsabstand, oder kurz Quartilsabstand.
Auch in diesem Kapitel führen wir das Beispiel über die Körpergröße und Blutgruppe von 12 Personen weiter:
Beispiel 1 (Blutgruppe und Körpergröße bei 12 Personen)
Es wurden in einer Umfrage 12 Personen nach ihrer Blutgruppe und Körpergröße gefragt. Folgende Tabelle zeigt die Ergebnisse:
ID | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 |
Blutgruppe | A | A | B | AB | 0 | 0 | A | 0 | B | A | 0 | A |
Größe | 170.5 | 183.0 | 174.5 | 158.0 | 167.5 | 179.5 | 192.0 | 177.5 | 186.5 | 161.5 | 181.0 | 164.0 |
Da die Spannweite und p-Quantilsabstände nur für kardinal skalierte Merkmale berechnet werden können, werden wir sie nun für die Körpergröße berechnen:
Die sortierte Stichprobe lautet: 158.0, 161.5, 164.0, 167.5, 170.5, 174.5, 177.5, 179.5, 181.0, 183.0, 186.5, 192.0
Die einzelnen Quantile hatten wir bereits im letzten Kapitel im Abschnitt über Quantile berechnet.
Spannweite: x_{(12)} - x_{(1)} = 192.0 - 158.0 = 34.0
Die kleinste und größte Beobachtung liegen 34 cm auseinander. Alle weiteren Beobachtungspaare liegen somit näher als 34 cm entfernt.0.1-Quantilsabstand: \tilde{x}_{0.9} - \tilde{x}_{0.1} = 186.5 - 161.5 = 25.0
Die mittleren 80% der Beobachtungen liegen nicht mehr als 25 cm auseinander.0.25-Quantilsabstand / Interquartilsabstand: \tilde{x}_{0.75} - \tilde{x}_{0.25} = 182.0 - 165.75 = 16.25 Die mittleren 50% der Beobachtungen liegen nicht mehr als 16.25 cm auseinander.
In R existiert keine vorgefertigte Funktion für die Bestimmung eines p-Quantilabstands oder die der Spannweite. Jedoch können wir diese Streuungsmaße recht einfach mit den Funktionen max()
, min()
und quantile()
berechnen.
# Erstellen eines Datensatzes, der die Variablen Größe und Blutgruppe
# enthält:
data <- data.frame(
groesse = c(170.5, 183.0, 174.5, 158.0, 167.5, 179.5,
192.0, 177.5, 186.5, 161.5, 181.0, 164.0),
blutgruppe = c("A", "A", "B", "AB", "0", "0", "A", "0",
"B", "A", "0", "A")
)
# Spannweite
max(data$groesse) - min(data$groesse)
[1] 34
# p-Quantilsabstand am Beispiel p = 0.1
unname(quantile(data$groesse, 0.9, type = 2) - quantile(data$groesse, 0.1, type = 2))
[1] 25
Für den Interquartilsabstand gibt es jedoch bereits eine verfügbare Funktion namens IQR()
(nach dem englischen Begriff interquartile range). Auch in dieser Funktion können wir mit dem Argument type
die passende Quantilsdefinition auswählen.
# Interquartilsabstand
IQR(data$groesse, type = 2)
[1] 16.25
Bemerkungen:
Die Spannweite bzw. der p-Quantilabstand nutzt nur wenige Informationen der Stichprobe: Nur die zwei Werte werden zur Berechnung verwendet.
Beim Boxplot entspricht die Länge der Box dem Interquartilsabstand \tilde{q}_{0.25} und zusätzlich entspricht beim einfachen Boxplot der Abstand der Antennen-Enden der Spannweite.
Der p-Quantilsabstand wird mit wachsendem p immer robuster, d.h. die Kenngröße kann auch mit mehreren Ausreißern gut umgehen. Allerdings kann dies auch zu einer sogenannten Implosion führen. Damit ist gemeint, dass trotz vorhandener Variabilität der Wert des Streuungsmaßes Null ergibt.
Sei Y = a \cdot X + b mit a, b \in \mathbb{R}, a \neq 0, eine lineare Transformation eines kardinal skalierten Merkmals X. Dann gilt \tilde{q}_{p,y} = \vert a \vert \cdot \tilde{q}_{p,x}.
Wie in den vorherigen Kapiteln verwenden wir in den folgenden Aufgaben, die wir mit der statistischen Software R bearbeiten den Datensatz penguins
aus dem R-Paket palmerpenguins
(Horst, Hill, und Gorman 2020). Dafür müssen wir das Paket palmerpenguins
mit den Funktionen install.packages
und library
installieren und laden.
Aufgabe 1
Die abgebildete Grafik beruht auf dem Gewicht (body_mass_g
) und der Insel (island
) des Datensatzes penguins
aus dem R-Paket palmerpenguins
. Bestimmen Sie mit der Grafik für jede Insel die ungefähre Spannweite und den ungefähren Interquartilsabstand des Gewichts. Überprüfen Sie die von Ihnen entnommene Information, indem Sie die Spannweite und den Interquartilsabstand des Gewichts nach Insel getrennt berechnen. Beschreiben Sie Ihre Ergebnisse inhaltlich.
penguins
aufgeteilt nach Insel.
2.2 Empirische Varianz und Standardabweichung
Die am häufigsten verwendeten Streuungsmaße sind die empirische Varianz und empirische Standardabweichung, auch Stichprobenvarianz und Stichprobenstandardabweichung genannt. Hiervon gibt es jeweils zwei Versionen eine unkorrigierte und eine korrigierte Version.
Definition 3 (Unkorrigierte empirische Varianz und unkorrigierte empirsche Standardabweichung)
Die unkorrigierte empirische Varianz eines kardinal skalierten Merkmals X mit einer Stichprobe (x_1, \dots, x_n) ist gegeben durch \begin{align*} \tilde{s}^2 = \dfrac{1}{n} \sum_{i=1}^n (x_i - \bar{x})^2 \end{align*} Dann nennen wir \tilde{s} = \sqrt{\tilde{s}^2} die unkorrigierte empirische Standardabweichung.
Die unkorrigierte empirische Varianz misst also die mittlere quadratische Abweichung der Beobachtungen vom arithmetischen Mittel.
Die korrigierte Version der empirischen Varianz unterscheidet sich von der unkorrigierten Version lediglich um den Vorfaktor \frac{1}{n-1} statt \frac{1}{n}.
Diese nicht-probabilistische Motivation findet sich in Diepgen (1999).
Diese Korrektur lässt sich mit folgenden Überlegungen erklären:
Man kann ausrechnen, dass 2 \cdot \tilde{s}^2 = \frac{2}{n}\sum_{i = 1}^n (x_i - \bar{x})^2 = \frac{1}{n^2} \sum_{i = 1}^n \sum_{j = 1}^n (x_i - x_j)^2. Bei der zweifachen Varianz handelt es sich also um das arithmetische Mittel des quadratischen Abstands aller Beobachtungen zueinander.
Nun schreiben wir die obige Formel weiter um und sortieren die Doppelsumme oben danach, ob i und j unterschiedlich oder gleich sind: \frac{1}{n^2} \sum_{i = 1}^n \sum_{j = 1}^n (x_i - x_j)^2 = \frac{1}{n^2} \left( \sum_{i = 1}^n \sum_{\substack{j = 1 \\ j \neq i}}^n (x_i - x_j)^2 + \underbrace{\sum_{i = 1}^n (x_i - x_i)^2}_{= 0} \right) . Von den n^2 Summanden, sind also stets n Summanden gleich Null (unabhängig der gegebenen Stichprobe), da x_i - x_i = 0 für alle i = 1, \dotsc, n. Tatsächlich besitzt die obige Summe also n^2-n = n \cdot (n-1) Summanden, die ungleich Null sein können und es ergibt Sinn statt des arithmetischen Mittels der quadratischen Abstände aller Beobachtungen zueinander lediglich das arithmetische Mittel der quadratischen Abstände verschiedener Beobachtungen zueinander zu betrachten:
\begin{align*} \frac{1}{n (n-1)} \sum_{i = 1}^n \sum_{\substack{j = 1 \\ j \neq i}}^n (x_i - x_j)^2 &= \frac{1}{n (n-1)} \sum_{i = 1}^n \sum_{j = 1}^n (x_i - x_j)^2 \\ &= \frac{2}{n-1}\sum_{i = 1}^n (x_i - \bar{x})^2 = \frac{n}{n-1} \cdot 2\cdot \tilde{s}^2. \end{align*}Wir definieren also die korrigierte empirische Varianz als s^2 = \dfrac{n}{n-1} \cdot \tilde{s}^2:
Definition 4 (Korrigierte empirische Varianz und korrigierte empirsche Standardabweichung)
Die korrigierte empirische Varianz eines kardinal skalierten Merkmals X mit einer Stichprobe (x_1, \dots, x_n) ist gegeben durch \begin{align*} s^2 = \dfrac{1}{n-1} \sum_{i=1}^n (x_i - \bar{x})^2 \end{align*} Dann nennen wir s = \sqrt{s^2} die korrigierte empirische Standardabweichung.
Bemerkungen:
Die unkorrigierte empirische Varianz unterscheidet sich nur um einen Vorfaktor von der korrigierte empirische Varianz s^2 = \frac{n}{n-1} \tilde{s}^2.
Für große Stichproben unterscheiden sich die beiden Versionen kaum, da \lim\limits_{n \to \infty} \frac{n}{n-1} = 1.Die empirische Varianz ist schwierig zu interpretieren, da sie quadratische Abstände berechnet. Daher verwenden Anwender bevorzugt die empirische Standardabweichung als Maß für die typische Abweichung der Werte vom arithmetischen Mittel.
Ähnelt die Häufigkeitsverteilung der Normalverteilung, so liegen ca. 68% aller Beobachtungswerte nicht mehr als eine Standardabweichung ober- oder unterhalb des arithmetischen Mittels und rund 95% aller Beobachtungswerte liegen nicht weiter als zwei Standardabweichungen vom arithmetischen Mittel entfernt.Sei (x_1,\dots,x_n) eine Stichprobe eines Merkmals X mit arithmetischen Mittel \bar{x} und empirischer Standardabweichung s_x. Man nennt z_1,\dots, z_n mit z_i = \dfrac{x_i - \bar{x}}{s_x} auch studentisierte Beobachtungen, da gilt \bar{z} = 0 \quad \text{ und } \quad s_{z} = 1. Manchmal wird diese Transformation auch z-Transformation genannt.
Im Folgenden reden wir stets von der korrigierten empirischen Varianz, wenn wir nicht explizit die beiden Versionen unterscheiden.
Im vorherigen Abschnitt haben wir gesehen, dass das arithmetische Mittel \bar{x} die Funktion d(a) = \sum_{i=1}^n (x_i - a)^2 minimiert. In diesem Sinne ist \bar{x} also der zentrale Wert der Stichprobe.
Zur Berechnung der empirische Varianz sind die folgenden Umformungen oft hilfreich: \sum_{i = 1}^n (x_i - \bar{x})^2 = \sum_{i = 1}^n (x_i^2 - \bar{x}^2) = \sum_{i = 1}^n x_i^2 - n \bar{x}^2. \tag{1}
Sei Y = a \cdot X + b mit a, b \in \mathbb{R}, a \neq 0, eine lineare Transformation eines kardinal skalierten Merkmals X. Dann gilt s_y^2 = a^2 \cdot s_x^2 ~~~~ \text{und} ~~~~ s_y = \vert a \vert \cdot s_y sowie \tilde{s}_y^2 = a^2 \cdot \tilde{s}_x^2 ~~~~ \text{und} ~~~~ \tilde{s}_y = \vert a \vert \cdot \tilde{s}_x.
Beispiel 2 (Fortsetzung: Körpergröße bei 12 Personen)
Die Stichprobe lautet: 170.5, 183.0, 174.5, 158.0, 167.5, 179.5, 192.0, 177.5, 186.5, 161.5, 181.0, 164.0
Die Berechnung der Varianz teilen wir in mehrere Schritte auf und notieren uns diese einzelnen Schritte zur besseren Übersicht in einer Tabelle.
Das arithmetische Mittel kennen wir bereits aus dem vorherigen Kapitel und lautet \bar{x} = 174.625.
\boldsymbol{i} | \boldsymbol{x_i} | \boldsymbol{(x_i-\bar{x})} | \boldsymbol{(x_i-\bar{x})^2} |
---|---|---|---|
1 | 170.5 | -4.125 | 17.016 |
2 | 183.0 | 8.375 | 70.141 |
3 | 174.5 | -0.125 | 0.016 |
4 | 158.0 | -16.625 | 276.391 |
5 | 167.5 | -7.125 | 50.766 |
6 | 179.5 | 4.875 | 23.766 |
7 | 192.0 | 17.375 | 301.891 |
8 | 177.5 | 2.875 | 8.266 |
9 | 186.5 | 11.875 | 141.016 |
10 | 161.5 | -13.125 | 172.266 |
11 | 181.0 | 6.375 | 40.641 |
12 | 164.0 | -10.625 | 112.891 |
\boldsymbol{\sum} | 2095.5 | 0 | 1215.067 |
In der letzten Spalte haben wir die Ergebnisse auf 3 Nachkommastellen gerundet.
Die letzte Zeile der Tabelle gibt die Spaltensummen aus:
Mit der ersten Spaltensumme können wir (noch einmal) das arithmetische Mittel berechnen: \bar{x} = \frac{1}{12} \cdot 2095.5 = 174.625.
Die zweite Spaltensumme dient als Kontrolle. Sie muss stets Null sein. Falls die Werte vor dem Summieren gerundet werden, kann es zu leichten Abweichungen kommen.
-
Mit der letzten Spaltensumme berechnen wir schließlich Varianz und Standardabweichung:
unkorrigierte Version: \begin{align*} \tilde{s}^2 & = \dfrac{1}{12} \cdot 1215.067 = 101.256 \\ \tilde{s} & = \sqrt{101.256} = 10.063 \end{align*}
korrigierte Version: \begin{align*} s^2 & = \dfrac{1}{12-1} \cdot 1215.067 = 110.461 \\ s & = \sqrt{110.461} = 10.510 \end{align*}
Die Funktionen var()
und sd()
berechnen die korrigierte empirische Varianz bzw. Standardabweichung in R.
# Berechnen der korrigierten Varianz
var(data$groesse)
[1] 110.4602
# Berechnen der korrigierten Standardabweichtung
sd(data$groesse)
[1] 10.51001
Aufgabe 2
Betrachten Sie die folgende Grafik. Sie beruht auf den Merkmalen flipper_length_mm
und island
des Datensatzes penguins
aus dem R-Paket palmerpenguins
. Überlegen Sie anhand der Grafik, auf welcher Insel die Flossenlänge am meisten und auf welcher am wenigsten streut. Kontrollieren Sie Ihre Vermutung, indem Sie die korrigierte empirische Standardabweichung berechnen.
penguins
aufgeteilt nach Insel.
Aufgabe 3
Überlegen Sie sich, wie ein Näherungswert der Varianz berechnet werden könnte, wenn Ihnen nur die Klassen und die Klassenzugehörigkeiten der Beobachtungen eines klassierten Merkmals bekannt sind.
Hinweis: Im Abschnitt über das arithmetische Mittel haben Sie bereits gelernt, wie dessen Näherungswert berechnet wird.
2.3 Mediane absolute Distanz (MAD)
Ein weniger bekanntes Streuungsmaß ist die mediane absolute Abweichung. Hier knüpft man an die Definition des Medians an, in dem man den Median der absoluten Abweichungen der Beobachtungen zum Median \tilde{x}_{0.5} der Beobachtungen berechnet. Auf diese Weise erhalten wir ein robustes Streuungsmaß:
Definition 5 (Mediane absolute Distanz (MAD))
Sei (x_1, \dots, x_n) eine Stichprobe eines kardinal skalierten Merkmals X mit Median \tilde{x}_{0.5}. Bezeichne mit y_i = \vert x_i - \tilde{x}_{0.5} \vert den Abstand zwischen der i-ten Beobachtung und dem Median und y_{(1)},\dots, y_{(n)} die nach der Größe geordneten aboluten Abstände. Dann ist die mediane absolute Abweichung gegeben durch den Median der Stichprobe \left(y_{(1)},\dots, y_{(n)}\right): \begin{align*} s_{\text{MAD}} = \tilde{y}_{0.5} = \begin{cases} y_{\left(\frac{n+1}{2}\right)}, & \text{falls } \frac{n}{2} \notin \mathbb{N} \\ \frac{1}{2}\left(y_{\left(\frac{n}{2}\right)} + y_{\left(\frac{n}{2} + 1\right)}\right), & \text{falls ~} \frac{n}{2} \in \mathbb{N} \end{cases} \end{align*}
Beispiel 3 (Fortsetzung: Körpergröße bei 12 Personen)
Die sortierte Stichprobe lautet: 158.0, 161.5, 164.0, 167.5, 170.5, 174.5, 177.5, 179.5, 181.0, 183.0, 186.5, 192.0
Den Median kennen wir bereits aus Berechnungen im vorherigen Kapitel oder können wir aus der sotierten Stichprobe berechnen und lautet \tilde{x}_{0.5} = 176.0.
Die absoluten Abstände der Beobachtungen zum Median sind also:
18.0, 14.5, 12.0, 8.5, 5.5, 1.5, 1.5, 3.5, 5.0, 7.0, 10.5, 16.0
Nun sortieren wir diese nach der Größe: 1.5, 1.5, 3.5, 5.0, 5.5, 7.0, 8.5, 10.5, 12.0, 14.5, 16.0, 18.0
Hieraus können wir erneut den Median berechnen, welcher gleichzeitig der gesuchte MAD der Stichprobe ist: s_{\text{MAD}} = \frac{7.0 + 8.5}{2} = 7.75.
Die mediane absolute Distanz können wir in R mittels der zugehörigen Funktion mad()
bestimmen. Die Funktion enthält jedoch einen Skalierungsfaktor, sodass constant = 1
gesetzt werden muss, um den hier eingeführten MAD zu erhalten.
mad(data$groesse, constant = 1)
[1] 7.75
Bemerkungen:
Manchmal steht die Abkürzung ‘MAD’ auch für ein weiteres Streuungsmaß die mittlere absolute Distanz: \frac{1}{n}\sum_{i = 1}^n \vert x_i - \tilde{x}_{0.5} \vert. Hierbei wird also statt des Medians das arithmetische Mittel berechnet. Die mittlere absolute Distanz ist allerdings sensitiv gegenüber Ausreißern und somit kein robustes Streuungsmaß.
Sei Y = a \cdot X + b mit a, b \in \mathbb{R}, a \neq 0, eine lineare Transformation eines kardinal skalierten Merkmals X. Dann gilt s_{\text{MAD},y} = \vert a \vert \cdot s_{\text{MAD},x}.
Aufgabe 4
Betrachten Sie erneut den Datensatz penguins
aus dem R-Paket palmerpenguins
. Berechnen Sie die mediane absolute Distanz der Flossenlänge (flipper_length_mm
) getrennt nach Insel (island
). Vergleichen Sie die Ergebnisse mit denen aus Aufgabe 2.
2.4 Entropie
Die Entropie ist ein Maß, welches ursprünglich aus der Nachrichtentechnik stammt. Es ist für nominal skalierte Merkmale geeignet, da wir nicht direkt die Distanz der Merkmalsausprägungen betrachten, sondern die Unterschiede der relativen Häufigkeiten.
Definition 6 (Entropie)
Sei (x_1,\dots,x_n) eine Stichprobe eines nominal skalierten Merkmals X mit unterschiedlichen Merkmalsausprägungen a_1,\dots, a_l. Dann definieren wir die Entropie als \begin{align*} H &= h(a_1) \, \text{ln}\left(\frac{1}{h(a_1)}\right) + h(a_l) \, \dotsc + \text{ln}\left(\frac{1}{h(a_l)}\right) \\ &= \sum_{j = 1}^l h(a_j) \, \text{ln}\left(\frac{1}{h(a_j)}\right), \end{align*} wobei h(a_j) die relative Häufigkeit der Ausprägung a_j in der Stichprobe ist. Dabei legen wir fest, dass 0 \cdot \text{ln}(\frac{1}{0}) = 0 sei.
Bemerkungen:
-
Die Entropie H kann als Streuungsmaß aufgefasst werden, denn
- H \ge 0
- H = 0 genau dann, wenn alle Beobachtungen gleich sind, also keine Streuung vorhanden ist.
- H nimmt sein Maximum an, wenn alle Merkmalsausprägungen gleich häufig vorkommen, also h(a_j) = \frac{1}{l} für alle j \in \{1,\dots,l\}. Dann gilt H = \sum_{j = 1}^l \frac{1}{l} \, \text{ln}(l) = \text{ln}(l).
Normierung der Entropie H^* = \frac{H}{\text{ln}(l)} bewirkt, dass 0 \le H^* \le 1.
Beispiel 4 (Fortsetzung: Blutgruppe bei 12 Personen)
Die Stichprobe lautet: A, A, B, AB, 0, 0, A, 0, B, A, 0, A
Merkmalsausprägung a_j: | A | B | AB | 0 | \sum |
---|---|---|---|---|---|
abs. Häufigkeiten H(a_j): | 5 | 2 | 1 | 4 | 12 |
rel. Häufigkeiten h(a_j): | 5/12 | 1/6 | 1/12 | 1/3 | 1 |
Die Entropie ist also H = \frac{5}{12} \cdot \ln(\frac{12}{5}) + \frac{1}{6} \cdot \ln(6) + \frac{1}{12} \cdot \ln(12) + \frac{1}{3} \cdot \ln(3) \approx 1.23.
Die normierte Entropie lautet H^* = \frac{H}{\ln(4)} \approx 0.89.
In R gibt es keine explizite Funktion zur Berechnung der Entropie ohne, dass wir spezielle Pakete installieren und laden müssen. Wir können die Berechnung aber leicht ‘händisch’ durchführen:
# Stichprobengröße
n <- length(data$blutgruppe)
# Anzahl Merkmalsausprägungen
l <- length(unique(data$blutgruppe))
# Berechnung der rel. Häufigkeiten
h <- unname(table(data$blutgruppe) / n)
# Berechnung der Entropie
H <- sum(h * log(1 / h))
H
[1] 1.236685
# Berechnung der normierten Entropie
H / log(l)
[1] 0.8920796
Aufgabe 5
Betrachten Sie erneut den Datensatz penguins
aus dem R-Paket palmerpenguins
. Die folgende Tabelle zeigt die zweidimensionale Häufigkeitsverteilung der Pinguinarten getrennt nach Insel:
table(penguins$species, penguins$island)
Biscoe Dream Torgersen
Adelie 44 56 52
Chinstrap 0 68 0
Gentoo 124 0 0
Berechnen Sie die Entropie des Merkmals Pinguinart (species
) auf den verschiedenen Inseln (island
) und erklären Sie Ihre Ergebnisse auch mithilfe der obigen Tabelle.
3 Schiefe und Wölbung
Mit den Lage- und Streuungsmaßen aus den vorherigen Abschnitten können wir nun schon die zentrale Position unserer Häufigkeitsverteilung auf einer gegebenen Skala und die Variabilität der Beobachtungen beschreiben. Trotzdem kann es zwei Häufigkeitsverteilungen geben, die trotz gleicher Lage- und Streuungsmaße (z.B. gleichem arithmetischen Mittel und empirische Standardabweichung) sehr unterschiedlich sind:
In Abbildung 7 sehen wir Histogramme von drei verschiedenen unimodalen Häufigkeitsverteilungen mit fast gleichem arithmetischen Mittel und empirische Standardabweichung. Man sieht trotzdem auf einem Blick, dass sie sich in ihrer Form stark unterscheiden:
Symmetrie / Schiefe: Während die Stichprobe in (b) und (c) relativ symmetrisch um den Wert 7 liegt, können wir bei (a) keine Symmetrie erkennen. Die Häufigkeitsverteilung in (a) würden wir auch als rechtsschief oder linkssteil beschreiben, da die Verteilung zum Modalwert bzw. zur Modalklasse von links steiler ansteigt als sie nach rechts hin abfällt.
Wölbung: Vergleichen wir (b) und (c) erkennen wir, dass (c) zur Mitte deutlich steiler verläuft als (b). (a) ist aufgrund der Asymmetrie bzgl. dieser Eigenschaft nicht mit den anderen beiden vergleichbar, da die linke und rechte Hälfte unterschiedlich steil sind.
In den folgenden beiden Abschnitten möchten wir daher über die Symmetrie bzw. Schiefe und die Wölbung von Häufigkeitsverteilungen quantitativer Merkmale sprechen und jeweils ein Maß zur Beschreibung dieser Eigenschaft vorstellen.
3.1 Schiefemaße
Anschaulich heißt eine Häufigkeitsverteilung symmetrisch, wenn sich ihr Histogramm an einer vertikalen Linie entlang des arithmetischen Mittels spiegeln lässt.
Definition 7 (Symmetrie)
Sei (x_1,\dots,x_n) eine Stichprobe eines kardinal skalierten Merkmals X, welches mit Klassengrenzen k_0 \le k_1 \le \dotsc, k_l klassiert ist. Dann ist die zugehörige Häufigkeitsverteilung symmetrisch, falls für c > 0 gilt, dass f_n(\bar{x} - c) = f_n(\bar{x} + c) gilt, wobei \bar{x} das arithmetische Mittel und f_n(x) die Häufigkeitsdichte an der Stelle x ist. Andernfalls heißt sie asymmetrisch.
Bemerkungen:
Für eine symmetrische Verteilung gilt, dass das arithmetische Mittel und der Median übereinstimmen, also \bar{x} = \tilde{x}_{0.5}.
Eine exakte Symmetrie findet man in der Praxis eher selten, da eine Stichprobe ja in gewisser Weise Zufälligkeiten unterliegt. Daher nennt man auch Verteilungen (annähernd) symmetrisch, die diese Eigenschaft näherungsweise erfüllen.
-
Eine unimodale asymmetrische Verteilung wird auch schief genannt. Wir unterscheiden zwei Fälle:
Rechtsschiefe bzw. linkssteile Häufigkeitsverteilungen. In diesem Fall ist das arithmetische Mittel stets größer als der Median ist, also \bar{x} > \tilde{x}_{0.5}.
Linksschiefe bzw. rechtsssteile Häufigkeitsverteilungen. In diesem Fall ist das arithmetische Mittel stets kleiner als der Median ist, also \bar{x} < \tilde{x}_{0.5}.
Wie auch für die Lage und Streuung gibt es verschiedene Maße zur Beschreibung der Schiefe. Im Folgenden lernen wir den Momentenkoeffizienten der Schiefe nach Fisher kennen.
Definition 8 (Momentenkoeffizient der Schiefe)
Sei (x_1,\dots,x_n) eine Stichprobe eines kardinal skalierten Merkmals X. Der Momentenkoeffizient der Schiefe ist definiert als sk = \dfrac{1}{n} \sum\limits_{i = 1}^n \left( \frac{x_i - \bar{x}}{s} \right)^3.
Für rechtsschiefe Verteilungen gilt sk > 0, für linksschiefe Verteilungen gilt sk < 0 und für symmetrische Verteilungen sk = 0.
Beispiel 5 (Fortsetzung: Körpergröße bei 12 Personen)
Die Stichprobe lautet: 170.5, 183.0, 174.5, 158.0, 167.5, 179.5, 192.0, 177.5, 186.5, 161.5, 181.0, 164.0
Die Berechnung des Momentenkoeffizient der Schiefe teilen wir wie schon bei der empirischen Varianz (siehe Beispiel 2) in mehrere Schritte auf und notieren uns diese einzelnen Schritte zur besseren Übersicht in einer Tabelle.
Das arithmetische Mittel \bar{x} = 174.625 und die Standardabweichung kennen wir aus Beispiel 2 und lauten \bar{x} = 174.625 und s = 10.510.
\boldsymbol{i} | \boldsymbol{x_i} | \boldsymbol{(x_i-\bar{x})} | \boldsymbol{\dfrac{x_i-\bar{x}}{s}} | \boldsymbol{\left(\dfrac{x_i-\bar{x}}{s}\right)^3} |
---|---|---|---|---|
1 | 170.5 | -4.125 | -0.392 | -0.060 |
2 | 183.0 | 8.375 | 0.797 | 0.506 |
3 | 174.5 | -0.125 | -0.012 | 0.000 |
4 | 158.0 | -16.625 | -1.582 | -3.959 |
5 | 167.5 | -7.125 | -0.678 | -0.312 |
6 | 179.5 | 4.875 | 0.464 | 0.100 |
7 | 192.0 | 17.375 | 1.653 | 4.517 |
8 | 177.5 | 2.875 | 0.274 | 0.021 |
9 | 186.5 | 11.875 | 1.130 | 1.443 |
10 | 161.5 | -13.125 | -1.249 | -1.948 |
11 | 181.0 | 6.375 | 0.607 | 0.224 |
12 | 164.0 | -10.625 | -1.011 | -1.033 |
\boldsymbol{\sum} | 2095.5 | 0 | 0.001* | -0.501 |
* In den letzten beiden Spalten haben wir die Ergebnisse auf 3 Nachkommastellen gerundet. Daher auch die leichte Abweichung der dritten Spaltensumme von Null.
Mit der letzten Spaltensumme berechnen wir schließlich die Schiefe;
- sk = \dfrac{1}{12} \cdot (-0.501) = -0.042
Der Momentenkoeffizient der Schiefe ist also beinahe Null. Das spricht für eine ziemlich symmetrische Verteilung. Die geringe Abweichung von Null könnte durch die Zufälligkeit der Daten erklärt werden.
In R gibt es keine Standardfunktion zur Berechnung des Momentenkoeffizienten der Schiefe. Wir berechnen ihn also ‘händisch’:
# arith Mittel:
x.bar <- mean(data$groesse)
# Standardabweichung:
s <- sd(data$groesse)
# Berechnung des Momentenkoeffizienten der Schiefe:
sk <- mean(((data$groesse - x.bar) / s) ^ 3)
sk
[1] -0.0417261
Aufgabe 6
Betrachten Sie erneut den Datensatz penguins
aus dem R-Paket palmerpenguins
. Untersuchen Sie die Merkmale
-
Körpergewicht (
body_mass_g
) -
Flössenlänge (
flipper_length_g
)
auf Symmetrie bzw. Rechts- oder Linksschiefe. Verwenden Sie dazu verschiedene Kennzahlen und Grafiken.
3.2 Wölbungsmaße
Die Wölbung, auch Kurtosis genannt, beschreibt die Steilheit einer unimodalen Häufigkeitsverteilung. Ein Maß zur Beschreibung der Wölbung ist der Momentenkoeffizient der Wölbung:
Definition 9 (Momentenkoeffizient der Wölbung)
Sei x_1,\dots,x_n eine Stichprobe eines kardinal skalierten Merkmals X. Der Momentenkoeffizient der Wölbung ist definiert als w = \dfrac{1}{n} \sum\limits_{i = 1}^n \left(\frac{x_i - \bar{x}}{s}\right)^4.
Bemerkungen:
Es gilt immer w > 0. Je größer die Wölbung ist, desto spitzer ist die Verteilung.
-
Die Normalverteilung besitzt eine Wölbung von w = 3. Da wir gegebene Daten gern mit der Normalverteilung vergleichen, berechnet man statt der Wölbung w auch den Exzess, auch Überschuss genannt, ex = w - 3.
Im Falle von ex > 0 spricht man von einer leptokurtischen (spitzen) Häufigkeitsverteilung.
Im Falle von ex = 0 spricht man von einer mesokurtischen (normalen) Häufigkeitsverteilung.
Im Falle von ex < 0 spricht man von einer platykurtischen (flachen) Häufigkeitsverteilung.
Die Betrachtung der Wölbung ergibt bei schiefen Verteilung wenig Sinn, da sie auf einer Seite steil und auf der anderen Seite flach verlaufen können.
Beispiel 6 (Fortsetzung: Körpergröße bei 12 Personen)
Die Stichprobe lautet: 170.5, 183.0, 174.5, 158.0, 167.5, 179.5, 192.0, 177.5, 186.5, 161.5, 181.0, 164.0
In Beispiel 5 haben wir gesehen, dass die Stichprobe annäherend symmetrisch ist, weshalb eine Betrachtung der Wölbung Sinn ergibt.
Die händische Berechnung des Momentenkoeffizient der Wölbung wird analog zur Berechnung des Momentenkoeffizient der Schiefe mithilfe einer Tabelle durchgeführt.
Das arithmetische Mittel \bar{x} = 174.625 und die Standardabweichung kennen wir aus Beispiel 2 und lauten \bar{x} = 174.625 und s = 10.510.
\boldsymbol{i} | \boldsymbol{x_i} | \boldsymbol{(x_i-\bar{x})} | \boldsymbol{\dfrac{x_i-\bar{x}}{s}} | \boldsymbol{\left(\dfrac{x_i-\bar{x}}{s}\right)^4} |
---|---|---|---|---|
1 | 170.5 | -4.125 | -0.392 | 0.024 |
2 | 183.0 | 8.375 | 0.797 | 0.403 |
3 | 174.5 | -0.125 | -0.012 | 0.000 |
4 | 158.0 | -16.625 | -1.582 | 6.264 |
5 | 167.5 | -7.125 | -0.678 | 0.211 |
6 | 179.5 | 4.875 | 0.464 | 0.046 |
7 | 192.0 | 17.375 | 1.653 | 7.466 |
8 | 177.5 | 2.875 | 0.274 | 0.006 |
9 | 186.5 | 11.875 | 1.130 | 1.630 |
10 | 161.5 | -13.125 | -1.249 | 2.434 |
11 | 181.0 | 6.375 | 0.607 | 0.136 |
12 | 164.0 | -10.625 | -1.011 | 1.045 |
\boldsymbol{\sum} | 2095.5 | 0 | 0.001* | 19.665 |
* In den letzten beiden Spalten haben wir die Ergebnisse auf 3 Nachkommastellen gerundet. Daher auch die leichte Abweichung der dritten Spaltensumme von Null.
Mit der letzten Spaltensumme berechnen wir schließlich die Wölbung:
- w = \dfrac{1}{12} \cdot 19.665 = 1.639
Der Exzess ist somit:
- ex = w - 3 = -1.361
Der Exzess ist kleiner Null. Es handelt sich also verglichen mit der Normalverteilung um eine flache, platykurtische Häufigkeitsverteilung.
In R gibt es keine Standardfunktion zur Berechnung des Momentenkoeffizienten der Wölbung. Wir berechnen die Wölbung und den Exzess also ‘händisch’:
# arith Mittel:
x.bar <- mean(data$groesse)
# Standardabweichung:
s <- sd(data$groesse)
# Berechnung des Momentenkoeffizienten der Schiefe:
w <- mean(((data$groesse - x.bar) / s) ^ 4)
w
[1] 1.638506
# Berechnung des Exzess:
ex <- w - 3
ex
[1] -1.361494
Zum Vergleich plotten wir einmal ein Histogramm und eine Kerndichteschätzung der Daten und vergleichen das mit der Dichte der Normalverteilung mit arithmetischen Mittel 174.625 und Standardabweichung 10.510:
# Histogramm
hist(data$groesse, breaks = c(140, 150, 160, 170, 180, 190, 200, 210),
freq = F, ylim = c(0, 0.04), main = "", xlab = "Körpergröße in cm",
ylab = "Dichte")
# Kerndichteschätzung
lines(density(data$groesse, bw = "SJ"), col = "dodgerblue2", lwd = 2)
# Dichte einer Normalverteilung mit mean = 174.625 und sd = 10.510
dn <- function(x) dnorm(x, mean = 174.625, sd = 10.510)
curve(dn, 140, 210, col = "darkred", lwd = 2, add = T)
in Abbildung 9 sieht man deutlich, dass die Kurve der Kerndichteschätzung (blau) unserer Daten flacher ist als die Dichte der Normalverteilung (rot).
Aufgabe 7
Betrachten Sie die Flossenlänge (flipper_length_mm
) der Chinstrap-Pinguine des Datensatzes penguins
aus dem R-Paket palmerpenguins
. Vergleichen Sie die Wölbung der Häufigkeitsverteilung dieses Merkmals mit der Wölbung der Normalverteilung, indem Sie den Exzess berechnen. Fertigen Sie anschließend noch einen grafischen Vergleich zwischen der Häufigkeitsverteilung und der Normalverteilung an.
4 Zusammenfassung
Kennzahlen reduzieren eine Stichprobe auf einen einzelnen Wert, der eine Eigenschaft der Häufigkeitsverteilung beschreibt. Streuungsmaße sind spezielle Kenzahlen, die die Streuung oder Variabilität der Stichprobe beschreibt, d.h. wie sehr weichen die Beobachtungswerte von der zentralen Lage der Stichprobe ab. In diesem Kapitel haben wir mehrere solcher Maße kennengelernt: Spannweite, p-Quantilsabstände, empirische Varianz und Standardabweichung, Mediane absolute Distanz und Entropie. Bis auf die letzt genannte Kennzahl eignen sich diese nur für kardinal skalierte Merkmale, da nur für diese der Abstand zwischen zwei Merkmalsausprägungen gemessen werden kann. Die Entropie eignet sich hingegen auch für qualitative Merkmale, da hier der Unterschied der relativen Häufigkeiten betrachtet wird.
Zwei weitere Charakteristiken von Häufigkeitsverteilungen kardinal skalierter Merkmale ist die Symmetrie bzw. Schiefe und Wölbung. Diese kann man mithilfe von Histogrammen und Boxplots detektieren, so wie mit den Momentenkoeffizienten der Schiefe und Wölbung.
Lösungen der Aufgaben
Autor:innen
Diese Lerneinheit “Deskriptive Statistik” wurde von Roland Fried und Christina Mathieu unter Mithilfe von Merle Mendel und Klemens Schmidt an der Technischen Universität Dortmund entwickelt. Es ist lizenziert unter der CC-BY-SA 4.0 Lizenz und ist verfügbar auf ORCA.nrw.