Kennzahlen für Streuung, Schiefe und Wölbung

Zusammenfassung

In diesem Kapitel wird das Thema Kennzahlen aus dem vorherigen Kapitel fortgesetzt. Kennzahlen reduzieren eine Stichprobe auf einen einzelnen Wert, der eine Eigenschaft der Häufigkeitsverteilung beschreibt. Wir konzentrieren uns nun auf Streuungsmaße und stellen dazu die Spannweite, den p-Quantilsabstand, die empirische Varianz und Standardabweichung, die mediane absolute Distanz und die Entropie vor. Weiter besprechen wir die Schiefe und Wölbung von unimodalen Häufigkeitsverteilungen und geben jeweils eine Kennzahl dazu an. Begleitet wird das Kapitel von anschaulichen Beispielen und Aufgaben, die mit R bearbeitet werden können.

Lernziele: Am Ende des Kapitels können Sie

verschiedene Streuungskennzahlen berechnen und interpretieren.

Stichproben bzgl. ihrer Schiefe und Wölbung analysieren.

Hinweis: Die mit einem gekennzeichneten Aufgaben können Sie durch schriftliches Rechnen lösen. Die mit gekennzeichneten Aufgaben setzen Grundkenntnisse der Programmierung mit der statistischen Software R voraus. Sie können R hier installieren, falls Sie R nicht auf Ihrem Rechner installiert haben. Zusätzlich empfiehlt sich die Installation einer integrierten Entwicklungsumgebung (IDE), wie zum Beispiel RStudio. Alternativ zur Installation können Sie die Web-Version webR direkt im Browser verwenden.

1 Einführung

Im vorherigen Kapitel dieser Lerneinheit haben wir Kennzahlen für die Lage von Häufigkeitsverteilungen kennengelernt. Allgemein reduzieren Kennzahlen die Stichprobe auf einzelne Werte und beschreiben so einen bestimmten Aspekt oder eine einzelne Eigenschaft des Merkmals. Interessante Charakteristiken einer Stichprobe bzw. Häufigkeitsverteilung sind:

die Lage: Was ist die größte, was ist die kleinste oder was ist die mittlere Beobachtung? Welche Merkmalsausprägung wird am häufigsten beobachtet?
die Variabilität oder Streuung: Ähneln sich die Beobachtungen oder liegen sie weit auseinander?
die Schiefe: Liegen die Beobachtungen symmetrisch um die Mitte oder streuen sie auf einer Seite weniger als auf der anderen?
die Wölbung: Liegen die Beobachtungen gleichmäßig auf dem Wertebereich oder liegen die meisten Werte dicht bei einander und nur einige liegen deutlich entfernt?

Abbildung 1: Darstellung von Häufigkeitsverteilungen zweier quantitativ stetigen Merkmalen zur Beschreibung der unterschiedlichen Lage mithilfe von Histogrammen und Kerndichteschätzern. Unterhalb sind die Stichproben mithilfe von kreis- und kreuzförmiger Punkte eingezeichnet. Während sich die Werte der blauen Stichprobe symmetrisch um den Wert 5 befinden, liegen die roten Stichprobenwerte symmetrisch um den Wert 10 herum.

Abbildung 2: Darstellung von Häufigkeitsverteilungen zweier quantitativ stetigen Merkmalen zur Beschreibung der unterschiedlichen Streuung mithilfe von Histogrammen und Kerndichteschätzern. Unterhalb sind die Stichproben mithilfe von kreis- und kreuzförmiger Punkte eingezeichnet. Beide Stichproben zentrieren sich um den Wert 7. Dabei streuen die Werte der roten Stichprobe allerdings mit mehr Distanz um die zentrale Lage als die blaue Stichprobe. Die mittlere (quadratische) Distanz zwischen den Werten und der zentralen Lage unterscheidet sich also in den Stichproben.

Abbildung 3: Darstellung von Häufigkeitsverteilungen zweier quantitativ stetigen Merkmalen zur Beschreibung der unterschiedlichen Schiefe mithilfe von Histogrammen und Kerndichteschätzern. Unterhalb sind die Stichproben mithilfe von kreis- und kreuzförmiger Punkte eingezeichnet. Die Lage der beiden Stichproben ähneln sich hier. Allerdings können wir erkennen, dass die Werte der blauen Stichprobe bei einer ungefähren zentralen von 7 lediglich nach rechts weiter streuen und es sich somit um eine schiefe Häufigkeitsverteilung handelt. Die Verteilung der roten Stichprobe hingegen ist symmetrisch.

Abbildung 4: Darstellung von Häufigkeitsverteilungen zweier quantitativ stetigen Merkmalen zur Beschreibung der unterschiedlichen Wölbung mithilfe von Histogrammen und Kerndichteschätzern. Unterhalb sind die Stichproben mithilfe von kreis- und kreuzförmiger Punkte eingezeichnet. Beide Verteilungen haben die gleiche zentrale Lage und sind relativ symmetrisch. Dabei streuen die Werte der roten Stichprobe gleichmäßiger als die Werte der blauen Stichprobe, obwohl im Mittel beide Stichproben eine in etwa gleich große Streuung besitzten. Würden wir nun in beiden Stichproben die 10 kleinsten und 10 größten Werte streichen, so würde sich die Streuung der blauen Stichprobe stärker reduzieren als die Streuung der roten Stichprobe.

In diesem Abschnitt stellen wir Kennzahlen für die übrigen drei Eigenschaften vor und konzentrieren uns dabei auf die Streuung, da diese zusammen mit der Lage am häufigsten untersucht wird.

2 Streuungsmaße

Die Betrachtung von Kennzahlen bezüglich der Lage reicht oft nicht aus, um einen guten Überblick der Daten zu erhalten, da trotz z.B. gleichem arithmetischen Mittel oder Median sich zwei Stichproben stark voneinander unterscheiden können (siehe Abbildung 2). Daher betrachten wir in diesem Abschnitt einen weiteren Typ von Kennzahlen, die Streuungsmaße. Diese beschreiben die Variabilität einer Stichproben, d.h. wie weit weichen die Beobachtungen von ihrer zentralen Lage ab.

Da Streuungsmaße Abstände zwischen den Beobachtungen messen, betrachten wir in diesem Abschnitt in erster Linie quantitative Merkmale, denn bei ihnen können wir die Distanz von Merkmalsausprägungen messen und interpretieren. Der Wert eines solchen Maßes sollte stets nicht-negativ und genau dann Null sein, wenn keine Streuung vorhanden ist, d.h. alle Beobachtungen gleich sind. Diese zweite Eigenschaft wird nicht immer erfüllt, wie wir gleich sehen werden.

Am Ende des Abschnitts lernen wir noch die Entropie kennen. Sie kann als Streuungsmaß für qualitative Merkmale verwendet werden.

2.1 Spannweite und Quantilsabstände

Ein intuitives und einfaches Streuungsmaße ist die Spannweite. Sie misst den Abstand zwischen der kleinsten und der größten Beobachtung.

Definition 1 (Spannweite)

Die Spannweite eines kardinal skalierten Merkmals X mit geordneter Stichprobe \left(x_{(1)}, \dots, x_{(n)}\right) ist gegeben durch \begin{align*} \tilde{q}_{0} = x_{(n)} - x_{(1)}. \end{align*}

Die Spannweite ist nicht robust. Das bedeutet, ein einzelner Ausreißer kann für eine sehr große Spannweite sorgen, auch wenn alle anderen Werte wenig streuen. Um eine gewisse Robustheit gegen Ausreißer zu erhalten, können wir statt des Abstands zwischen den extremsten Werten auch den Abstand zwischen zwei Quantilen betrachten.

Definition 2 (p-Quantilsabstand und Interquartilsabstand)

Sei p \in (0, 0.5). Der p-Quantilsabstand eines kardinal skalierten Merkmals X mit geordneter Stichprobe x_{(1)}, \dots, x_{(n)} ist gegeben durch \begin{align*} \tilde{q}_{p} = \tilde{x}_{(1-p)} - \tilde{x}_{(p)}. \end{align*} Den 0.25-Quantilsabstand bezeichnen wir auch als Interquartilsabstand, oder kurz Quartilsabstand.

Auch in diesem Kapitel führen wir das Beispiel über die Körpergröße und Blutgruppe von 12 Personen weiter:

Beispiel 1 (Blutgruppe und Körpergröße bei 12 Personen)

Es wurden in einer Umfrage 12 Personen nach ihrer Blutgruppe und Körpergröße gefragt. Folgende Tabelle zeigt die Ergebnisse:

ID	1	2	3	4	5	6	7	8	9	10	11	12
Blutgruppe	A	A	B	AB	0	0	A	0	B	A	0	A
Größe	170.5	183.0	174.5	158.0	167.5	179.5	192.0	177.5	186.5	161.5	181.0	164.0

Da die Spannweite und p-Quantilsabstände nur für kardinal skalierte Merkmale berechnet werden können, werden wir sie nun für die Körpergröße berechnen:

Die sortierte Stichprobe lautet: 158.0, 161.5, 164.0, 167.5, 170.5, 174.5, 177.5, 179.5, 181.0, 183.0, 186.5, 192.0

Die einzelnen Quantile hatten wir bereits im letzten Kapitel im Abschnitt über Quantile berechnet.

Spannweite: x_{(12)} - x_{(1)} = 192.0 - 158.0 = 34.0
Die kleinste und größte Beobachtung liegen 34 cm auseinander. Alle weiteren Beobachtungspaare liegen somit näher als 34 cm entfernt.
0.1-Quantilsabstand: \tilde{x}_{0.9} - \tilde{x}_{0.1} = 186.5 - 161.5 = 25.0
Die mittleren 80% der Beobachtungen liegen nicht mehr als 25 cm auseinander.
0.25-Quantilsabstand / Interquartilsabstand: \tilde{x}_{0.75} - \tilde{x}_{0.25} = 182.0 - 165.75 = 16.25 Die mittleren 50% der Beobachtungen liegen nicht mehr als 16.25 cm auseinander.

In R existiert keine vorgefertigte Funktion für die Bestimmung eines p-Quantilabstands oder die der Spannweite. Jedoch können wir diese Streuungsmaße recht einfach mit den Funktionen max(), min() und quantile() berechnen.

# Erstellen eines Datensatzes, der die Variablen Größe und Blutgruppe 
# enthält:
data <- data.frame(
                   groesse = c(170.5, 183.0, 174.5, 158.0, 167.5, 179.5,
                               192.0, 177.5, 186.5, 161.5, 181.0, 164.0),
                   blutgruppe = c("A", "A", "B", "AB", "0", "0", "A", "0",
                                  "B", "A", "0", "A")
         )

# Spannweite
max(data$groesse) - min(data$groesse)

[1] 34

# p-Quantilsabstand am Beispiel p = 0.1
unname(quantile(data$groesse, 0.9, type = 2) - quantile(data$groesse, 0.1, type = 2))

[1] 25

Für den Interquartilsabstand gibt es jedoch bereits eine verfügbare Funktion namens IQR() (nach dem englischen Begriff interquartile range). Auch in dieser Funktion können wir mit dem Argument type die passende Quantilsdefinition auswählen.

Wir erinnern uns, dass man Quantile auf unterschiedliche Arten definieren kann. In dieser Lerneinheit haben wir das p-Quantil für kardinal skalierte Merkmale wie folgt definiert \begin{align*} \tilde{x}_p = \begin{cases} x_{(\lfloor n p \rfloor + 1)}, & \text{falls ~} n \cdot p \notin \mathbb{N} \\ \frac{1}{2} \left( x_{(n p)} + x_{(n p + 1)} \right), & \text{falls ~} n \cdot p \in \mathbb{N}. \end{cases} \end{align*}

# Interquartilsabstand 
IQR(data$groesse, type = 2)

[1] 16.25

Bemerkungen:

Die Spannweite bzw. der p-Quantilabstand nutzt nur wenige Informationen der Stichprobe: Nur die zwei Werte werden zur Berechnung verwendet.
Beim Boxplot entspricht die Länge der Box dem Interquartilsabstand \tilde{q}_{0.25} und zusätzlich entspricht beim einfachen Boxplot der Abstand der Antennen-Enden der Spannweite.
Der p-Quantilsabstand wird mit wachsendem p immer robuster, d.h. die Kenngröße kann auch mit mehreren Ausreißern gut umgehen. Allerdings kann dies auch zu einer sogenannten Implosion führen. Damit ist gemeint, dass trotz vorhandener Variabilität der Wert des Streuungsmaßes Null ergibt.
Sei Y = a \cdot X + b mit a, b \in \mathbb{R}, a \neq 0, eine lineare Transformation eines kardinal skalierten Merkmals X. Dann gilt \tilde{q}_{p,y} = \vert a \vert \cdot \tilde{q}_{p,x}.

Wie in den vorherigen Kapiteln verwenden wir in den folgenden Aufgaben, die wir mit der statistischen Software R bearbeiten den Datensatz penguins aus dem R-Paket palmerpenguins (Horst, Hill, und Gorman 2020). Dafür müssen wir das Paket palmerpenguins mit den Funktionen install.packages und library installieren und laden.

Aufgabe 1

Die abgebildete Grafik beruht auf dem Gewicht (body_mass_g) und der Insel (island) des Datensatzes penguins aus dem R-Paket palmerpenguins. Bestimmen Sie mit der Grafik für jede Insel die ungefähre Spannweite und den ungefähren Interquartilsabstand des Gewichts. Überprüfen Sie die von Ihnen entnommene Information, indem Sie die Spannweite und den Interquartilsabstand des Gewichts nach Insel getrennt berechnen. Beschreiben Sie Ihre Ergebnisse inhaltlich.

Abbildung 5: Boxplots des Gewichts der Pinguine aus dem Datensatz `penguins` aufgeteilt nach Insel.

Tipps zu Aufgabe 1

Die Funktionen max(), min() und IQR() können zum Bearbeiten der Aufgabe verwendet werden.

2.2 Empirische Varianz und Standardabweichung

Die am häufigsten verwendeten Streuungsmaße sind die empirische Varianz und empirische Standardabweichung, auch Stichprobenvarianz und Stichprobenstandardabweichung genannt. Hiervon gibt es jeweils zwei Versionen eine unkorrigierte und eine korrigierte Version.

Definition 3 (Unkorrigierte empirische Varianz und unkorrigierte empirsche Standardabweichung)

Die unkorrigierte empirische Varianz eines kardinal skalierten Merkmals X mit einer Stichprobe (x_1, \dots, x_n) ist gegeben durch \begin{align*} \tilde{s}^2 = \dfrac{1}{n} \sum_{i=1}^n (x_i - \bar{x})^2 \end{align*} Dann nennen wir \tilde{s} = \sqrt{\tilde{s}^2} die unkorrigierte empirische Standardabweichung.

Die unkorrigierte empirische Varianz misst also die mittlere quadratische Abweichung der Beobachtungen vom arithmetischen Mittel.

Die korrigierte Version der empirischen Varianz unterscheidet sich von der unkorrigierten Version lediglich um den Vorfaktor \frac{1}{n-1} statt \frac{1}{n}.

Diese nicht-probabilistische Motivation findet sich in Diepgen (1999).

Diese Korrektur lässt sich mit folgenden Überlegungen erklären:

Man kann ausrechnen, dass 2 \cdot \tilde{s}^2 = \frac{2}{n}\sum_{i = 1}^n (x_i - \bar{x})^2 = \frac{1}{n^2} \sum_{i = 1}^n \sum_{j = 1}^n (x_i - x_j)^2. Bei der zweifachen Varianz handelt es sich also um das arithmetische Mittel des quadratischen Abstands aller Beobachtungen zueinander.

Nun schreiben wir die obige Formel weiter um und sortieren die Doppelsumme oben danach, ob i und j unterschiedlich oder gleich sind: \frac{1}{n^2} \sum_{i = 1}^n \sum_{j = 1}^n (x_i - x_j)^2 = \frac{1}{n^2} \left( \sum_{i = 1}^n \sum_{\substack{j = 1 \\ j \neq i}}^n (x_i - x_j)^2 + \underbrace{\sum_{i = 1}^n (x_i - x_i)^2}_{= 0} \right) . Von den n^2 Summanden, sind also stets n Summanden gleich Null (unabhängig der gegebenen Stichprobe), da x_i - x_i = 0 für alle i = 1, \dotsc, n. Tatsächlich besitzt die obige Summe also n^2-n = n \cdot (n-1) Summanden, die ungleich Null sein können und es ergibt Sinn statt des arithmetischen Mittels der quadratischen Abstände aller Beobachtungen zueinander lediglich das arithmetische Mittel der quadratischen Abstände verschiedener Beobachtungen zueinander zu betrachten:
\begin{align*} \frac{1}{n (n-1)} \sum_{i = 1}^n \sum_{\substack{j = 1 \\ j \neq i}}^n (x_i - x_j)^2 &= \frac{1}{n (n-1)} \sum_{i = 1}^n \sum_{j = 1}^n (x_i - x_j)^2 \\ &= \frac{2}{n-1}\sum_{i = 1}^n (x_i - \bar{x})^2 = \frac{n}{n-1} \cdot 2\cdot \tilde{s}^2. \end{align*}

Wir definieren also die korrigierte empirische Varianz als s^2 = \dfrac{n}{n-1} \cdot \tilde{s}^2:

Definition 4 (Korrigierte empirische Varianz und korrigierte empirsche Standardabweichung)

Die korrigierte empirische Varianz eines kardinal skalierten Merkmals X mit einer Stichprobe (x_1, \dots, x_n) ist gegeben durch \begin{align*} s^2 = \dfrac{1}{n-1} \sum_{i=1}^n (x_i - \bar{x})^2 \end{align*} Dann nennen wir s = \sqrt{s^2} die korrigierte empirische Standardabweichung.

Bemerkungen:

Die unkorrigierte empirische Varianz unterscheidet sich nur um einen Vorfaktor von der korrigierte empirische Varianz s^2 = \frac{n}{n-1} \tilde{s}^2.
Für große Stichproben unterscheiden sich die beiden Versionen kaum, da \lim\limits_{n \to \infty} \frac{n}{n-1} = 1.
Die empirische Varianz ist schwierig zu interpretieren, da sie quadratische Abstände berechnet. Daher verwenden Anwender bevorzugt die empirische Standardabweichung als Maß für die typische Abweichung der Werte vom arithmetischen Mittel.
Ähnelt die Häufigkeitsverteilung der Normalverteilung, so liegen ca. 68% aller Beobachtungswerte nicht mehr als eine Standardabweichung ober- oder unterhalb des arithmetischen Mittels und rund 95% aller Beobachtungswerte liegen nicht weiter als zwei Standardabweichungen vom arithmetischen Mittel entfernt.
Sei (x_1,\dots,x_n) eine Stichprobe eines Merkmals X mit arithmetischen Mittel \bar{x} und empirischer Standardabweichung s_x. Man nennt z_1,\dots, z_n mit z_i = \dfrac{x_i - \bar{x}}{s_x} auch studentisierte Beobachtungen, da gilt \bar{z} = 0 \quad \text{ und } \quad s_{z} = 1. Manchmal wird diese Transformation auch z-Transformation genannt.
Im Folgenden reden wir stets von der korrigierten empirischen Varianz, wenn wir nicht explizit die beiden Versionen unterscheiden.
Im vorherigen Abschnitt haben wir gesehen, dass das arithmetische Mittel \bar{x} die Funktion d(a) = \sum_{i=1}^n (x_i - a)^2 minimiert. In diesem Sinne ist \bar{x} also der zentrale Wert der Stichprobe.
Zur Berechnung der empirische Varianz sind die folgenden Umformungen oft hilfreich: \sum_{i = 1}^n (x_i - \bar{x})^2 = \sum_{i = 1}^n (x_i^2 - \bar{x}^2) = \sum_{i = 1}^n x_i^2 - n \bar{x}^2. \tag{1}
Sei Y = a \cdot X + b mit a, b \in \mathbb{R}, a \neq 0, eine lineare Transformation eines kardinal skalierten Merkmals X. Dann gilt s_y^2 = a^2 \cdot s_x^2 ~~~~ \text{und} ~~~~ s_y = \vert a \vert \cdot s_y sowie \tilde{s}_y^2 = a^2 \cdot \tilde{s}_x^2 ~~~~ \text{und} ~~~~ \tilde{s}_y = \vert a \vert \cdot \tilde{s}_x.

Beispiel 2 (Fortsetzung: Körpergröße bei 12 Personen)

Die Stichprobe lautet: 170.5, 183.0, 174.5, 158.0, 167.5, 179.5, 192.0, 177.5, 186.5, 161.5, 181.0, 164.0

Die Berechnung der Varianz teilen wir in mehrere Schritte auf und notieren uns diese einzelnen Schritte zur besseren Übersicht in einer Tabelle.

Das arithmetische Mittel kennen wir bereits aus dem vorherigen Kapitel und lautet \bar{x} = 174.625.

\boldsymbol{i}	\boldsymbol{x_i}	\boldsymbol{(x_i-\bar{x})}	\boldsymbol{(x_i-\bar{x})^2}
1	170.5	-4.125	17.016
2	183.0	8.375	70.141
3	174.5	-0.125	0.016
4	158.0	-16.625	276.391
5	167.5	-7.125	50.766
6	179.5	4.875	23.766
7	192.0	17.375	301.891
8	177.5	2.875	8.266
9	186.5	11.875	141.016
10	161.5	-13.125	172.266
11	181.0	6.375	40.641
12	164.0	-10.625	112.891

\boldsymbol{\sum}	2095.5	0	1215.067

In der letzten Spalte haben wir die Ergebnisse auf 3 Nachkommastellen gerundet.

Die letzte Zeile der Tabelle gibt die Spaltensummen aus:

Mit der ersten Spaltensumme können wir (noch einmal) das arithmetische Mittel berechnen: \bar{x} = \frac{1}{12} \cdot 2095.5 = 174.625.
Die zweite Spaltensumme dient als Kontrolle. Sie muss stets Null sein. Falls die Werte vor dem Summieren gerundet werden, kann es zu leichten Abweichungen kommen.
Mit der letzten Spaltensumme berechnen wir schließlich Varianz und Standardabweichung:
- unkorrigierte Version: \begin{align*} \tilde{s}^2 & = \dfrac{1}{12} \cdot 1215.067 = 101.256 \\ \tilde{s} & = \sqrt{101.256} = 10.063 \end{align*}
- korrigierte Version: \begin{align*} s^2 & = \dfrac{1}{12-1} \cdot 1215.067 = 110.461 \\ s & = \sqrt{110.461} = 10.510 \end{align*}

Die Funktionen var() und sd() berechnen die korrigierte empirische Varianz bzw. Standardabweichung in R.

# Berechnen der korrigierten Varianz
var(data$groesse)

[1] 110.4602

# Berechnen der korrigierten Standardabweichtung
sd(data$groesse)

[1] 10.51001

Aufgabe 2

Betrachten Sie die folgende Grafik. Sie beruht auf den Merkmalen flipper_length_mm und island des Datensatzes penguins aus dem R-Paket palmerpenguins. Überlegen Sie anhand der Grafik, auf welcher Insel die Flossenlänge am meisten und auf welcher am wenigsten streut. Kontrollieren Sie Ihre Vermutung, indem Sie die korrigierte empirische Standardabweichung berechnen.

Abbildung 6: Boxplots der Flossenlänge der Pinguine aus dem Datensatz `penguins` aufgeteilt nach Insel.

Tipps zu Aufgabe 2

Sie können die Funktion var() benutzen.

Aufgabe 3

Überlegen Sie sich, wie ein Näherungswert der Varianz berechnet werden könnte, wenn Ihnen nur die Klassen und die Klassenzugehörigkeiten der Beobachtungen eines klassierten Merkmals bekannt sind.

Hinweis: Im Abschnitt über das arithmetische Mittel haben Sie bereits gelernt, wie dessen Näherungswert berechnet wird.

Tipps zu Aufgabe 3

Wie bei dem arithmetischen Mittel für klassierte Daten wird für jede Klasse ein Repräsentant gewählt und mit den absoluten oder relativen Häufigkeiten der jeweiligen Klasse gearbeitet. Wie müssen wir mit diesen Komponenten die Formel \begin{align*} s^2 = \dfrac{1}{n-1} \sum_{i=1}^n (x_i - \bar{x})^2 \end{align*} abwandeln?

2.3 Mediane absolute Distanz (MAD)

Ein weniger bekanntes Streuungsmaß ist die mediane absolute Abweichung. Hier knüpft man an die Definition des Medians an, in dem man den Median der absoluten Abweichungen der Beobachtungen zum Median \tilde{x}_{0.5} der Beobachtungen berechnet. Auf diese Weise erhalten wir ein robustes Streuungsmaß:

Definition 5 (Mediane absolute Distanz (MAD))

Sei (x_1, \dots, x_n) eine Stichprobe eines kardinal skalierten Merkmals X mit Median \tilde{x}_{0.5}. Bezeichne mit y_i = \vert x_i - \tilde{x}_{0.5} \vert den Abstand zwischen der i-ten Beobachtung und dem Median und y_{(1)},\dots, y_{(n)} die nach der Größe geordneten aboluten Abstände. Dann ist die mediane absolute Abweichung gegeben durch den Median der Stichprobe \left(y_{(1)},\dots, y_{(n)}\right): \begin{align*} s_{\text{MAD}} = \tilde{y}_{0.5} = \begin{cases} y_{\left(\frac{n+1}{2}\right)}, & \text{falls } \frac{n}{2} \notin \mathbb{N} \\ \frac{1}{2}\left(y_{\left(\frac{n}{2}\right)} + y_{\left(\frac{n}{2} + 1\right)}\right), & \text{falls ~} \frac{n}{2} \in \mathbb{N} \end{cases} \end{align*}

Beispiel 3 (Fortsetzung: Körpergröße bei 12 Personen)

Die sortierte Stichprobe lautet: 158.0, 161.5, 164.0, 167.5, 170.5, 174.5, 177.5, 179.5, 181.0, 183.0, 186.5, 192.0

Den Median kennen wir bereits aus Berechnungen im vorherigen Kapitel oder können wir aus der sotierten Stichprobe berechnen und lautet \tilde{x}_{0.5} = 176.0.

Die absoluten Abstände der Beobachtungen zum Median sind also:
18.0, 14.5, 12.0, 8.5, 5.5, 1.5, 1.5, 3.5, 5.0, 7.0, 10.5, 16.0

Nun sortieren wir diese nach der Größe: 1.5, 1.5, 3.5, 5.0, 5.5, 7.0, 8.5, 10.5, 12.0, 14.5, 16.0, 18.0

Hieraus können wir erneut den Median berechnen, welcher gleichzeitig der gesuchte MAD der Stichprobe ist: s_{\text{MAD}} = \frac{7.0 + 8.5}{2} = 7.75.

Die mediane absolute Distanz können wir in R mittels der zugehörigen Funktion mad() bestimmen. Die Funktion enthält jedoch einen Skalierungsfaktor, sodass constant = 1 gesetzt werden muss, um den hier eingeführten MAD zu erhalten.

mad(data$groesse, constant = 1)

[1] 7.75

Bemerkungen:

Manchmal steht die Abkürzung ‘MAD’ auch für ein weiteres Streuungsmaß die mittlere absolute Distanz: \frac{1}{n}\sum_{i = 1}^n \vert x_i - \tilde{x}_{0.5} \vert. Hierbei wird also statt des Medians das arithmetische Mittel berechnet. Die mittlere absolute Distanz ist allerdings sensitiv gegenüber Ausreißern und somit kein robustes Streuungsmaß.
Sei Y = a \cdot X + b mit a, b \in \mathbb{R}, a \neq 0, eine lineare Transformation eines kardinal skalierten Merkmals X. Dann gilt s_{\text{MAD},y} = \vert a \vert \cdot s_{\text{MAD},x}.

Aufgabe 4

Betrachten Sie erneut den Datensatz penguins aus dem R-Paket palmerpenguins. Berechnen Sie die mediane absolute Distanz der Flossenlänge (flipper_length_mm) getrennt nach Insel (island). Vergleichen Sie die Ergebnisse mit denen aus Aufgabe 2.

Tipps zu Aufgabe 4

Sie können die Funktion mad() benutzen.

2.4 Entropie

Die Entropie ist ein Maß, welches ursprünglich aus der Nachrichtentechnik stammt. Es ist für nominal skalierte Merkmale geeignet, da wir nicht direkt die Distanz der Merkmalsausprägungen betrachten, sondern die Unterschiede der relativen Häufigkeiten.

Definition 6 (Entropie)

Sei (x_1,\dots,x_n) eine Stichprobe eines nominal skalierten Merkmals X mit unterschiedlichen Merkmalsausprägungen a_1,\dots, a_l. Dann definieren wir die Entropie als \begin{align*} H &= h(a_1) \, \text{ln}\left(\frac{1}{h(a_1)}\right) + h(a_l) \, \dotsc + \text{ln}\left(\frac{1}{h(a_l)}\right) \\ &= \sum_{j = 1}^l h(a_j) \, \text{ln}\left(\frac{1}{h(a_j)}\right), \end{align*} wobei h(a_j) die relative Häufigkeit der Ausprägung a_j in der Stichprobe ist. Dabei legen wir fest, dass 0 \cdot \text{ln}(\frac{1}{0}) = 0 sei.

Bemerkungen:

Die Entropie H kann als Streuungsmaß aufgefasst werden, denn
- H \ge 0
- H = 0 genau dann, wenn alle Beobachtungen gleich sind, also keine Streuung vorhanden ist.
- H nimmt sein Maximum an, wenn alle Merkmalsausprägungen gleich häufig vorkommen, also h(a_j) = \frac{1}{l} für alle j \in \{1,\dots,l\}. Dann gilt H = \sum_{j = 1}^l \frac{1}{l} \, \text{ln}(l) = \text{ln}(l).
Normierung der Entropie H^* = \frac{H}{\text{ln}(l)} bewirkt, dass 0 \le H^* \le 1.

Beispiel 4 (Fortsetzung: Blutgruppe bei 12 Personen)

Die Stichprobe lautet: A, A, B, AB, 0, 0, A, 0, B, A, 0, A

Merkmalsausprägung a_j:	A	B	AB	0	\sum
abs. Häufigkeiten H(a_j):	5	2	1	4	12
rel. Häufigkeiten h(a_j):	5/12	1/6	1/12	1/3	1

Die Entropie ist also H = \frac{5}{12} \cdot \ln(\frac{12}{5}) + \frac{1}{6} \cdot \ln(6) + \frac{1}{12} \cdot \ln(12) + \frac{1}{3} \cdot \ln(3) \approx 1.23.

Die normierte Entropie lautet H^* = \frac{H}{\ln(4)} \approx 0.89.

In R gibt es keine explizite Funktion zur Berechnung der Entropie ohne, dass wir spezielle Pakete installieren und laden müssen. Wir können die Berechnung aber leicht ‘händisch’ durchführen:

# Stichprobengröße
n <- length(data$blutgruppe)

# Anzahl Merkmalsausprägungen
l <- length(unique(data$blutgruppe))

# Berechnung der rel. Häufigkeiten
h <- unname(table(data$blutgruppe) / n)

# Berechnung der Entropie
H <- sum(h * log(1 / h))
H

[1] 1.236685

# Berechnung der normierten Entropie
H / log(l)

[1] 0.8920796

Aufgabe 5

Betrachten Sie erneut den Datensatz penguins aus dem R-Paket palmerpenguins. Die folgende Tabelle zeigt die zweidimensionale Häufigkeitsverteilung der Pinguinarten getrennt nach Insel:

table(penguins$species, penguins$island)

           
            Biscoe Dream Torgersen
  Adelie        44    56        52
  Chinstrap      0    68         0
  Gentoo       124     0         0

Berechnen Sie die Entropie des Merkmals Pinguinart (species) auf den verschiedenen Inseln (island) und erklären Sie Ihre Ergebnisse auch mithilfe der obigen Tabelle.

Tipps zu Aufgabe 5

Sie könnten eine Funktion zur Berechnung der Entropie schreiben, damit Sie die Berechnung nicht jedes Mal neu aufschreiben müssen.

3 Schiefe und Wölbung

Mit den Lage- und Streuungsmaßen aus den vorherigen Abschnitten können wir nun schon die zentrale Position unserer Häufigkeitsverteilung auf einer gegebenen Skala und die Variabilität der Beobachtungen beschreiben. Trotzdem kann es zwei Häufigkeitsverteilungen geben, die trotz gleicher Lage- und Streuungsmaße (z.B. gleichem arithmetischen Mittel und empirische Standardabweichung) sehr unterschiedlich sind:

In Abbildung 7 sehen wir Histogramme von drei verschiedenen unimodalen Häufigkeitsverteilungen mit fast gleichem arithmetischen Mittel und empirische Standardabweichung. Man sieht trotzdem auf einem Blick, dass sie sich in ihrer Form stark unterscheiden:

Symmetrie / Schiefe: Während die Stichprobe in (b) und (c) relativ symmetrisch um den Wert 7 liegt, können wir bei (a) keine Symmetrie erkennen. Die Häufigkeitsverteilung in (a) würden wir auch als rechtsschief oder linkssteil beschreiben, da die Verteilung zum Modalwert bzw. zur Modalklasse von links steiler ansteigt als sie nach rechts hin abfällt.
Wölbung: Vergleichen wir (b) und (c) erkennen wir, dass (c) zur Mitte deutlich steiler verläuft als (b). (a) ist aufgrund der Asymmetrie bzgl. dieser Eigenschaft nicht mit den anderen beiden vergleichbar, da die linke und rechte Hälfte unterschiedlich steil sind.

In den folgenden beiden Abschnitten möchten wir daher über die Symmetrie bzw. Schiefe und die Wölbung von Häufigkeitsverteilungen quantitativer Merkmale sprechen und jeweils ein Maß zur Beschreibung dieser Eigenschaft vorstellen.

3.1 Schiefemaße

Anschaulich heißt eine Häufigkeitsverteilung symmetrisch, wenn sich ihr Histogramm an einer vertikalen Linie entlang des arithmetischen Mittels spiegeln lässt.

Definition 7 (Symmetrie)

Sei (x_1,\dots,x_n) eine Stichprobe eines kardinal skalierten Merkmals X, welches mit Klassengrenzen k_0 \le k_1 \le \dotsc, k_l klassiert ist. Dann ist die zugehörige Häufigkeitsverteilung symmetrisch, falls für c > 0 gilt, dass f_n(\bar{x} - c) = f_n(\bar{x} + c) gilt, wobei \bar{x} das arithmetische Mittel und f_n(x) die Häufigkeitsdichte an der Stelle x ist. Andernfalls heißt sie asymmetrisch.

Bemerkungen:

Für eine symmetrische Verteilung gilt, dass das arithmetische Mittel und der Median übereinstimmen, also \bar{x} = \tilde{x}_{0.5}.
Eine exakte Symmetrie findet man in der Praxis eher selten, da eine Stichprobe ja in gewisser Weise Zufälligkeiten unterliegt. Daher nennt man auch Verteilungen (annähernd) symmetrisch, die diese Eigenschaft näherungsweise erfüllen.
Eine unimodale asymmetrische Verteilung wird auch schief genannt. Wir unterscheiden zwei Fälle:
- Rechtsschiefe bzw. linkssteile Häufigkeitsverteilungen. In diesem Fall ist das arithmetische Mittel stets größer als der Median ist, also \bar{x} > \tilde{x}_{0.5}.
- Linksschiefe bzw. rechtsssteile Häufigkeitsverteilungen. In diesem Fall ist das arithmetische Mittel stets kleiner als der Median ist, also \bar{x} < \tilde{x}_{0.5}.

Wie auch für die Lage und Streuung gibt es verschiedene Maße zur Beschreibung der Schiefe. Im Folgenden lernen wir den Momentenkoeffizienten der Schiefe nach Fisher kennen.

Definition 8 (Momentenkoeffizient der Schiefe)

Sei (x_1,\dots,x_n) eine Stichprobe eines kardinal skalierten Merkmals X. Der Momentenkoeffizient der Schiefe ist definiert als sk = \dfrac{1}{n} \sum\limits_{i = 1}^n \left( \frac{x_i - \bar{x}}{s} \right)^3.

Für rechtsschiefe Verteilungen gilt sk > 0, für linksschiefe Verteilungen gilt sk < 0 und für symmetrische Verteilungen sk = 0.

Beispiel 5 (Fortsetzung: Körpergröße bei 12 Personen)

Die Stichprobe lautet: 170.5, 183.0, 174.5, 158.0, 167.5, 179.5, 192.0, 177.5, 186.5, 161.5, 181.0, 164.0

Die Berechnung des Momentenkoeffizient der Schiefe teilen wir wie schon bei der empirischen Varianz (siehe Beispiel 2) in mehrere Schritte auf und notieren uns diese einzelnen Schritte zur besseren Übersicht in einer Tabelle.

Das arithmetische Mittel \bar{x} = 174.625 und die Standardabweichung kennen wir aus Beispiel 2 und lauten \bar{x} = 174.625 und s = 10.510.

\boldsymbol{i}	\boldsymbol{x_i}	\boldsymbol{(x_i-\bar{x})}	\boldsymbol{\dfrac{x_i-\bar{x}}{s}}	\boldsymbol{\left(\dfrac{x_i-\bar{x}}{s}\right)^3}
1	170.5	-4.125	-0.392	-0.060
2	183.0	8.375	0.797	0.506
3	174.5	-0.125	-0.012	0.000
4	158.0	-16.625	-1.582	-3.959
5	167.5	-7.125	-0.678	-0.312
6	179.5	4.875	0.464	0.100
7	192.0	17.375	1.653	4.517
8	177.5	2.875	0.274	0.021
9	186.5	11.875	1.130	1.443
10	161.5	-13.125	-1.249	-1.948
11	181.0	6.375	0.607	0.224
12	164.0	-10.625	-1.011	-1.033

\boldsymbol{\sum}	2095.5	0	0.001*	-0.501

* In den letzten beiden Spalten haben wir die Ergebnisse auf 3 Nachkommastellen gerundet. Daher auch die leichte Abweichung der dritten Spaltensumme von Null.

Mit der letzten Spaltensumme berechnen wir schließlich die Schiefe;

sk = \dfrac{1}{12} \cdot (-0.501) = -0.042

Der Momentenkoeffizient der Schiefe ist also beinahe Null. Das spricht für eine ziemlich symmetrische Verteilung. Die geringe Abweichung von Null könnte durch die Zufälligkeit der Daten erklärt werden.

In R gibt es keine Standardfunktion zur Berechnung des Momentenkoeffizienten der Schiefe. Wir berechnen ihn also ‘händisch’:

# arith Mittel:
x.bar <- mean(data$groesse)

# Standardabweichung:
s <- sd(data$groesse)

# Berechnung des Momentenkoeffizienten der Schiefe:
sk <- mean(((data$groesse - x.bar) / s) ^ 3)
sk

[1] -0.0417261

Aufgabe 6

Betrachten Sie erneut den Datensatz penguins aus dem R-Paket palmerpenguins. Untersuchen Sie die Merkmale

Körpergewicht (body_mass_g)
Flössenlänge (flipper_length_g)

auf Symmetrie bzw. Rechts- oder Linksschiefe. Verwenden Sie dazu verschiedene Kennzahlen und Grafiken.

Tipps zu Aufgabe 6

Um anhand einer Grafik eine Entscheidung bezüglich der Schiefe zu treffen, können Sie sich beispielsweise Histogramme oder Boxplots anschauen.
Bei dem Berechnen des Momentenkoeffizienten der Schiefe sind die Funktionen mean() und sd() hilfreich.
Auch der Vergleich vom arithmetischen Mittel mit dem Median kann helfen.

3.2 Wölbungsmaße

Die Wölbung, auch Kurtosis genannt, beschreibt die Steilheit einer unimodalen Häufigkeitsverteilung. Ein Maß zur Beschreibung der Wölbung ist der Momentenkoeffizient der Wölbung:

Definition 9 (Momentenkoeffizient der Wölbung)

Sei x_1,\dots,x_n eine Stichprobe eines kardinal skalierten Merkmals X. Der Momentenkoeffizient der Wölbung ist definiert als w = \dfrac{1}{n} \sum\limits_{i = 1}^n \left(\frac{x_i - \bar{x}}{s}\right)^4.

Bemerkungen:

Es gilt immer w > 0. Je größer die Wölbung ist, desto spitzer ist die Verteilung.
Die Normalverteilung besitzt eine Wölbung von w = 3. Da wir gegebene Daten gern mit der Normalverteilung vergleichen, berechnet man statt der Wölbung w auch den Exzess, auch Überschuss genannt, ex = w - 3.
- Im Falle von ex > 0 spricht man von einer leptokurtischen (spitzen) Häufigkeitsverteilung.
- Im Falle von ex = 0 spricht man von einer mesokurtischen (normalen) Häufigkeitsverteilung.
- Im Falle von ex < 0 spricht man von einer platykurtischen (flachen) Häufigkeitsverteilung.
Die Betrachtung der Wölbung ergibt bei schiefen Verteilung wenig Sinn, da sie auf einer Seite steil und auf der anderen Seite flach verlaufen können.

Beispiel 6 (Fortsetzung: Körpergröße bei 12 Personen)

Die Stichprobe lautet: 170.5, 183.0, 174.5, 158.0, 167.5, 179.5, 192.0, 177.5, 186.5, 161.5, 181.0, 164.0

In Beispiel 5 haben wir gesehen, dass die Stichprobe annäherend symmetrisch ist, weshalb eine Betrachtung der Wölbung Sinn ergibt.

Die händische Berechnung des Momentenkoeffizient der Wölbung wird analog zur Berechnung des Momentenkoeffizient der Schiefe mithilfe einer Tabelle durchgeführt.

Das arithmetische Mittel \bar{x} = 174.625 und die Standardabweichung kennen wir aus Beispiel 2 und lauten \bar{x} = 174.625 und s = 10.510.

\boldsymbol{i}	\boldsymbol{x_i}	\boldsymbol{(x_i-\bar{x})}	\boldsymbol{\dfrac{x_i-\bar{x}}{s}}	\boldsymbol{\left(\dfrac{x_i-\bar{x}}{s}\right)^4}
1	170.5	-4.125	-0.392	0.024
2	183.0	8.375	0.797	0.403
3	174.5	-0.125	-0.012	0.000
4	158.0	-16.625	-1.582	6.264
5	167.5	-7.125	-0.678	0.211
6	179.5	4.875	0.464	0.046
7	192.0	17.375	1.653	7.466
8	177.5	2.875	0.274	0.006
9	186.5	11.875	1.130	1.630
10	161.5	-13.125	-1.249	2.434
11	181.0	6.375	0.607	0.136
12	164.0	-10.625	-1.011	1.045

\boldsymbol{\sum}	2095.5	0	0.001*	19.665

* In den letzten beiden Spalten haben wir die Ergebnisse auf 3 Nachkommastellen gerundet. Daher auch die leichte Abweichung der dritten Spaltensumme von Null.

Mit der letzten Spaltensumme berechnen wir schließlich die Wölbung:

w = \dfrac{1}{12} \cdot 19.665 = 1.639

Der Exzess ist somit:

ex = w - 3 = -1.361

Der Exzess ist kleiner Null. Es handelt sich also verglichen mit der Normalverteilung um eine flache, platykurtische Häufigkeitsverteilung.

In R gibt es keine Standardfunktion zur Berechnung des Momentenkoeffizienten der Wölbung. Wir berechnen die Wölbung und den Exzess also ‘händisch’:

# arith Mittel:
x.bar <- mean(data$groesse)

# Standardabweichung:
s <- sd(data$groesse)

# Berechnung des Momentenkoeffizienten der Schiefe:
w <- mean(((data$groesse - x.bar) / s) ^ 4)
w

[1] 1.638506

# Berechnung des Exzess:
ex <- w - 3
ex

[1] -1.361494

Zum Vergleich plotten wir einmal ein Histogramm und eine Kerndichteschätzung der Daten und vergleichen das mit der Dichte der Normalverteilung mit arithmetischen Mittel 174.625 und Standardabweichung 10.510:

# Histogramm 
hist(data$groesse, breaks = c(140, 150, 160, 170, 180, 190, 200, 210), 
     freq = F, ylim = c(0, 0.04), main = "", xlab = "Körpergröße in cm",
     ylab = "Dichte")

# Kerndichteschätzung
lines(density(data$groesse, bw = "SJ"), col = "dodgerblue2", lwd = 2)

# Dichte einer Normalverteilung mit mean = 174.625 und sd = 10.510
dn <- function(x) dnorm(x, mean = 174.625, sd = 10.510)
curve(dn, 140, 210, col = "darkred", lwd = 2, add = T)

Abbildung 9: Histogramm der Körpergrößen zusammen mit der Kurve einer Kerndichteschätzung (blau) der gleichen Daten und der Dichtekurve (rot) einer Normalverteilung mit Erwartungswert 174.625 und Standardabweichung 10.510.

in Abbildung 9 sieht man deutlich, dass die Kurve der Kerndichteschätzung (blau) unserer Daten flacher ist als die Dichte der Normalverteilung (rot).

Aufgabe 7

Betrachten Sie die Flossenlänge (flipper_length_mm) der Chinstrap-Pinguine des Datensatzes penguins aus dem R-Paket palmerpenguins. Vergleichen Sie die Wölbung der Häufigkeitsverteilung dieses Merkmals mit der Wölbung der Normalverteilung, indem Sie den Exzess berechnen. Fertigen Sie anschließend noch einen grafischen Vergleich zwischen der Häufigkeitsverteilung und der Normalverteilung an.

Tipps zu Aufgabe 7

Bei dem Berechnen des Exzesses sind die Funktionen mean() und sd() hilfreich.
Für den grafischen Vergleich können Sie die Funktionen hist(), density(), lines(), dnorm()und curve() verwenden.

4 Zusammenfassung

Kennzahlen reduzieren eine Stichprobe auf einen einzelnen Wert, der eine Eigenschaft der Häufigkeitsverteilung beschreibt. Streuungsmaße sind spezielle Kenzahlen, die die Streuung oder Variabilität der Stichprobe beschreibt, d.h. wie sehr weichen die Beobachtungswerte von der zentralen Lage der Stichprobe ab. In diesem Kapitel haben wir mehrere solcher Maße kennengelernt: Spannweite, p-Quantilsabstände, empirische Varianz und Standardabweichung, Mediane absolute Distanz und Entropie. Bis auf die letzt genannte Kennzahl eignen sich diese nur für kardinal skalierte Merkmale, da nur für diese der Abstand zwischen zwei Merkmalsausprägungen gemessen werden kann. Die Entropie eignet sich hingegen auch für qualitative Merkmale, da hier der Unterschied der relativen Häufigkeiten betrachtet wird.

Zwei weitere Charakteristiken von Häufigkeitsverteilungen kardinal skalierter Merkmale ist die Symmetrie bzw. Schiefe und Wölbung. Diese kann man mithilfe von Histogrammen und Boxplots detektieren, so wie mit den Momentenkoeffizienten der Schiefe und Wölbung.

Lösungen der Aufgaben

Lösung zu Aufgabe 1

Abbildung 10: Boxplots des Gewichts der Pinguine aus dem Datensatz `penguins` aufgeteilt nach Insel.

Um die Spannweiten an der Grafik abzulesen, müssen wir den höchsten und den niedrigsten Wert bestimmen und die Differenz berechnen. Bei der Insel Biscoe geht die obere Antenne ungefähr bis 6350 g und die untere Antenne bis 2900 g. Daraus ergibt sich eine Spannweite von:

# Biscoe
6350 - 2900

[1] 3450

Analog erhalten wir beim Ablesen der niedrigsten und höchsten Punkte für die anderen Inseln Spannweiten von ungefähr:

# Dream
4800 - 2700

[1] 2100

# Torgersen
4700 - 2900

[1] 1800

Um der Grafik die Interquartilsabstände zu entnehmen, müssen wir uns die obersten und untersten Punkte der Box anschauen und die Differenz berechnen. Bei der Insel Biscoe reicht die Box ungefähr von 4250 g bis zu 5400 g. Damit ergibt sich ein Interquartilsabstand von:

# Biscoe
5400 - 4250

[1] 1150

Analog erhalten wir bei den anderen Inseln Interquartilsabstände von ungefähr:

# Dream
3975 - 3400

[1] 575

# Torgersen
4000 - 3350

[1] 650

Jetzt können wir unsere abgelesenen Werte kontrollieren. Mithilfe der Funktion split() können wir für die Inseln jeweils einen eigenen Datensatz erstellen. Diese werden in einer Liste gespeichert.

#install.packages("palmerpenguins")
library(palmerpenguins)

penguins_island <- split(penguins, f = penguins$island)

Nun können wir mit den Funktionen max(), min() und IQR() die Spannweiten und Interquartilsabstände berechnen. Da der Datensatz NAs enthält, dürfen wir nicht vergessen, na.rm = TRUE zu setzen.

# Spannweiten

# Biscoe
sp_b <- max(penguins_island[[1]]$body_mass_g, na.rm = TRUE) -
  min(penguins_island[[1]]$body_mass_g, na.rm = TRUE)
# Dream 
sp_d <- max(penguins_island[[2]]$body_mass_g) - min(penguins_island[[2]]$body_mass_g)
# Torgersen
sp_t <- max(penguins_island[[3]]$body_mass_g, na.rm = TRUE) - 
  min(penguins_island[[3]]$body_mass_g, na.rm = TRUE)

c(sp_b, sp_d, sp_t)

[1] 3450 2100 1800

# Interquartilsabstände

# Biscoe
iqr_b <- IQR(penguins_island[[1]]$body_mass_g, na.rm = TRUE, type = 2)
# Dream
iqr_d <- IQR(penguins_island[[2]]$body_mass_g, type = 2)
# Torgersen
iqr_t <- IQR(penguins_island[[3]]$body_mass_g, na.rm = TRUE, type = 2)

c(iqr_b, iqr_d, iqr_t)

[1] 1150.0  562.5  675.0

Das Ablesen scheint gut funktioniert zu haben. Es gibt nur einmal eine geringe Abweichung zum wahren berechneten Wert.

Beschreibung der Ergebnisse: Beide Maße - Spannweite und Interquartilsabstand - sowie die Boxplots zeigen übereinstimmend, dass das Gewicht der Pinguine auf der Insel Biscoe mehr streut als auf den anderen beiden Inseln. Die Streuung der anderen beiden Inseln liegt näher beieinander. Vergleicht man allerdings die Ergebnisse für Spannweite und Interquartilsabstand, sehen wir, dass sich die Reihenfolge verändert. Die Spannweite der Insel Dream ist größer, während der Interquartilsabstand kleiner ist, als die entsprechenden Kennwerte der Insel Torgersen.

Bei der Beschreibung und Interpretation der Ergebnisse sollte man daher stets achtsam sein und sich bewusst machen, was die Zahlen genau aussagen. In diesem Fall: Die 50% mittigen Beobachtungen der Insel Dream streuen weniger um ihren Median als es die 50% mittigen Beobachtung der Insel Torgersen tun. Dafür liegen die extremen Beobachtungen der erst genannten Insel weiter auseinander.

Zurück zu Aufgabe 1

Lösung zu Aufgabe 2

Abbildung 11: Boxplots der Flossenlänge der Pinguine aus dem Datensatz `penguins` aufgeteilt nach Insel.

In der Grafik ist für die drei Inseln Biscoe, Dream und Torgersen jeweils ein Boxplot der Flossenlänge der Pinguine in mm abgebildet. Dabei können wir erkennen, dass der Boxplot zur Insel Biscoe einen deutlich größeren Wertebereich abdeckt als die anderen beiden und auch die Box deutlich größer ist. Dies ist ein Hinweis darauf, dass die Streuung bei den Pinguinen dieser Insel am größten ist. Während der Wertebereich der Flossenlängen bei den Inseln Dream und Torgersen relativ ähnlich groß ist, ist die Box bei dem Plot der Insel Dream etwas größer. Dies deutet auf eine leicht höhere Streuung hin, jedoch lassen die Boxplots keinen allzu großen Unterschied in der Streuung vermuten.

Nun wollen wir die Vermutungen mit den korrigierten empirischen Varianzen überprüfen. Mithilfe der Funktion split() können wir für jede Insel einen eigenen Datensatz erstellen. Diese werden in einer Liste gespeichert.

#install.packages("palmerpenguins")
library(palmerpenguins)

penguins_island <- split(penguins, f = penguins$island)

Jetzt können wir die verschiedenen korrigierten empirischen Varianzen berechnen. Da der Datensatz NAs enthält, dürfen wir nicht vergessen, na.rm = TRUE zu setzen.

# Biscoe
sd_b <- sd(penguins_island[[1]]$flipper_length_mm, na.rm = TRUE)
# Dream
sd_d <- sd(penguins_island[[2]]$flipper_length_mm, na.rm = TRUE)
# Torgersen
sd_t <- sd(penguins_island[[3]]$flipper_length_mm, na.rm = TRUE)

c(sd_b, sd_d, sd_t)

[1] 14.142268  7.507366  6.232238

Unsere Vermutungen waren also richtig. Die Flossenlänge auf der Insel Biscoe hat bezüglich der korrigierten empirischen Standardabweichung die höchste Streuung. Die typische Abweichung der Werte zum arithmetischen Mittel ist dort ca. doppelt so hoch wie bei den anderen beiden Inseln. Die niedrigste Streuung finden wir auf der Insel Torgersen.

Zurück zu Aufgabe 2

Lösung zu Aufgabe 3

Da Sie die Klassen und die Klassenzugehörigkeiten kennen, sind Ihnen auch die absoluten Häufigkeiten H(K_j) und rel. Häufigkeiten h(K_j) = \frac{H(K_j)}{n} der einzelnen Klassen bekannt. Man benötigt außerdem für jede Klasse einen Repräsentanten. Ohne weitere Informationen wird in der Regel die Klassenmitte \tilde{a}_j = (k_j+k_{j-1})/2 als Repräsentant verwendet.

Beim arithmetischen Mittel wurde folgende Nährung angegeben: \bar{x} \approx \sum_{j}^l h(K_j) \cdot a^*_j = \frac{1}{n} \sum_{j}^l H(K_j) \cdot a^*_j. Dieses Vorgehen adaptieren wir auf die Varianz. Dann können wir die korrigierte empirische Varianz durch s^2 \approx \frac{1}{n-1}\sum\limits_{j = 1} ^l H(K_j) (a_j^* - \bar{x}^*)^2 \quad \text{mit} \quad \bar{x}^* = \sum_{i=j}^l h(K_j) \cdot a^*_j annähern.

Zurück zu Aufgabe 3

Lösung zu Aufgabe 4

Mithilfe der Funktion split() können wir für jede Insel einen eigenen Datensatz erstellen. Diese werden in einer Liste gespeichert.

#install.packages("palmerpenguins")
library(palmerpenguins)

penguins_island <- split(penguins, f = penguins$island)

Nun können wir die verschiedenen MADs berechnen. Da sich NAs in dem Datensatz befinden, dürfen wir nicht vergessen na.rm = TRUE in der Funktion mad() zu verwenden.

# Biscoe
mad_b <- mad(penguins_island[[1]]$flipper_length_mm, constant = 1, na.rm = TRUE)
# Dream
mad_d <- mad(penguins_island[[2]]$flipper_length_mm, constant = 1, na.rm = TRUE)
# Torgersen
mad_t <- mad(penguins_island[[3]]$flipper_length_mm, constant = 1, na.rm = TRUE)

c(mad_b, mad_d, mad_t)

[1] 6 5 4

# Vergleich mit Standardabweichung:
c(sd_b, sd_d, sd_t)

[1] 14.142268  7.507366  6.232238

Wie in Aufgabe 2 hat die Flossenlänge auch bezüglich des MADs die höchste Streuung auf der Insel Biscoe und die niedrigste Streuung auf der Insel Torgersen. Die MADs sind allesamt kleiner als die zugehörigen Standardabweichungen. Der Unterschied ist besonders bei der Insel Biscoe zu sehen. Anhand der MAD lässt sich bzgl. der Streuung kein größerer Unterschied zwischen den Inseln Biscoe und Dream als zwischen den Inseln Torgersen und Dream feststellen.

Zurück zu Aufgabe 4

Lösung zu Aufgabe 5

Mithilfe der Funktion split() können wir für jede Insel einen eigenen Datensatz erstellen. Diese werden in einer Liste gespeichert.

#install.packages("palmerpenguins")
library(palmerpenguins)

penguins_island <- split(penguins, f = penguins$island)

Um nur Ergebnisse zwischen 0 und 1 zu erhalten und somit die Größe der Streuung besser einordnen zu können, berechnen wir die normierte Entropie. Dafür schreiben wir selber eine Funktion normierte_Entropie(), mit der wir die normierte Entropie eines Datensatzes bestimmen können.

# Unsere eigene normierte Entropie Funktion mit den Argumenten:
normierte_Entropie <- function(x){
  # Fehlende Werte aus der Stichprobe entfernen
  x <- x[!is.na(x)]
  # Anzahl Merkmalsausprägungen
  l <- length(table(x))
  # Stichprobengröße
  n <- length(x)
  # Berechnung der rel. Häufigkeiten 
  # und entfernen der rel. Häufigkeiten, die Null sind
  h <- unname(table(x) / n)[-which(table(x) == 0)]
  # Berechnung der Entropie
  H <- sum(h * log(1 / h))
  # Berechnung der normierten Entropie
  return(H / log(l))
}

Nun wenden wir die Funktion für jede Insel auf den Datensatz der Pinguinarten an.

# Biscoe
entropie_b <- normierte_Entropie(penguins_island[[1]]$species)
# Dream
entropie_d <- normierte_Entropie(penguins_island[[2]]$species)
# Torgersen
entropie_t <- normierte_Entropie(penguins_island[[3]]$species)

c(entropie_b, entropie_d, entropie_t)

[1] 0.5234238 0.6266608 0.0000000

Die zweidimensionale Häufigkeitsverteilung lautete:

table(penguins$species, penguins$island)

           
            Biscoe Dream Torgersen
  Adelie        44    56        52
  Chinstrap      0    68         0
  Gentoo       124     0         0

Die (normierte) Entropie ist klein, wenn sich die Beobachtungen sehr ungleichmäßig auf die Ausprägungen verteilen, und sie ist groß, wenn sich die Beobachtungen sehr gleichmäßig auf die Beobachtungen verteilen.

Die Entropie bzgl. der Insel Torgersen ist daher Null, denn in diesem Datensatz gibt es nur eine Pinguinart, wie man in der Tabelle ablesen kann. Alle Beobachtungen sind also gleich und es existiert keine Streuung. Auch bzgl. der anderen beiden Inseln liegt die normierte Entropie, die immer Werte zwischen 0 und 1 annimmt, im mittleren Bereich, da auch in diesen Datensätzen jeweils eine der drei Pinguinarten nicht vertreten ist. Dabei ist die Entropie bzgl. der Insel Dream noch leicht höher, da beide Pinguinarten Adelie und Chinstrap ausgewogen vertreten sind, während im Datensatz der Insel Biscoe fast dreimal mehr Pinguine der Art Gentoo als Adelie enthalten sind.

Zurück zu Aufgabe 5

Lösung zu Aufgabe 6

Zunächst berechnen wir mehrere Kennzahlen:

#install.packages("palmerpenguins")
library(palmerpenguins)

# Momentenkoeffizient der Schiefe
x <- penguins$body_mass_g
x.bar <- mean(x, na.rm = T)
s <- sd(x, na.rm = T)
mean(((x - x.bar) / s) ^ 3, na.rm = T)

[1] 0.4662117

Der Momentenkoeffizient der Schiefe ist positiv. Er deutet somit auf eine rechtsschiefe Verteilung hin.

# arithmetisches Mittel und Median
c(x.bar, median(x, na.rm = T))

[1] 4201.754 4050.000

Das arithmetische Mittel ist größer als der Median. Auch dies spricht für eine rechtsschiefe Verteilung.

Nun betrachten wir das Histogramm zusammen mit der Kurve einer Kerndichteschätzung und den Boxplot der Stichprobe:

par(mfrow = c(1, 2))
# Histogramm
hist(
   x,
   freq = FALSE,
   main = "Histogramm", 
   xlab = "Flossenlänge in mm", 
   ylab = "Häufigkeitsdichte"
)
# Kerndichteschätzung
lines(density(x, bw = "SJ", na.rm = TRUE), lwd = 2, col = "darkred")
# Boxplot
boxplot(
  x,
  horizontal = TRUE,
  main = "Boxplot",
  xlab = "Flossenlänge in mm"
)

Beide grafischen Darstellungen unterstützen die These einer rechtsschiefen Verteilung.

Zunächst berechnen wir mehrere Kennzahlen:

# Momentenkoeffizient der Schiefe
x <- penguins$flipper_length_mm
x.bar <- mean(x, na.rm = T)
s <- sd(x, na.rm = T)
mean(((x - x.bar) / s) ^ 3, na.rm = T)

[1] 0.3426554

Der Momentenkoeffizient der Schiefe ist positiv. Er deutet somit auf eine rechtsschiefe Verteilung hin.

# arithmetisches Mittel und Median
c(x.bar, median(x, na.rm = T))

[1] 200.9152 197.0000

Das arithmetische Mittel ist nur minimal größer als der Median. Bei einer unimodalen Häufigkeitsverteilung würde dies eher für Symmetrie sprechen.

Nun betrachten wir das Histogramm zusammen mit der Kurve einer Kerndichteschätzung und den Boxplot der Stichprobe:

par(mfrow = c(1, 2))
# Histogramm
hist(
   x,
   freq = FALSE,
   main = "Histogramm", 
   xlab = "Flossenlänge in mm", 
   ylab = "Häufigkeitsdichte"
)
# Kerndichteschätzung
lines(density(x, bw = "SJ", na.rm = TRUE), lwd = 2, col = "darkred")
# Boxplot
boxplot(
  x,
  horizontal = TRUE,
  main = "Boxplot",
  xlab = "Flossenlänge in mm"
)

Während der Boxplot ebenfalls eine leichte Rechtsschiefe der Häufigkeitsverteilung vermuten lässt, da der Median in der linken Hälfte der Box liegt, deckt das Histogramm auf, dass eine bimodale Häufigkeitsverteilung vorliegt. Es wäre hier also nicht richtig von Schiefe zu sprechen. Allerdings unterstützt das Histogramm, dass die Häufigkeitsverteilung asymmetrisch ist.

Anhand dieses Beispiels sehen Sie, dass es sinnvoll ist, stets mehrere verschiedene Methoden zur Untersuchung einer statistischen Eigenschaft zu verwenden.

Zurück zu Aufgabe 6

Lösung zu Aufgabe 7

Wir wollen einen Datensatz erstellen, der nur die Daten zu den Pinguinen der Art Chinstrap enthält. Eine Möglichkeit ist es, alle Zeilen des Datensatzes penguins abzuspeichern, in denen die Spezies Chinstrap vorliegt.

#install.packages("palmerpenguins")
library(palmerpenguins)

penguins_chinstrap <- penguins[which(penguins$species == "Chinstrap"), ]

Bevor wir die Wölbung untersuchen, kontrollieren wir zunächst, ob die betrachtete Häufigkeitsverteilung einigermaßen symmetrisch ist, da sonst die Betrachtung der Wölbung keinen Sinn ergibt. Wir berechnen daher den Momentenkoeffizienten der Schiefe und schauen uns das Histogramm an:

m <- mean(penguins_chinstrap$flipper_length_mm)
s <- sd(penguins_chinstrap$flipper_length_mm)

# Schiefe
sk <- mean(((penguins_chinstrap$flipper_length_mm - m) / s) ^ 3)
sk

[1] -0.009058643

# Histogramm
hist(
   penguins_chinstrap$flipper_length_mm,
   freq = FALSE,
   main = "Histogramm", 
   xlab = "Flossenlänge in mm", 
   ylab = "Häufigkeitsdichte"
)

Anhand der beiden Methoden schließen wir, dass die Häufigkeitsverteilung einigermaßen symmetrisch ist. Als nächstes berechnen wir alse den Exzess. Hierfür bestimmen wir zuerst die Wölbung und ziehen dann die Wölbung der Normalverteilung, nämlich 3, ab.

# Wölbung
w <- mean(((penguins_chinstrap$flipper_length_mm - m) / s) ^ 4)

# Exzess
w - 3

[1] -0.130241

Der Exzess ist mit -0.130241 negativ und somit ist die zugehörige Häufigkeitsverteilung platykurtisch (flach). Jedoch liegt der Exzess nahe Null, weshalb die Häufigkeitsverteilung nur leicht flacher als die Normalverteilung sein sollte. Dies überprüfen wir nun anhand einer Grafik. Wir plotten dafür das zugehörige Histogramm, die Kerndichteschätzung unserer Daten und die theoretische Dichte der Normalverteilung mit dem gleichen Mittelwert und der gleichen Standardabweichung.

# Histogramm
hist(
  penguins_chinstrap$flipper_length_mm,
  freq = FALSE,
  ylim = c(0, 0.055), 
  xlab = "Flossenlänge in mm",
  ylab = "rel. Häufigkeit/Klassenbreite",
  main = ""
)

# Kerndichteschätzung
lines(density(penguins_chinstrap$flipper_length_mm, bw =  "SJ", na.rm = TRUE), col = "dodgerblue2", lwd = 2)

# Dichte einer Normalverteilung mit gleichem mean und gleicher sd
dn <- function(x) dnorm(x, mean = m, sd = s)
curve(dn, 140, 220, col = "darkred", add = T, lwd = 2)

In der Grafik können wir erkennen, dass sich die beiden Kurven lediglich geringfügig unterscheiden. Die Kurve der Kerndichteschätzung (blau) unserer Daten ist jedoch leicht flacher als die Dichte der Normalverteilung (rot). Nur anhand des Histogramms und der Normalverteilungsdichte ist aber kein Unterschied in der Wölbung erkennbar.

Zurück zu Aufgabe 7

Autor:innen

Diese Lerneinheit “Deskriptive Statistik” wurde von Roland Fried und Christina Mathieu unter Mithilfe von Merle Mendel und Klemens Schmidt an der Technischen Universität Dortmund entwickelt. Es ist lizenziert unter der CC-BY-SA 4.0 Lizenz und ist verfügbar auf ORCA.nrw.

Literatur

Diepgen, Raphael. 1999. „Warum nur n-1 und nicht n? Erwartungstreue - leicht gemacht.“ Stochastik in der Schule 19, Heft 1: 10–13. https://www.stochastik-in-der-schule.de/sisonline/struktur/jahrgang19-99/heft1/1999-1_Diepgen.pdf.

Horst, Allison Marie, Alison Hill, und Kristen B. Gorman. 2020. palmerpenguins: Palmer Archipelago (Antarctica) penguin data. https://doi.org/10.5281/zenodo.3960218.