Kennzahlen für die Lage

Deskriptive Statistik

Zusammenfassung
In diesem Kapitel wird das Konzept von Kennzahlen vorgestellt. Diese reduzieren die Informationen einer Stichprobe auf eine Zahl, welche dann eine gewisse Eigenschaft beschreibt. Wir beschäftigen uns besonders mit Kennzahlen der Lage und stellen dazu den Modalwert, das arithmetische Mittel, das geometrische Mittel, den Median und das p-Quantil vor. Außerdem wird der Boxplot eingeführt, welcher eine auf 5 Kennzahlen beruhende grafische Darstellung der Häufigkeitsverteilung ist. Begleitet wird das Kapitel von anschaulichen Beispielen und Aufgaben, die größtenteils mit der statistischen Software R bearbeitet werden können.

Lernziele: Am Ende des Kapitels

  • kennen Sie die 4 Charakteristiken von unimodalen Verteilungen: Lage, Streuung, Schiefe und Wölbung.
  • können Sie entscheiden für welchen Merkmalstyp und welche Fragestellung welches Lagemaße besonders geeignet ist.
  • können Sie mit R Boxplots erzeugen und interpretieren.

Hinweis: Die mit einem gekennzeichneten Aufgaben können Sie durch schriftliches Rechnen lösen. Die mit gekennzeichneten Aufgaben setzen Grundkenntnisse der Programmierung mit der statistischen Software R voraus. Sie können R hier installieren, falls Sie R nicht auf Ihrem Rechner installiert haben. Zusätzlich empfiehlt sich die Installation einer integrierten Entwicklungsumgebung (IDE), wie zum Beispiel RStudio. Alternativ zur Installation können Sie die Web-Version webR direkt im Browser verwenden.

1 Einführung

Wir haben eine Stichprobe (x_1, x_2, \dots, x_n) eines Merkmals X gegeben. In den letzten Kapiteln dieser Lerneinheit haben wir bereits die Häufigkeitsverteilung und verschiedene grafische Darstellungen wie das Balkendiagramm oder Histogramm kennengelernt. In diesem und folgendem Kapitel beschäftigen wir uns mit sogenannten Kennzahlen, auch Maßzahlen genannt. Diese beschreiben die Stichprobe durch einen charakteristischen Wert. Dieser Wert kann eine Zahl oder auch eine beliebige Merkmalsausprägung sein.

Wir betrachten erneut das Beispiel aus den vorherigen Kapiteln:

Beispiel 1 (Blutgruppe und Körpergröße bei 12 Personen)

Es wurden in einer Umfrage 12 Personen nach ihrer Blutgruppe und Körpergröße gefragt. Folgende Tabelle zeigt die Ergebnisse:

ID 1 2 3 4 5 6 7 8 9 10 11 12
Blutgruppe A A B AB 0 0 A 0 B A 0 A
Größe 170.5 183.0 174.5 158.0 167.5 179.5 192.0 177.5 186.5 161.5 181.0 164.0

Die am häufigsten auftretende Blutgruppe ist ‘A’. Daher nennt man ‘A’ auch den Modalwert der Stichprobe.

Die durchschnittliche Körpergröße ist (170.5 + 183.0 + ... + 164.0) / 12 = 174.625. Diese Kennzahl nennt man auch arithmetisches Mittel.

Sowohl der Modalwert als auch das arithmetische Mittel beschreiben die Lage der Stichproben.

Kennzahlen reduzieren die Stichprobe auf einzelne Werte und beschreiben so einen bestimmten Aspekt oder eine einzelne Eigenschaft des Merkmals. Interessante Charakteristiken einer Stichprobe bzw. Häufigkeitsverteilung sind:

  • die Lage: Was ist die größte, was ist die kleinste oder was ist die mittlere Beobachtung? Welche Merkmalsausprägung wird am häufigsten beobachtet?

  • die Variabilität oder Streuung: Ähneln sich die Beobachtungen oder liegen sie weit auseinander?

  • die Schiefe: Liegen die Beobachtungen symmetrisch um die Mitte oder streuen sie auf einer Seite weniger als auf der anderen?

  • die Wölbung: Liegen die Beobachtungen gleichmäßig auf dem Wertebereich oder liegen die meisten Werte dicht beieinander und nur einige liegen deutlich entfernt?

Abbildung 1: Darstellung von Häufigkeitsverteilungen zweier quantitativ stetiger Merkmale zur Beschreibung der unterschiedlichen Lage mithilfe von Histogrammen und Kerndichteschätzern. Unterhalb sind die Stichproben mithilfe von kreis- und kreuzförmiger Punkte eingezeichnet. Während sich die Werte der blauen Stichprobe symmetrisch um den Wert 5 befinden, liegen die roten Stichprobenwerte symmetrisch um den Wert 10 herum.
Abbildung 2: Darstellung von Häufigkeitsverteilungen zweier quantitativ stetiger Merkmale zur Beschreibung der unterschiedlichen Streuung mithilfe von Histogrammen und Kerndichteschätzern. Unterhalb sind die Stichproben mithilfe von kreis- und kreuzförmiger Punkte eingezeichnet. Beide Stichproben zentrieren sich um den Wert 7. Dabei streuen die Werte der roten Stichprobe allerdings mit mehr Distanz um die zentrale Lage als die blaue Stichprobe. Die mittlere (quadratische) Distanz zwischen den Werten und der zentralen Lage unterscheidet sich also in den Stichproben.
Abbildung 3: Darstellung von Häufigkeitsverteilungen zweier quantitativ stetiger Merkmale zur Beschreibung der unterschiedlichen Schiefe mithilfe von Histogrammen und Kerndichteschätzern. Unterhalb sind die Stichproben mithilfe von kreis- und kreuzförmiger Punkte eingezeichnet. Die Lage der beiden Stichproben ähneln sich hier. Allerdings können wir erkennen, dass die Werte der blauen Stichprobe bei einer ungefähren zentralen von 7 lediglich nach rechts weiter streuen und es sich somit um eine schiefe Häufigkeitsverteilung handelt. Die Verteilung der roten Stichprobe hingegen ist symmetrisch.
Abbildung 4: Darstellung von Häufigkeitsverteilungen zweier quantitativ stetiger Merkmale zur Beschreibung der unterschiedlichen Wölbung mithilfe von Histogrammen und Kerndichteschätzern. Unterhalb sind die Stichproben mithilfe von kreis- und kreuzförmiger Punkte eingezeichnet. Beide Verteilungen haben die gleiche zentrale Lage und sind relativ symmetrisch. Dabei streuen die Werte der roten Stichprobe gleichmäßiger als die Werte der blauen Stichprobe, obwohl im Mittel beide Stichproben eine in etwa gleich große Streuung besitzten. Würden wir nun in beiden Stichproben die 10 kleinsten und 10 größten Werte streichen, so würde sich die Streuung der blauen Stichprobe stärker reduzieren als die Streuung der roten Stichprobe.

Berechnen wir mehrere Kennzahlen für die verschiedenen Aspekte, erhalten wir einen detaillierten Überblick über die Stichprobe und ihre Häufigkeitsverteilung. Kennzahlen erlauben es uns so auch schnell und einfach zwei Stichproben des gleichen Merkmals miteinander zu vergleichen.

Anhand des obigen Beispiel 1 sehen wir, dass wir für Merkmale mit unterschiedlichen Skalenniveaus verschiedene Kennzahlen für die Beschreibung der gleichen Eigenschaft benötigen: Wenn z.B. alle Beobachtungen einer Stichprobe verschieden sind, wie es oft bei quantitativen Merkmalen der Fall ist, ist zur Beschreibung der Lage der Modalwert nicht sinnvoll, da alle beobachteten Werte gleich häufig vorkommen. Bei einem nominal skalierten Merkmal kann hingegen kein arithmetisches Mittel berechnet werden, da die Addition für dieses Skalenniveau nicht definiert ist (Wie soll die Summe von zwei Blutgruppen definiert werden?)

In diesem Kapitel werden wir unterschiedliche Kennzahlen für die Lage kennenlernen. Weiter werden wir den Boxplot als eine graphische Darstellung für quantitative Merkmale vorstellen, der auf 5 Kennzahlen der Lage basiert und anhand dessen man die oben vorgestellten Eigenschaften der Häufigkeitsverteilung ebenfalls gut beobachten kann. Die anderen drei Charakteristiken werden im darauf folgendem Kapitel Kennzahlen für Streuung, Schiefe und Wölbung behandelt.

Lagemaße

Lagemaße beschreiben die Lage einer Stichprobe. Einfache Beispiele für eine Stichprobe (x_1, \dots, x_n) eines mindestens ordinal skalierten Merkmals sind das Maximum, also der größte Wert, und das Minimum, also der kleinste Wert, einer Stichprobe. Sie geben Auskunft über die Lage der Stichprobenbeobachtungen.

Spezielle Lagemaße sind Lagemaße der zentralen Tendenz. Sie geben Auskunft darüber, wo sich auf einer gegebenen Skala die Werte einer Stichprobe konzentrieren, oder wo in einem gewissen Sinne die Mitte der Stichprobe liegt. Hierzu gehören z.B. der Modalwert, das arithmetische Mittel, das geometrische Mittel und der Median. Viele dieser Maße minimieren einen Abstand zu den Daten. In den folgenden Abschnitten werden diese Kennzahlen der zentralen Tendenz vorgestellt und ihre Unterschiede erklärt. Zusätzlich beschreiben wir noch das p-Quantil, eine Verallgemeinerung des Medians.

2 Modalwert

Der Modalwert einer Stichprobe, auch Modus genannt, ist die Merkmalsausprägung, die am häufigsten beobachtet wird. Mathematisch definiert also:


Die Bezeichnung \arg\max (lat.: argumentum maximi) wird verwendet, um das Argument, welches eine Funktion f: D \to \mathbb{R} maximiert, anzugeben. Für x_{\text{max}} = \underset{x \in D}{\arg\max} \, f(x) \in D gilt also f(x_{\text{max}}) = \underset{x \in D}{\max} \, f(x).

Definition 1 (Modalwert)
Sei (x_1, \dots, x_n) eine Stichprobe eines mindestens nominal skalierten Merkmals X mit Merkmalsausprägungen A = \{a_j \mid j \in J\}. Dann bezeichnen wir als Modalwert die Ausprägung x_{\text{mod}} mit x_{\text{mod}} = \underset{a_j \in A}{\arg\max} \sum_{i = 1}^{n} \mathbb{1}\left(x_i = a_j\right).

Bemerkungen:

  • Eine Stichprobe kann mehrere Modalwerte besitzen, wenn mehrere Merkmalsausprägungen gleich häufig vorkommen.

  • Bei Merkmalen mit sehr vielen verschiedenen beobachteten Merkmalsausprägungen ist der Modalwert als Kennzahl daher nicht zu empfehlen.

  • Liegen klassierte Daten vor, können wir statt des Modalwerts die Modalklasse bestimmen. Es ist die Klasse mit der höchsten Häufigkeitsdichte \Bigl(= \frac{\text{rel. Häufigkeit}}{\text{Klassenbreite}} = \frac{h(K_j)}{k_j - k_{j-1}}\Bigr). Alternativ kann man auch die Klassenmitte der Modalklasse \tilde{a}_j = \frac{k_j + k_{j-1}}{2} als Modalwert benennen.


Erinnerung: Beim Klassieren teilen wir den Wertebereich der Merkmalsausprägungen in disjunkte Intervalle (k_{j-1},k_j]. Diese verwenden wir als Klassen. Ausführlich wurde dies im vorangegangenen Kapitel ‘Häufigkeitsverteilung’ erklärt.
Die Häufigkeitsdichte entspricht der Höhe der Balken bei Histogrammen.

Beispiel 2 (Fortsetzung: Blutgruppe und Körpergröße bei 12 Personen)

Häufigkeitstabelle der Blutgruppe:

Merkmalsausprägung a_j: A B AB 0 \sum
abs. Häufigkeiten H(a_j): 5 2 1 4 12
rel. Häufigkeiten h(a_j): 5/12 1/6 1/12 1/3 1

Der Modalwert der Blutgruppe ist ‘A’, da dies die am häufigsten auftretende Blutgruppe in der Stichprobe ist.

Häufigkeitstabelle der Körpergröße:

(beob.) Merkmalsausprägung a_j: 158.0 161.5 164.0 167.5 170.5 \sum
abs. Häufigkeiten H(a_j): 1 1 1 1 1 12
rel. Häufigkeiten h(a_j): 1/12 1/12 1/12 1/12 1/12 1

Jede beobachtete Größe ist ein Modalwert, da jede Körpergröße genau einmal in der Stichprobe vorhanden ist.

Klassierung der Körpergröße in gleich große Klassen:

Klassen K_j: (150,160] (160,170] (170,180] (180,190] (190,200] \sum
Beobachtungen in Klasse K_j: 158.0 161.5, 164.0, 167.5 170.5, 174.5, 177.5, 179.5 181.0, 183.0, 186.5 192.0
abs. Häufigkeiten H(K_j): 1 3 4 3 1 12
rel. Häufigkeiten h(K_j): 1/12 1/4 1/3 1/4 1/12 1
Häufigkeitsdichte: 1/120 1/40 1/30 1/40 1/120

Die Modalklasse lautet (170,180], da ihre Häufigkeitsdichte am größten ist. Der Modalwert ist dann 175.

Unimodale und bimodale Häufigkeitsverteilungen

Bei mindestens ordinal skalierten Merkmalen definiert man Modalwerte manchmal auch als die Merkmalsausprägungen, bei denen sich ein lokales Maximum befindet. Das bedeutet, dass die absoluten und relativen Häufigkeiten der direkt benachbarten Merkmalsausprägungen kleiner sind. Eine Häufigkeitsverteilung mit nur einem lokalen Maximum nennt man daher auch unimodal und mit zwei lokalen Maxima nennt man bimodal (siehe Abbildung 5). In diesem Fall häufen sich die Beobachtungen in zwei Regionen.

(a) Bimodale Häufigkeitsverteilung
(b) Unimodale Häufigkeitsverteilung
Abbildung 5: Balkendiagramme zweier diskreter Merkmale X und Y zur Veranschaulichung von unimodalden und bimodalen Häufigkeitsverteilungen.

Wie in den vorherigen Kapiteln verwenden wir in den folgenden Aufgaben, die wir mit der statistischen Software R bearbeiten den Datensatz penguins aus dem R-Paket palmerpenguins (Horst, Hill, und Gorman 2020). Dafür müssen wir das Paket palmerpenguins mit den Funktionen install.packages() und library() installieren und laden.

Aufgabe 1

Betrachten Sie den Datensatz penguins aus dem R-Paket palmerpenguins.

  • Bestimmen Sie, welche Spezies (species) im Datensatz am häufigsten vorhanden ist.

  • Finden Sie die Modalklasse des Gewichts (body_mass_g) der Pinguine bei einer Einteilung in die Klassen [2500, 2750], (2750, 3000], (3000, 3250], …, (6250, 6500].

  • Schauen Sie sich nun Abbildung 6 an, welches die Histogramme des Merkmals Gewicht (body_mass_g) getrennt nach Geschlecht (sex) zeigt, und interpretieren Sie es.

Abbildung 6: Häufigkeitsverteilungen des Gewichts getrennt nach Geschlecht.
  • Mit der Funktion table() können wir absolute Häufigkeiten und somit Modalwerte bestimmen. Außerdem könnte which.max() hilfreich sein.
  • Um die Modalklasse des Gewichts zu bestimmen oder Histogramme zu erzeugen, kann die Funktion hist() verwendet werden. Achten Sie auf die Verwendung der passenden Argumente.

3 Arithmetisches Mittel

Das wohl bekannteste Lagemaß ist das arithmetische Mittel. Wenn im Alltag vom Durchschnitt oder Mittelwert gesprochen wird, ist meist das arithmetische Mittel gemeint.

Definition 2 (Arithmetisches Mittel)

Sei (x_1, \dots, x_n) eine Stichprobe eines kardinal skalierten Merkmals X. Dann bezeichnen wir als arithmetisches Mittel den Wert \bar{x} = \frac{1}{n}\sum_{i=1}^n x_i.

Beispiel 3 (Fortsetzung: Körpergröße bei 12 Personen)

Die geordnete Stichprobe lautet:

Größe: 158.0, 161.5, 164.0, 167.5, 170.5, 174.5, 177.5, 179.5, 181.0, 183.0, 186.5, 192.0

Das arithmetische Mittel ist:\begin{align*} \dfrac{1}{12} (& 158.0 + 161.5 + 164.0 + 167.5 \\ + & 170.5 + 174.5 + 177.5 + 179.5 \\ + & 181.0 + 183.0 + 186.5 + 192.0) = 174.625 \approx 174.6. \end{align*}

Wir können für die Berechnung des arithmetischen Mittels auch R verwenden. Die einfachste Möglichkeit bietet dabei die Funktion mean().

# Erstellen eines Datensatzes, der die Variablen Größe und Blutgruppe 
# enthält:
data <- data.frame(
                   groesse = c(170.5, 183.0, 174.5, 158.0, 167.5, 179.5,
                               192.0, 177.5, 186.5, 161.5, 181.0, 164.0),
                   blutgruppe = c("A", "A", "B", "AB", "0", "0", "A", "0",
                                  "B", "A", "0", "A")
         )

# Berechnen des arithmetische Mittels mit mean()
mean(data$groesse)
[1] 174.625

Zwei Eigenschaften des arithmetischen Mittels sind, dass es den quadratischen Abstand zu den Beobachtungen minimiert und die Summe der Abweichungen vom arithmetischen Mittel gleich Null ist:


Die Bezeichnung \arg\min (lat.: argumentum minimi) wird verwendet, um das Argument, welches eine Funktion f: D \to \mathbb{R} minimiert, anzugeben. Für x_{\text{min}} = \underset{x \in D}{\arg\min} \, f(x) \in D gilt also f(x_{\text{min}}) = \underset{x \in D}{\min} \, f(x).

Theorem 1 (Eigenschaften des arithmetischen Mittels)

Sei (x_1, \dots, x_n) eine Stichprobe eines kardinal skalierten Merkmals X. Dann gilt für das arithmetische Mittel \bar{x}:

  1. \bar{x} = \underset{a \in \mathbb{R}}{\arg\min} \ \sum\limits_{i=1}^n \left( x_i - a \right)^2

  2. \sum\limits_{i = 1}^n (x_i - \bar{x}) = 0.


Beweis. Zunächst zeigen wir b., da wir das Resultat in a. nutzen können.

zu b.: Eine einfache Berechnung zeigt: \begin{align*} \sum_{i = 1}^n (x_i - \bar{x}) & = \sum_{i = 1}^n x_i - \sum_{i = 1}^n \bar{x} = \frac{n}{n} \sum_{i = 1}^n x_i - n \cdot \bar{x} \\ & = n \cdot \bar{x} - n \cdot \bar{x} = 0. \end{align*}

zu a.: Indem wir jeden Summanden des Terms \sum_{i=1}^n (x_i - a)^2 mit - \bar{x} + \bar{x} = 0 addieren und die erste binomische Formel verwenden, führen wir folgende Umformung durch: \begin{align*} \sum_{i=1}^n (x_i - a)^2 & = \sum_{i=1}^n (x_i - \bar{x} + \bar{x} - a)^2 \\ & = \sum_{i=1}^n (x_i - \bar{x})^2 + 2 \sum_{i=1}^n (x_i - \bar{x})(\bar{x} - a) + \sum_{i=1}^n (\bar{x} - a)^2 >\\ & = \sum_{i=1}^n (x_i - \bar{x})^2 + 2 \cdot (\bar{x} - a) \sum_{i=1}^n (x_i - \bar{x}) + n (\bar{x} - a)^2 \\ & \overset{b)}{=} \sum_{i=1}^n (x_i - \bar{x})^2 + 0 + \underbrace{n (\bar{x} - a)^2}_{\ge 0} \\ & \ge \sum_{i=1}^n (x_i - \bar{x})^2 \end{align*} Daraus folgt, dass \bar{x} die Funktion d(a) = \sum_{i=1}^n (x_i - a)^2 minimiert.

Bemerkungen:

  • \sum_{i=1}^n \left( x_i - \bar{x} \right)^2 ist die Grundlage für die Stichprobenvarianz, ein Streuungsmaß, welches im nächsten Unterkapitel vorgestellt wird. Das arithmetische Mittel minimiert also dieses Streuungsmaß als Bezugspunkt und ist in diesem Sinne der zentrale Wert der Daten.

  • Man nennt y_1,\ldots,y_n mit y_i = x_i - \bar{x} auch zentrierte Beobachtungen, da wegen Theorem 1 b. \bar{y} = 0 gilt.

  • Für die linear transformierten Werte y_i = a + b \cdot x_i, i=1,\dots,n, mit Konstanten a, b \in \mathbb{R} gilt \bar{y} = a + b \cdot \bar{x}, d.h. auch das arithmetische Mittel transformiert sich wie die Einzelwerte.
    Dies kann bei der Umrechnung von einer Einheit in eine andere Einheit nützlich sein: Im Beispiel 3 war die durchschnittlich Körpergröße 174.6 cm und somit ist die durchschnittliche Körpergröße in Metern: \begin{align*} 174.6 \ \text{cm} \cdot 0.01 \ \dfrac{\text{m}}{\text{cm}} = 1.746 \ \text{m}. \end{align*}

  • Sind z_1, \dots, z_n weitere Beobachtungswerte für ein zweites Merkmal z mit ebenfalls kardinalem Messniveau und wir betrachten die addierten Werte y_i = x_i + z_i, so gilt \bar{y} = \bar{x} + \bar{z}.

  • Das arithmetische Mittel wird oft auch missbräuchlich bei ordinal skalierten Merkmalen verwendet, da man für die Merkmalsausprägungen stellvertretend Zahlen verwendet. Ein bekanntes Bespiel sind z.B. Schulnoten (sehr gut \widehat{=} 1, \dots, ungenügend \widehat{=} 6): Die Angabe einer Durchschnittsnote ist hier gängige Praxis.

  • Das arithmetische Mittel muss keine mögliche Merkmalsausprägung sein. Wir betrachten z.B. das Merkmal Alter (in ganzen Jahren): Wir haben eine Stichprobe (21, 15, 36, 23), dann ist das arithmetische Mittel (21 + 15 + 36 + 23)/4 = \frac{95}{4} = 23.75. Allerdings ist 23.75 keine Merkmalsausprägung, da es keine natürliche Zahl ist.

  • Das arithmetische Mittel ist nicht robust gegenüber Ausreißern. Es genügt einen einzelnen Wert der Stichprobe zu manipulieren, sodass das arithmetische Mittel beliebig groß oder klein wird. Betrachten wir als Illustration erneut das Merkmal Alter (in ganzen Jahren): Es ist ein Fehler beim Notieren aufgetreten. Die notierte Stichprobe lautet (21, 155, 36, 23). Das daraus berechnete arithmetische Mittel ist dann (21 + 155 + 36 + 23)/4 = \frac{235}{4} = 58.75.

Gewichtetes arithmetisches Mittel

Eine Verallgemeinerung des arithmetischen Mittels ist das gewichtete arithmetische Mittel. Dies wird verwendet, wenn wir den Beobachtungen eine unterschiedliche Bedeutung zumessen und sie unterschiedlich stark in die Berechnung einfließen lassen wollen.

Definition 3 (Gewichtetes arithmetisches Mittel)

Sei (x_1, \dots, x_n) eine Stichprobe eines kardinal skalierten Merkmals X und (w_1, \dots w_n) ein Gewichtsvektor mit w_i \ge 0 für alle i und \sum_{i=1}^{n} w_i = 1. Dann bezeichnen wir das gewichtete arithmetische Mittel mit \bar{x}_w = \sum_{i=1}^n w_i \cdot x_i.

Wählen wir w_i = \frac{1}{n} für alle i=1,\dots,n, d.h. alle Beobachtungen erhalten das gleiche Gewicht, entspricht das gewichtete arithmetische Mittel dem einfachen arithmetische Mittel \bar{x}_w = \bar{x}.

Aufgabe 2

Betrachten Sie erneut den Datensatz penguins aus dem R-Paket palmerpenguins.

  1. Berechnen Sie das arithmetische Mittel der Schnabellänge (bill_length_mm).

  2. Berechnen Sie dann das arithmetische Mittel der Schnabellänge für die einzelnen Pinguinarten (species) getrennt. Vergleichen Sie Ihre Ergebnisse mit denen aus Teil a.

  3. Nun berechnen Sie das gewichtete arithmetische Mittel der Ergebnisse aus b. Nehmen Sie die relativen Häufigkeiten der Arten als Gewichte. Fällt Ihnen etwas auf?

  • Der Pinguindatensatz enthält fehlende Werte in Form von NA. Sie können ein Argument in die Funktion mean() setzen, damit R fehlende Werte aus der Berechnung ausschließt.
  • Mit is.na() können Sie nach fehlenden Werten suchen.
  • Mit split() können Sie Datensätze in mehrere Teildatensätze aufteilen.
  • Mit weighted.mean() lassen sich gewichtete arithmetische Mittel berechnen.

Arithmetisches Mittel für klassierte Daten

Liegen uns nur die Klassenzugehörigkeiten eines klassierten Merkmals mit l Klassen vor, so lässt sich das arithmetische Mittel des ursprünglich kardinal skalierten Merkmals nicht exakt berechnen. Wir können allerdings eine Näherung bestimmen, in dem wir für jede Klasse K_j, j = 1, \dots, l, einen Repräsentanten a^*_j bestimmen (im Allgemeinen die Klassenmitte \tilde{a}_j = (k_j + k_{j-1})/2, wenn wir keine weiteren Informationen zur Stichprobe oder den Klassen besitzen) und dann das gewichtete arithmetische Mittel der Repräsentanten mit den relativen Häufigkeiten h(K_j) als Gewichte berechnen. Dann gilt \bar{x} \approx \sum_{j=1}^l h(K_j) \cdot \tilde{a}_j.

Kennen wir zusätzlich den Klassenmittelwert \bar{a}_j jeder Klasse und nutzen diesen als Repräsentant der Klasse, so erhalten wir das exakte arithmetische Mittel der Stichprobe \bar{x} = \sum_{j=1}^l h(K_j) \cdot \bar{a}_j. \tag{1}

Beispiel 4 (Fortsetzung: Körpergröße bei 12 Personen)

Klassierung der Körpergröße in gleich große Klassen:

Klassen K_j: (150,160] (160,170] (170,180] (180,190] (190,200]
Beobachtungen in Klasse K_j: 158.0 161.5, 164.0, 167.5 170.5, 174.5, 177.5, 179.5 181.0, 183.0, 186.5 192.0
abs. Häufigkeiten H(K_j): 1 3 4 3 1
rel. Häufigkeiten h(K_j): 1/12 1/4 1/3 1/4 1/12
Klassenmitten \tilde{a}_j: 155 165 175 185 195
Klassenmittelwerte \bar{a}_j: 158.0 164.3 175.5 183.5 192.0

Die Näherung des arithmetischen Mittel mit den Klassenmitten als Repräsentanten: \dfrac{1}{12} \cdot 155 + \dfrac{1}{4} \cdot 165 + \dfrac{1}{3} \cdot 175 + \dfrac{1}{4} \cdot 185 + \dfrac{1}{12} \cdot 195 = 175.

Das exakte arithmetische Mittel mit den Klassenmittelwerten als Repräsentanten: \dfrac{1}{12} \cdot 158.0 + \dfrac{1}{4} \cdot 164.3 + \dfrac{1}{3} \cdot 175.3 + \dfrac{1}{4} \cdot 183.5 + \dfrac{1}{12} \cdot 192.0 \approx 174.6.

Aufgabe 3

Zeigen Sie, dass Gleichung 1 \bar{x} = \sum_{j=1}^l h(K_j) \cdot \bar{a}_j wahr ist, wobei \bar{a}_j das arithmetische Mittel der Beobachtungen der Klasse K_j und h(K_j) die relative Häufigkeit der Klasse K_j, j = 1, \dots, l, ist.

Um die Aufgabe zu lösen, müssen wir die Stichprobenwerte ihrer Klasse zuordnen können. Daher notieren wir die Stichprobe als x_{1 1},x_{12},\dots, x_{1 n_1}, x_{2 1},x_{2 2}, \dots, x_{2 n_2}, \dots, x_{l 1}, x_{l 2}, \dots, x_{l n_l}, sodass die Beobachtungen x_{j 1},\dots, x_{j n_j} diejenigen sind, die in Klasse K_j liegen. n_j ist die Anzahl der Beobachtungen in Klasse K_j, also gleichbedeutend mit der absoluten Häufigkeit der Klasse: n_j = H(K_j).

Nun müssen wir uns überlegen, wie \bar{x} und \bar{a}_j mit dieser Notation mathematisch formuliert werden können.

Wir möchten zeigen, dass \bar{x} = \sum_{j=1}^l h(K_j) \cdot \bar{a}_j. Wie können wir also \bar{x} und \bar{a}_j formulieren, um mit ihnen Rechenoperationen durchzuführen, sodass wir die beiden Seiten der Gleichung auflösen können?

  • Das arithmetische Mittel \bar{x} ist definiert als die Summe aller Beobachtungen geteilt durch die Stichprobengröße n. Diese Definition muss nun mit der Notation aus Tipp 1 formalisiert werden: \begin{align*} \bar{x} & = \frac{1}{n} \left(x_{11} + \dots + x_{1 n_1} + x_{2 1} + \dots + x_{2 n_2} + x_{l 1} + \dots + x_{l n_l} \right) \\ & = \frac{1}{n} \sum_{j = 1}^l (x_{j 1} + \dots + x_{j n_j}) = \frac{1}{n} \sum_{j = 1}^l \sum_{i = 1}^{n_j} x_{j i}. \end{align*}

  • Beim arithmetischen Mittel \bar{a}_j der Beobachtungen der Klasse K_j werden nur die Beobachtungen dieser Klasse betrachtet. Es ist also die Summe der Beobachtungen x_{j 1}, \dots, x_{j n_j} geteilt durch die Anzahl n_j: \bar{a}_j = \frac{1}{n_j} (x_{j 1} + \dots + x_{j n_j}) = \frac{1}{n_j} \sum_{i = 1}^{n_j} x_{j i}.

Insgesamt möchten wir also zeigen, dass: \frac{1}{n} \sum_{j = 1}^l \sum_{i = 1}^{n_j} x_{j i} = \sum_{j=1}^l \left( h(K_j) \cdot \frac{1}{n_j} \sum_{i = 1}^{n_j} x_{j i} \right)

4 Geometrisches Mittel

Das geometrische Mittel ist ein Lagemaß für kardinal skalierte Merkmale mit nicht-negativen (reellen) Werten als Merkmalsausprägungen.

Definition 4 (Geometrisches Mittel)

Sei (x_1, \dots, x_n) eine Stichprobe eines kardinal skalierten Merkmals X mit nicht-negativen Werten, d.h. x_i \ge 0 ~~ \forall i \in\{1,\dotsc,n\}. Dann bezeichnen wir das geometrische Mittel mit \bar{x}_g = \sqrt[n]{x_1 \cdot \dotsc \cdot x_n} = \left(\prod_{i=1}^n x_i \right)^{\frac{1}{n}}.

Beispiel 5 (Fortsetzung: Körpergröße bei 12 Personen)

Die Stichprobe lautet: 158.0, 161.5, 164.0, 167.5, 170.5, 174.5, 177.5, 179.5, 181.0, 183.0, 186.5, 192.0

Das geometrische Mittel ist:\begin{align*} \bar{x}_g = \, & (158.0 \cdot 161.5 \cdot 164.0 \cdot 167.5 \cdot 170.5 \cdot 174.5 \cdot 177.5 \cdot 179.5 \\ & \cdot 181.0 \cdot 183.0 \cdot 186.5 \cdot 192.0)^\frac{1}{12} \approx 174.3. \end{align*}

Um das geometrische Mittel in R zu berechnen können wir die Funktion geometric.mean() aus dem R-Paket psych() verwenden.

# Installieren und Laden des psych Pakets

# install.package('psych')
library('psych')

# Berechnen des geometischen Mittels mit geometric.mean()
geometric.mean(data$groesse)
[1] 174.3338

Aufgabe 4

Schreiben Sie eine eigene Funktion my_geometric.mean(), die das geometrische Mittel berechnet. Input soll ein Vektor x sein, der die Stichprobe enthält. Die Funktion soll nur das geometrische Mittel zurückgeben.

Wenn Sie schon einige Erfahrung mit dem Programmieren mit R haben, kontrollieren Sie in Ihrer Funktion vor der eigentlichen Berechnung, ob der Vektor x lediglich aus positiven reellen Zahlen besteht und geben Sie andernfalls eine Warnung. Außerdem könnten Sie sich überlegen, wie Sie mit NA im Vektor umgehen.

Eine Funktion wird in R nach folgenden Schema geschrieben:

func_name <- function(arg) {
  # Beliebig viele Berechnungen z.B.
  result <- mean(arg)
  # Das Ergebnis, welches ausgegeben werden soll:
  return(result)
}

func_name(arg = c(1, 2, 3))
[1] 2

Außerdem könnte Ihnen die Funktionen length() und prod() helfen.

Bemerkungen:

  • Geometrische Interpretation:

    • Das geometrische Mittel der Seitenlängen eines Rechtecks entspricht der Seitenlänge eines Quadrates mit gleichem Flächeninhalt.

    • Das geometrische Mittel der Seitenlängen eines Quaders entspricht der Seitenlänge eines Würfels mit gleichem Volumen.

    • Allgemein: Das geometrische Mittel der Seitenlängen eines n-dim. Hyperquaders (n-dimensionale Analogie zum Quader) entspricht der Seitenlänge eines n-dim. Hyperwürfels (n-dimensionale Analogie zum Würfel) mit gleichem Volumen

  • Bei klassierten Daten mit n Beobachtungen und l Klassen können wir das geometrische Mittel ebenfalls approximieren. Sei n_j die Anzahl der Beobachtungen in Klasse K_j und a^*_j ein Repräsentant dieser Klasse, dann gilt \bar{x}_g \approx \sqrt[n]{(a^*_1)^{n_1} \cdot \dotsc \cdot (a^*_l)^{n_l}}. \tag{2}

Aufgabe 5

Betrachten Sie erneut den Datensatz penguins aus dem R-Paket palmerpenguins.

  1. Berechnen Sie das geometrische Mittel der Schnabellänge (bill_length_mm).

  2. Berechnen Sie dann das geometrische Mittel der Schnabellänge getrennt nach Pinguinart (species). Vergleichen Sie Ihre Ergebnisse mit denen aus Teil a. und mit denen aus Aufgabe 2.

  3. Nehmen Sie an, Sie kennen lediglich das Ergebnis aus b. sowie die Anzahl der Pinguine pro Art, von denen die Schnabellänge bekannt ist. Fällt Ihnen eine Möglichkeit ein, mit den gegebenen Informationen das geometrische Mittel über alle Gruppen hinweg zu berechnen?

  • In Teil c. suchen wir eine Art gewichtetes Mittel. Anders als beim arithmetischen Mittel erfolgt die Gewichtung der einzelnen Gruppenmittel nicht durch die Multiplikation mit dem Gewicht und die Gruppenmittel werden auch nicht aufsummiert. Was würde bei dem geometrischen Mittel stattdessen Sinn ergeben? Schauen Sie sich Gleichung 2 an.

Das geometrische Mittel findet insbesondere Anwendung bei der Berechnung von durchschnittlichen Wachstumsraten einer Zeitreihe auf den positiven reellen Zahlen:

Exkurs: Berechnung von durchschnittlichen Wachstumsraten einer Zeitreihe mithilfe des geometrischen Mittels

Wir betrachten ein Merkmal X auf den positiven reellen Zahlen, d.h. alle Merkmalsausprägungen sind echt größer Null, zu Zeitpunkten t = 0, 1, 2, \dotsc und bezeichnen die Beobachtungen mit x_0, x_1, x_2, \dotsc.

Eine Zeitreihe x_0, x_1, x_2, \dotsc sind zeitlich geordnete Beobachtungen eines Merkmals, wie z.B. Niederschlagsmenge an einem bestimmten Ort, Aktienkurs, Bevölkerungsentwicklung.

Dann heißt die relative Änderung des Merkmals an zwei aufeinanderfolgenden Zeitpunkten Wachstumsrate und ist definiert als r_t := \dfrac{x_t - x_{t-1}}{x_{t-1}} = \frac{\text{Kursdifferenz}}{\text{Kursanfangswert}}.

Um die durchschnittliche Wachstumsrate zu berechnen, betrachten wir zunächst die Wachstumsfaktoren. Dies sind Faktoren f_t, die man jeweils zu einem Aktionkurs zum Zeitpunkt t-1 multipliziert, um den Aktionkurs zum Zeitpunkt t zu erhalten: f_t \cdot x_{t-1} = x_t ~~ \Leftrightarrow ~~ f_t = \dfrac{x_t}{x_{t-1}}. Es gilt, dass die Wachstumsfaktoren positiv sind, also f_t > 0, da die zugrundeliegenden Beobachtungen x_t positiv sind. Weiter gilt der Zusammenhang f_t = 1 + r_t.

Der durchschnittliche Wachstumsfaktor \bar{f}_g bis zu einem Zeitpunkt t ist so definiert, dass wir x_t erhalten, wenn wir ihn t mal auf den Startwert x_0 multiplizieren: x_t = \underbrace{\bar{f}_g \cdot \dotsc \cdot \bar{f}_g}_{t \text{~mal}} \cdot x_0 = (\bar{f}_g)^{t} \cdot x_0. Wie die Notation schon andeutet, entspricht der durchschnittliche Wachstumsfaktor \bar{f}_g dem geometrischen Mittel der Wachstumsfaktoren, denn \begin{align*} x_t = f_t \cdot x_{t-1} = f_t \cdot f_{t-1} \cdot x_{t-2} \overset{\text{rekursiv}}{= \dotsc =} f_t \cdot \dotsc \cdot f_1 \cdot x_0 \\ \Rightarrow ~~ f_t \cdot \dotsc \cdot f_1 = (\bar{f}_g)^{t} ~~ \Leftrightarrow ~~ \sqrt[t]{f_t \cdot \dotsc \cdot f_1} = \bar{f}_g. ~~~~ \end{align*} Die durchschnittliche Wachstumsrate ergibt sich schließlich durch \bar{r}_f := \bar{f}_g - 1 = \sqrt[t~]{\frac{x_t}{x_0}}-1.

Beispiel 6 (Aktienkurs - Berechnung der durchschnittlichen Wachstumsfaktors und der durchschnittlichen Wachstumsrate)

Wir betrachten den Kurs X einer Aktie zu den Zeitpunkten t = 0, 1, 2,\dotsc. Folgende Tabelle zeigt einen Aktienkurs an 4 aufeinanderfolgenden Zeitpunkten inklusive der Wachstumsrate und dem Wachstumsfaktor:

Zeitpunkt t 0 1 2 3
Kurs x_t 10 12 15 10
Wachstumsrate r_t = \dfrac{x_t - x_{t-1}}{x_{t-1}} - 0.2 0.25 -0.\bar{3}
Wachstumsfaktor f_t = 1 + r_t - 1.2 1.25 ~~0.\bar{6}

Das arithmetische Mittel der Wachstumsrate lautet: \bar{r}=\frac{1}{3} \dot (0.2 + 0.25 -0.\bar{3}) = 0.038. Aber, da der Kurs sowohl zu Beginn als auch zum Ende den gleichen Wert hat (x_0 = x_3 = 10), ist die durchschnittliche Wachstumsrate offensichtlich 0.

Um die durchschnittliche Wachstumsrate korrekt zu berechnen, schauen wir uns also zunächst die Wachstumsfaktoren an.

In unserem Beispiel erhalten wir einen durchschnittlichen Wachstumsfaktor von \bar{f}_g = \sqrt[3]{1.2 \cdot 1.25 \cdot 0.\bar{6}} = 1 und eine durchschnittliche Wachstumsrate von \bar{r}_f = \bar{f}_g - 1 = 1 - 1 = 0.

Aufgabe 6

Berechnen Sie die mittlere Wachstumsrate der Anzahl Pinguine im Datensatz penguins aus dem Paket palmerpenguins von 2007-2009. Interpretieren Sie Ihr Ergebnis soweit möglich.


Die Funktionen table() und cumsum() können bei der schnellen Ermittlung der Anzahl Pinguine im Datensatz penguins hilfreich sein.

5 Median und Quantile

Ein weiteres bekanntes Lagemaß ist der Median \tilde{x}_{0.5}. Dieser ist für mindestens ordinal skalierte Merkmale definiert. Er teilt die Stichprobe in zwei Teile, sodass mindestens 50% der Beobachtungen kleiner oder gleich und mindestens 50% der Beobachtungen größer oder gleich dem Median sind. Die Stichprobe x_1,\dots,x_n wird also in der Mitte durch den Median geteilt, sodass \begin{align*} \frac{1}{n}\sum_{i=1}^n \mathbb{1}\{x_i \le \tilde{x}_{0.5}\} & = \frac{1}{n}\#\{x_i \le \tilde{x}_{0.5}\} \ge 0.5 \\ & \text{und} \\ \frac{1}{n}\sum_{i=1}^n \mathbb{1}\{x_i \ge \tilde{x}_{0.5}\} & = \frac{1}{n} \#\{x_i \ge \tilde{x}_{0.5}\} \ge 0.5. \end{align*} Im Falle einer ungeraden Stichprobengröße n erfüllt genau ein Wert, nämlich x_{\left(\frac{n+1}{2}\right)}, diese Eigenschaft, wobei x_{(1)},\dots,x_{(n)} die geordnete Stichprobe ist. Im Falle einer geraden Stichprobengröße n erfüllen alle Werte im Intervall [x_{(\frac{n}{2})},x_{(\frac{n}{2}+1)}] diese Eigenschaft und können als Median verwendet werden. Wir nennen dieses Intervall Medianintervall.



\#A gibt die Mächtigkeit der Menge A an. Bei einer endlichen Menge ist die Mächtigkeit gleich der Anzahl der Elemente in A. Beispiel: A = \{1, 6, 3.4\}, dann gilt \# A = 3.

\mathbb{1}(\cdot \le a) heißt Indikatorfunktion. Es gilt \mathbb{1}\left(x_i \le a \right) = \begin{cases} 1, & \text{falls } x_i \le a \\ 0, & \text{falls } x_i > a \end{cases}~~.

Da wir allerdings gern einen genauen Wert als Median angeben möchten, bestimmen wir, welchen Wert aus dem Intervall wir als Median bezeichnen:

Definition 5 (Median)

Der Median eines kardinal skalierten Merkmals mit geordneter Stichprobe x_{(1)}, \dots, x_{(n)} ist gegeben durch \begin{align*} \tilde{x}_{0.5} = \begin{cases} x_{\left(\frac{n+1}{2}\right)}, & \text{falls ~} \frac{n}{2} \notin \mathbb{N} \\ \frac{1}{2} \left( x_{\left(\frac{n}{2}\right)} + x_{(\frac{n}{2} + 1)} \right), & \text{falls ~} \frac{n}{2} \in \mathbb{N}. \end{cases} \end{align*} Der Median eines ordinal skalierten Merkmals mit geordneter Stichprobe x_{(1)}, \dots, x_{(n)} ist gegeben durch \begin{align*} \tilde{x}_{0.5} = \begin{cases} x_{\left(\frac{n+1}{2}\right)}, & \text{falls ~} \frac{n}{2} \notin \mathbb{N} \\ x_{\left(\frac{n}{2}\right)}, & \text{falls ~} \frac{n}{2} \in \mathbb{N}. \end{cases} \end{align*}

Bemerkungen:

  • Im Fall eines kardinal skalierten Merkmals, verwenden wir die Mitte des Medianintervalls als Medianwert. Für ordinal skalierte Merkmale ist dies nicht möglich, da im Allgemeinen die Addition nicht definiert ist. Daher wählen wir den minimalen Wert, der die oben genannte Eigenschaft erfüllt.

  • Der Median bzw. jeder Wert des Medianintervalls minimiert den absoluten Abstand zwischen den reellwertigen Beobachtungen x_1,\dots,x_n. Es gilt also \tilde{x}_{0.5} = \underset{a \in \mathbb{R}}{\arg\min} \sum_{i = 1}^n \vert x_i - a \vert.
    Eine Beweisskizze finden Sie in Assenmacher (2013), S. 68-69.
    Einen vollständigen Beweis können Sie in Schwertman, Gilks, und Cameron (1990) nachlesen.

  • Der Median ist robust gegenüber Ausreißern, d.h. z.B. eine starke Veränderung einer oder weniger Beobachtungen führen zu keiner oder nur einer geringen Änderung des Medians.

  • Der Median verwendet nur wenig Informationen der Stichprobe: Nur der mittlere Wert (oder die beiden mittleren Werte bei einer geraden Stichprobe) werden zur Berechnung verwendet.

Beispiel 7 (Fortsetzung: Körpergröße bei 12 Personen)

Die sortierte Stichprobe lautet: 158.0, 161.5, 164.0, 167.5, 170.5, 174.5, 177.5, 179.5, 181.0, 183.0, 186.5, 192.0

Da 12 Beobachtungen vorliegen und die Körpergröße kardinal skaliert ist, ist der Median gegeben durch: \begin{align*}\tilde{x}_{0.5}= \frac{1}{2} \Bigl(x_{(6)}+x_{(7)}\Bigr) = \frac{1}{2}(174.5 +177.5)= 176.0.\end{align*}

In R können wir den Median mit der Funktion median() bestimmen.

# Bestimmen des Medians
median(data$groesse)
[1] 176

Aufgabe 7

Berechnen Sie das arithmetische Mittel und den Median des Gewichts der Pinguine (body_mass_g) im Datensatz penguinsaus dem Paket palmerpenguins. Vergleichen Sie die Ergebnisse. Können Sie die Größenunterschiede erklären?

  • Zur Beantwortung der Frage könnte es helfen, wenn Sie sich ein Histogramm ansehen.

Median für klassierte Daten

Liegen uns nur die Klassenzugehörigkeiten eines klassierten Merkmals mit l Klassen vor, so lässt sich auch hier (wie beim arithmetischen Mittel) eine Näherung des Medians berechnen. Wir wählen den Median dann so, dass er die Fläche des Histogramms genau in zwei Hälften teilt: Die Fläche eines Histogramms ist stets 1. Die Fläche des Histogramms bis zum Median ist also 0.5 (siehe Abbildung 7). Die Approximation des Medians lautet dann \tilde{x}_{0.5} = \left( 0.5 - \sum_{j=1}^{g-1} h(K_j) \right) \cdot \dfrac{k_g-k_{g-1}}{h(K_g)} + k_{g-1}, \tag{3} wobei K_g die Klasse ist, sodass der gemeinsame Flächeninhalt, d.h. die kumulierte relative Häufigkeit, der vorherigen g-1 Klassen kleiner als 0.5, also \sum_{j=1}^{g-1} h(K_j) < 0.5, und der gemeinsame Flächeninhalt der ersten g Klassen größer oder gleich 0.5, also \sum_{j=1}^{g} h(K_j) \ge 0.5, ist.

Abbildung 7: Histogramm eines quantitativen Merkmals. Die gestrichelte Linie markiert die Stelle, sodass der Flächeninhalt beider farblich markierter Teile gleich groß ist. Es handelt sich also um die Approximation des Medians.

Berechnung:

\tilde{x}_{0.5} wird so gewählt, dass \sum_{j=1}^{g-1} h(K_j) +\dfrac{h(K_g)}{k_g - k_{g-1}} \cdot (\tilde{x}_{0.5} - k_{g-1}) = 0.5, wobei \sum_{j=1}^{g-1} h(K_j) der Flächeninhalt der ersten g-1 Balken ist und \dfrac{h(K_g)}{k_g - k_{g-1}} \cdot (\tilde{x}_{0.5} - k_{g-1}) ist der Flächeninhalt des g-ten Balkens bis zum Median. Die Summe dieser beiden Flächen soll 0.5 ergeben. Hierbei ist \dfrac{h(K_g)}{k_g - k_{g-1}} die Balkenhöhe der Klasse K_g und \tilde{x}_{0.5} - k_{g-1} ist der Abstand zwischen dem Beginn des g-ten Balken und dem Median.
Die obige Gleichung enthält nur den Median \tilde{x}_{0.5} als Unbekannte, sodass wir mit einfachem Umstellen der Gleichung das Ergebnis erhalten: \tilde{x}_{0.5} = \left( 0.5 - \sum_{j=1}^{g-1} h(K_j) \right) \cdot \dfrac{k_g-k_{g-1}}{h(K_g)} + k_{g-1}.

Beispiel 8 (Fortsetzung: Körpergröße bei 12 Personen)

Die sortierte Stichprobe lautet: 158.0, 161.5, 164.0, 167.5, 170.5, 174.5, 177.5, 179.5, 181.0, 183.0, 186.5, 192.0

Wir nehmen nun an, dass uns nur die Klassenzugehörigkeiten der Stichprobe bekannt ist und schätzen nun den Median:

Klassen K_j: (150,160] (160,170] (170,180] (180,190] (190,200]
Anzahl Beobachtungen in Klasse K_j: 1 3 4 3 1
rel. Häufigkeiten h(K_j): 1/12 1/4 1/3 1/4 1/12
kumulierte rel. Häufigkeiten \sum_{i = 1}^{j} h(K_i): 1/12 1/3 2/3 11/12 1

Aus der Tabelle können wir nun ablesen, dass wir zur Lösung der Gleichung 3 g = 3 wählen, da \sum\limits_{i = 1}^{\boldsymbol{2}} h(K_i) = \frac{1}{3} < 0.5 und \sum\limits_{i = 1}^{\boldsymbol{3}} h(K_i) = \frac{2}{3} < 0.5.

Wir approximieren den Median also mit \tilde{x}_{0.5} = \left(0.5 - \frac{1}{3}\right) \cdot \frac{180.0 - 170.0}{\frac{1}{3}} + 170.0 = 175.0. Die Approximation ist 1 cm kleiner als der exakte Median (siehe Beispiel 7).

Verallgemeinerung: Quantile

Eine Verallgemeinerung des Medians sind die p-Quantile. Das p-Quantil \tilde{x}_p mit p \in (0,1) teilt eine Stichprobe (x_1, \dots, x_n) so, dass mindestens ein relativer Anteil von p kleiner oder gleich \tilde{x}_p ist und mindestens ein relativer Anteil von 1-p größer oder gleich \tilde{x}_p ist. Mathematisch schreiben wir diese Eigenschaft wie folgt:

\frac{1}{n}\sum_{i=1}^n \mathbb{1}\{x_i \le \tilde{x}_{p}\} \ge p ~~~ \text{und} ~~~ \frac{1}{n}\sum_{i=1}^n \mathbb{1}\{x_i \ge \tilde{x}_{p}\} \ge 1-p. Wie auch beim Median gibt es immer dann mehrere Werte, die diese Eigenschaft eines p-Quantils erfüllen, wenn n \cdot p \in \mathbb{N}. Wir wählen daher erneut eine der Möglichkeiten als p-Quantil:

Definition 6 (p-Quantil)

Das p-Quantil eines kardinal skalierten Merkmals mit geordneter Stichprobe x_{(1)},\dots,x_{(n)} ist gegeben durch \begin{align*} \tilde{x}_p = \begin{cases} x_{(\lfloor n p \rfloor + 1)}, & \text{falls ~} n \cdot p \notin \mathbb{N} \\ \frac{1}{2} \left( x_{(n p)} + x_{(n p + 1)} \right), & \text{falls ~} n \cdot p \in \mathbb{N}. \end{cases} \end{align*} Das p-Quantil eines ordinal skalierten Merkmals mit geordneter Stichprobe x_{(1)},\dots,x_{(n)} ist gegeben durch \begin{align*} \tilde{x}_p = \begin{cases} x_{(\lfloor n p \rfloor + 1)}, & \text{falls ~} n \cdot p \notin \mathbb{N} \\ x_{(n p)}, & \text{falls ~} n \cdot p \in \mathbb{N}. \end{cases} \end{align*} Dabei bezeichnet die untere Gaußklammer \lfloor c \rfloor die größte ganze Zahl, die nicht größer als c ist, z.B. \lfloor 2.7 \rfloor = 2 oder \lfloor 3 \rfloor = 3.

Analog zur Definition des Medians wählen wir im Fall n \cdot p \in \mathbb{N} entweder die Mitte des Intervalls [x_{(n p)}, x_{(n p + 1)}] als p-Quantil, wobei alle Werte in diesem Intervall die Quantilseigenschaft erfüllen, oder den kleinsten Wert x_{(n p)}, der diese Eigenschaft erfüllt.

Spezielle Quantile:

  • Quartile: Die 0.25-, 0.5- und 0.75-Quantile heißen auch erstes, zweites bzw. drittes Quartil. Gemeinsam teilen sie die Stichprobe in 4 ungefähr gleich große Gruppen. Oft wird das erste Quartil auch unteres Quartil und das dritte Quartil oberes Quartil genannt.

  • Dezentile: Die 0.1-, 0.2-, …, 0.9-Quantile heißen auch erstes, zweites, …, neuntes Dezentil. Gemeinsam teilen sie die Stichprobe in 10 ungefähr gleich große Gruppen.

  • Der Median ist also das 0.5-Quantil und somit das zweite Quartil und das fünfte Dezentil.

Beispiel 9 (Fortsetzung: Körpergröße bei 12 Personen)

Die sortierte Stichprobe lautet: 158.0, 161.5, 164.0, 167.5, 170.5, 174.5, 177.5, 179.5, 181.0, 183.0, 186.5, 192.0

Wir berechnen nun das erste und neunte Dezentil und das erste und dritte Quartil für kardinal skalierte Merkmale:

Das erste Dezentil ist gleich dem 0.1-Quantil. Es gilt n \cdot p = 12 \cdot 0.1 = 1.2 \notin \mathbb{N} und somit: \begin{align*} \tilde{x}_{0.1}= x_{(\lfloor 1.2 \rfloor + 1)} = x_{(2)} = 161.5. \end{align*} Das neunte Dezentil ist gleich dem 0.9-Quantil. Es gilt n \cdot p = 12 \cdot 0.9 = 10.8 \notin \mathbb{N} und somit: \begin{align*} \tilde{x}_{0.1}= x_{(\lfloor 10.8 \rfloor + 1)} = x_{(11)} = 186.5. \end{align*} Das erste Quartil ist gleich dem 0.25-Quantil. Es gilt n \cdot p = 12 \cdot 0.25 = 3 \in \mathbb{N} und somit: \begin{align*} \tilde{x}_{0.25} = \frac{1}{2} \Bigl(x_{(3)}+x_{(4)}\Bigr) = \frac{164.0 + 167.5}{2} = 165.75. \end{align*} Das dritte Quartil ist gleich dem 0.75-Quantil. Es gilt n \cdot p = 12 \cdot 0.75 = 9 \in \mathbb{N} und somit: \begin{align*} \tilde{x}_{0.75} = \frac{1}{2} \Bigl(x_{(9)}+x_{(10)}\Bigr) = \frac{181.0 + 183.0}{2} = 182.0. \end{align*}

Um Quantile mit der Hilfe von R zu berechnen, können wir die Funktion quantile() benutzen.

# Bestimmen der 0.1-, 0.25-, 0.5-, 0.75- und 0.9-Quantile
quantile(data$groesse, probs = c(0.1, 0.25, 0.5, 0.75, 0.9))
    10%     25%     50%     75%     90% 
161.750 166.625 176.000 181.500 186.150 

Nanu, warum erhalten wir denn andere Werte als bei der Berechnung per Hand?

Dies liegt daran das empirische Quantile nicht einheitlich definiert sind. Denn wie oben schon erklärt wurde, ist jeder Wert im Quantilsintervall ein valider Wert für das Quantil. Außerdem gibt es weitere Definitionen, sodass die Quantilsfunktion Q(p) = \tilde{x}_p stetig ist und keine Sprungstellen enthält. Bei großen Stichproben ist die Wahl der Version vernachlässigbar, da sie sich in aller Regel einander annähern.
Mit der Funktion quantile() sind verschiedene Quantilsdefinition in R implementiert, die man mit dem Argument type auswählen kann. Der default ist type = 7 und beinhaltet eine stetige Version der Quantilsfunktion. Die Version, die wir in Definition 6 für kardinal skalierte Merkmale kennengelernt haben, entspricht type = 2:

# Bestimmen der 0.1-, 0.25-, 0.5-, 0.75- und 0.9-Quantile 
# mit der Einstellung type = 2
quantile(data$groesse, probs = c(0.1, 0.25, 0.5, 0.75, 0.9), type = 2)
   10%    25%    50%    75%    90% 
161.50 165.75 176.00 182.00 186.50 

6 Graphische Darstellung: Boxplot

Der Boxplot ist eine weitere graphische Darstellung zur Präsentation von quantitativen Häufigkeitsverteilungen. Er verwendet in der einfachsten Form 5 Kennzahlen: Minimum, unteres Quartil, Median, oberes Quartil und Maximum.

Definition 7 (Boxplot)

Sei \left(x_{(1)}, \dots, x_{(n)}\right) eine geordnete Stichprobe eines Merkmals X mit Minimum x_{(1)}, unterem Quartil \tilde{x}_{0.25}, Median \tilde{x}_{0.5}, oberem Quartil \tilde{x}_{0.75} und Maximum x_{(n)}.

a. Einfacher Boxplot
Der einfache Boxplot besteht dann aus einem Kasten (Box) mit dem oberen und unterem Quartil als Enden und einer inneren Linie beim Median. Nach außen ist der Kasten jeweils durch eine Linie, sogenannte Antennen, mit den entsprechenden Extremwerten x_{(1)} und x_{(n)} verbunden.

Abbildung 8: Darstellung eines horizontalen einfachen Boxplots.

b. Verfeinerter Boxplot
Der verfeinerte Boxplot ist eine Modifikation des einfachen Boxplots, um Ausreißer aufdecken zu können. Hierbei werden die Antennen nicht bis zu den Extremwerten x_{(1)} und x_{(n)} gezeichnet, sondern nur bis zu den Beobachtungen, die nicht weiter als das 1.5-fache der Boxlänge von der Box entfernt liegen. Größere oder kleinere Werte werden separat eingezeichnet.

Abbildung 9: Darstellung eines horizontalen verfeinerten Boxplots.

Die linke Antenne wird also nur bis zur kleinsten Beobachtung gezeichnet, die nicht kleiner ist als c_l = \tilde{x}_{0.25} - 1.5 \cdot (\tilde{x}_{0.75} - \tilde{x}_{0.25}). Kleinere Werte werden mit Punkten als Ausreißer markiert. Die rechte Antenne wird nur bis zur größten Beobachtung gezeichnet, die nicht größer ist als c_r = \tilde{x}_{0.75} + 1.5 \cdot (\tilde{x}_{0.75} - \tilde{x}_{0.25}). Größere Werte werden ebenfalls mit Punkten als Ausreißer markiert.

Bemerkungen:

  • In der Box liegen ca. 50% der Beobachtungen, davon liegen 25% links und 25% rechts vom Median. In der linken und rechten Antenne liegen jeweils ca. 25% der Beobachtungen (exklusiv der Ausreißer beim verfeinerten Boxplot).

  • Die Höhe der Box hat erst einmal keine Bedeutung. Beim Vergleich mehrerer Stichproben mit unterschiedlich vielen Beobachtungen, kann man die Höhe z.B. so wählen, dass sie die Stichprobengrößen illustriert.

  • Punkte, die zwischen dem 1.5-fachen und 3-fachen der Boxlänge von der Box entfernt liegen, werden als moderate Ausreißer bezeichnet, während weiter weg liegende Punkte extreme Ausreißer sind. Diese extremen Ausreißer kann man gesondert markieren, indem diesen Punkten eine andere Form oder Farbe gegeben wird.

  • Boxplots sind eine beliebte Darstellungsform, um einen ersten Eindruck einer Verteilung zu erhalten. Sie eignen sich besonders zum Vergleich von mehreren Stichproben, da sie gut übereinander oder nebeneinander gezeichnet werden können. Für bimodale Verteilungen eignen sich Boxplots hingegen weniger gut, da sie die zwei Häufungsregionen nicht abbilden können.

Beispiel 10 (Fortsetzung: Körpergröße bei 12 Personen)

Die sortierte Stichprobe lautet: 158.0, 161.5, 164.0, 167.5, 170.5, 174.5, 177.5, 179.5, 181.0, 183.0, 186.5, 192.0

Die fünf Kennzahlen des einfachen Boxplots lauten

  • x_{(1)} = 158.0

  • \tilde{x}_{0.25} = 165.75

  • \tilde{x}_{0.5} = 176.00

  • \tilde{x}_{0.75} = 182.00

  • x_{(12)} = 192.0

Die Box ist also \tilde{x}_{0.75} - \tilde{x}_{0.25} = 182 - 165.75 = 16.25 lang.

Das 1.5-fache der Boxlänge ist: 16.25 \cdot 1.5 = 24.375.

Beim verfeinerten Boxplot werden also alle Beobachtungen, die kleiner sind als \tilde{x}_{0.25} - 24.375 = 141.375 oder größer sind als \tilde{x}_{0.75} + 24.375 = 206.375. Da alle Beobachtungen innerhalb des Intervalls [141.375, 206.375] liegen, werden die Antennen bis zum minimalen und maximalen Wert gezeichnet.

Boxplots können in R mit der Funktion boxplot() gezeichnet werden. Standardmäßig wird ein verfeinerter Boxplot gezeichnet. Für einen einfachen Boxplot wählt man das Argument range = 0. Für einen horizontalen Boxplot fügen wir das Argument horizontal = TRUE hinzu.

# Darstellen eines verfeinerten Boxplots
boxplot(data$groesse, horizontal = TRUE)

Anmerkung.

Schaut man mit help(boxplot) auf die Hilfeseite der Funktion, so kann man nachlesen, dass die Berechnungen mit einer internen Funktion boxplot.stats() berechnet werden. Auf der Hilfeseite dieser Funktion lässt sich dann nachlesen, dass hier die Boxgrenzen nicht mit den Quartilen, sondern mit sogenannten hinges berechnet werden. Diese ähneln den Quartilen sehr und sind in vielen Fällen identisch.

Trotzdem zeigt dieses Beispiel, dass es sinnvoll ist, sich die Hilfeseiten von Funktionen durchzulesen, um zu kontrollieren, ob diese wirklich das berechnen, was man denkt und benötigt. Insbesondere bei Berichten von statistischen Analysen, Publikationen oder Bachelor- und Masterthesen sollte die Beschreibung der Methoden mit der tatsächlichen Berechnung übereinstimmen, damit die Ergebnisse reproduzierbar sind.

Aufgabe 8

Welche Informationen können Sie der folgenden Grafik entnehmen?

Abbildung 10: Boxplots der Flossenlänge der Pinguine aus dem Datensatz penguins aufgeteilt nach Insel.

7 Zusammenfassung

Kennzahlen reduzieren eine Stichprobe auf einen einzelnen Wert, der eine Eigenschaft der Häufigkeitsverteilung beschreibt. Lagemaße sind spezielle Kennzahlen, die die Lage der Stichprobe beschreiben. Lagemaße der zentralen Tendenz beschreiben, wo sich die Werte der Stichprobe konzentrieren, oder wo in einem gewissen Sinne die Mitte der Stichprobe liegt. In diesem Kapitel haben wir vier solcher Maße kennengelernt: Modalwert, arithmetisches Mittel, geometrisches Mittel und Median.

Die Art der Kennzahl sollte je nach Merkmalstyp und Fragestellung passend gewählt werden. Für nominal skalierte Merkmale bietet sich nur der Modalwert an. Dieser kann ebenfalls für andere Merkmalstypen mit wenig verschiedenen Merkmalsausprägungen oder für klassierte Merkmale verwendet werden. Für mindestens ordinal skalierte Merkmale lässt sich der Median berechnen und für kardinal skalierte Merkmale kann man zusätzlich das arithmetische Mittel verwenden, welches das bekannteste der hier vorgestellten Mittelwerte ist. Das geometrische Mittel ist nur für Merkmale geeignet, die ausschließlich positive Merkmalsausprägungen zulassen. Verwendet wird es z.B. für die Berechnung der mittleren Wachstumsrate.

Eine Verallgemeinerung des Medians sind die p-Quantile. Das p-Quantil wird so gewählt, dass ein relativer Anteil von p nicht größer und ein relativer Anteil von 1-p nicht kleiner als diese Kennzahl ist. Verwendung finden Quantile bei der Berechnung eines Boxplots. Dieser ist wie auch schon das Histogramm eine grafische Darstellung von Häufigkeitsverteilungen quantitativer Merkmale.

Lösungen der Aufgaben

Aufgabe: Bestimmen Sie, welche Pinguinart im Datensatz am häufigsten vorhanden ist. Gesucht ist also der Modalwert des Merkmals Pinguinart.

Wir können die Funktion table() verwenden.

#install.packages("palmerpenguins")
library(palmerpenguins)

table(penguins$species)

   Adelie Chinstrap    Gentoo 
      152        68       124 

Oder wir schauen uns ein Balkendiagramm an:

barplot(table(penguins$species))

Die Pinguinart Adelie ist also am häufigsten im Datensatz penguins vorhanden und somit der Modalwert.

Aufgabe: Finden Sie die Modalklasse des Gewichts der Pinguine bei einer Einteilung der Klassen [2500, 2750], (2750, 3000], (3000, 3250], …, (6250, 6500].

Gesucht ist also die Klasse mit der größten Häufigkeitsdichte. Wenn wir plot = FALSE setzen, können wir mit der Funktion hist() die Häufigkeitsdichte der einzelnen Klassen bestimmen.

hist(penguins$body_mass_g, breaks = seq(2500,6500,250), plot = FALSE)$density
 [1] 1.169591e-05 1.169591e-04 2.573099e-04 5.263158e-04 5.497076e-04
 [6] 5.263158e-04 3.274854e-04 3.391813e-04 3.508772e-04 2.807018e-04
[11] 1.754386e-04 2.105263e-04 1.988304e-04 1.052632e-04 1.169591e-05
[16] 1.169591e-05

Mit which.max() können wir automatisiert herausfinden, wo sich das Maximum befindet.

which.max(hist(penguins$body_mass_g, breaks = seq(2500,6500,250), plot = FALSE)$density)
[1] 5

Die Modalklasse ist die fünfte Klasse, also (3500, 3750].

Alternativ hätten wir uns auch das Histogramm ansehen können, um die Klasse mit dem höchsten Balken zu bestimmen.

Aufgabe: Schauen Sie sich nun die Histogramme des Merkmals Gewicht getrennt nach Geschlecht an und interpretieren Sie sie.

Abbildung 11: Häufigkeitsverteilungen des Gewichts getrennt nach Geschlecht.

Interpretation: Wir sehen, dass die männlichen Pinguine über die gesamte Stichprobe gesehen schwerer sind als die weiblichen Pinguine. Dies spiegelt sich auch an den Modalklassen wieder. Diese liegt bei weiblichen Pinguin im Bereich (3250, 3500] und bei den männlichen Pinguinen bei (3750, 4000].
Außerdem ist der Gewichtsbereich bei männlichen Pinguinen größer als bei weiblichen Pinguinen. Das Gewicht weiblicher Pinguine liegt zwischen 2500 g und 5250 g und variiert somit nicht mehr als 2750 g. Das Gewicht männlicher Pinguine liegt zwischen 3000 g und 6500 g und variiert somit um 3500 g.
Weiter erkennen wir, dass beide Häufigkeitsverteilungen zwei Häufungsregionen besitzen. Es handelt sich also um bimodale Verteilungen.

Zurück zu Aufgabe 1

Aufgabe: Berechnen Sie das arithmetische Mittel der Schnabellänge.

#install.packages("palmerpenguins")
library(palmerpenguins)

# arithmetisches Mittel:
mean(penguins$bill_length_mm, na.rm = TRUE)
[1] 43.92193

Das arithmetische Mittel beträgt 43.92193 mm.

Aufgabe: Berechnen Sie dann das arithmetische Mittel der Schnabellänge für die einzelnen Pinguinarten getrennt. Vergleichen Sie Ihre Ergebnisse mit denen aus Teil a.

Mithilfe der Funktion split() können wir für jede Pinguinart einen eigenen Datensatz erstellen. Diese werden in einer Liste gespeichert.

penguins_species <- split(penguins, f = penguins$species)

Nun können wir wieder mean() benutzen, um das arithmetische Mittel für jeder Pinguinart einzeln zu berechnen.

ade_mean <- mean(penguins_species[[1]]$bill_length_mm, na.rm = TRUE)

chi_mean <- mean(penguins_species[[2]]$bill_length_mm, na.rm = TRUE)

gen_mean <- mean(penguins_species[[3]]$bill_length_mm, na.rm = TRUE)

mittel <- c(ade_mean, chi_mean, gen_mean)
mittel
[1] 38.79139 48.83382 47.50488

Vergleich: In diesem Datensatz ist die mittlere Schnabellänge der Adelie-Pinguine deutlich kürzer als die der Pinguine Chinstrap und Gentoo. Die durchschnittliche Schnabellänge über alle Pinguinarten hinweg, welche in a. berechnet wurde, ist länger als die durchschnittliche Schnabellänge der Adelie-Pinguine und kürzer als die durchschnittliche Schnabellänge der anderen beiden Pinguinarten.

Aufgabe: Berechnen Sie das gewichtete arithmetische Mittel der drei Ergebnisse aus b. Nehmen Sie die relativen Häufigkeiten der Pinguinarten als Gewichte. Fällt Ihnen etwas auf?

Zunächst berechnen wir die Gewichte, die wir in weighted.mean() eingeben müssen. Mit table() erhalten wir die absolute Häufigkeit für jede Art, die wir dann durch die Anzahl an Beobachtungen teilen. Wichtig dabei ist es, nicht zu vergessen, die Pinguine zu entfernen, deren Schnabellänge nicht bekannt ist, also fehlen.

# Gewichte
counts <- table(penguins[!is.na(penguins$bill_length_mm), ]$species)
gewichte <- counts / sum(counts)

Jetzt können wir mit den Vektoren mittel aus Aufgabenteil b. und gewichte das gewichtete arithmetische Mittel berechnen.

weighted.mean(mittel, gewichte)
[1] 43.92193

Antwort: Wenn wir die relative Häufigkeit der Spezies als Gewicht verwenden, entspricht das gewichtete Mittel genau dem arithmetischen Mittel über alle Pinguinarten hinweg, wie wir es in Teil a. berechnet haben.

Zurück zu Aufgabe 2

Die Stichprobe x_{1 1},x_{12},\dots, x_{1 n_1}, x_{2 1},x_{2 2}, \dots, x_{2 n_2}, \dots, x_{l 1}, x_{l 2}, \dots, x_{l n_l} sei geordnet, sodass x_{j 1},\dots, x_{j n_j} die Beobachtungen sind, die in Klasse K_j liegen. n_j ist die Anzahl der Beobachtungen in Klasse K_j, also gleichbedeutend mit der absoluten Häufigkeit der Klasse: n_j = H(K_j). Die relative Häufigkeit der Klasse K_j ist also h(K_j) = \frac{H(K_j)}{n} = \frac{n_j}{n}. Die Klassenmittelwerte sind \bar{a}_j = \frac{1}{n_j} (x_{j 1} + \dots + x_{j n_j}) = \frac{1}{n_j} \sum_{i = 1}^{n_j} x_{j i}. Daraus ergibt sich: \begin{align*} \bar{x} & = \frac{1}{n} \left(x_{11} + \dots + x_{1 n_1} + x_{2 1} + \dots + x_{2 n_2} + x_{l 1} + \dots + x_{l n_l} \right) \\ & = \frac{1}{n} \sum_{j = 1}^l (x_{j 1} + \dots + x_{j n_j}) = \frac{1}{n} \sum_{j = 1}^l \sum_{i = 1}^{n_j} x_{j i} \\ & = \frac{1}{n} \sum_{j = 1}^l \left( n_j \cdot \frac{1}{n_j} \sum_{i = 1}^{n_j} x_{j i} \right) = \sum_{j = 1}^l \frac{n_j}{n} \cdot \bar{a}_j = \sum_{j = 1}^l h(K_j) \cdot \bar{a}_j. \end{align*}

Zurück zu Aufgabe 3

Das geometrische Mittel von n Beobachtungen (x_1,\ldots,x_n) ist gegeben durch \bar{x}_g = \left(\prod_{i=1}^n x_i \right)^{\frac{1}{n}} = \prod_{i=1}^n x_i^{\frac{1}{n}}. Das können wir sehr einfach mit den Funktionen prod() und length() in R implementieren. NAs sollten wir vor der Berechnung in der Funktion entfernen. Eine Warnung können wir mit der Funktion warning() geben. Diese soll ausgeführt werden, wenn eine bestimmte Bedingung erfüllt ist.

my_geometric.mean <- function(x){
  # fehlende Werte aus dem Vektor x entfernen, damit diese nicht bei der 
  # Berechnung stören
  x <- x[!is.na(x)]
  # Kontrolle, ob x > 0, um zu schauen, ob wir das geometrische Mittel
  # bestimmen können
  if(any(x <= 0)) {
    warning("Ihre Stichprobe enthält Werte, die Null oder negativ sind. 
            Das geometrische Mittel ist allerdings nur für Merkmale auf 
            den positiven reellen Zahlen ein geeignetes Maß.")
  }
  # Stichprobengroesse
  n <- length(x)
  return(prod(x ^ (1 / n)))
}

# Test 1:
x1 <- c(1, 2, 3)
my_geometric.mean(x1)
[1] 1.817121
# Test 2:
x2 <- c(1, 2, -1)
my_geometric.mean(x2)
Warning in my_geometric.mean(x2): Ihre Stichprobe enthält Werte, die Null oder negativ sind. 
            Das geometrische Mittel ist allerdings nur für Merkmale auf 
            den positiven reellen Zahlen ein geeignetes Maß.
[1] NaN

Zurück zu Aufgabe 4

Aufgabe: Berechnen Sie das geometrische Mittel der Schnabellänge.

Im Falle, dass Aufgabe 4 bearbeitet wurde, können wir die selbst geschriebene Funktion my_geometric.mean() verwenden.

#install.packages("palmerpenguins")
library(palmerpenguins)

my_geometric.mean(penguins$bill_length_mm)
[1] 43.58092

Alternativ kann die Funktion geometric.mean() aus dem Paket psych verwendet werden.

library(psych)
geometric.mean(penguins$bill_length_mm)
[1] 43.58092

Beide Funktionen liefern ein geometrisches Mittel von 43.58092 mm.

Aufgabe: Berechnen Sie dann das geometrische Mittel der Schnabellänge getrennt nach Pinguinart. Vergleichen Sie Ihre Ergebnisse mit denen aus Teil a. und mit denen aus Aufgabe 2.

Hier gehen wir analog zur Lösung zur Aufgabe 2 b. vor:

# Datensatz trennen
penguins_species <- split(penguins, f = penguins$species)
# Geom. Mittel berechnen
ade_geo <- my_geometric.mean(penguins_species[[1]]$bill_length_mm)
chi_geo <- my_geometric.mean(penguins_species[[2]]$bill_length_mm)
gen_geo <- my_geometric.mean(penguins_species[[3]]$bill_length_mm)

c(ade_geo, chi_geo, gen_geo)
[1] 38.70074 48.72025 47.40778

Zum Vergleich die berechneten arithmetische Mittel aus Aufgabe 2:

mittel
[1] 38.79139 48.83382 47.50488

Wie das arithmetische Mittel in Aufgabe 2 ist auch das geometrische Mittel der Schnabellänge der Adelie-Pinguine deutlich kürzer als das der Pinguine der Art Chinstrap und Gentoo. Insgesamt unterscheiden sich die Werte der beiden Kennzahlarten kaum (Vergleich mit Aufgabe 2). Ihnen ist aber vielleicht aufgefallen, dass das geometrische Mittel stets kleiner als das arithmetische Mittel ist. Dies ist kein Zufall, denn es gilt stets x_{g} \le \bar{x}.

Aufgabe: Nehmen Sie an, Sie kennen lediglich das Ergebnis aus b. sowie die Anzahl der Pinguine pro Art, von denen die Schnabellänge bekannt ist. Fällt Ihnen eine Möglichkeit ein, mit den gegebenen Informationen das geometrische Mittel über alle Gruppen hinweg zu berechnen?

Die Lösung ist die Gleichung 2 mit den geometrischen Mittel der Klassen als Repräsentanten.

In R können wir das geometrische Mittel mit den gegebenen Informationen daher so berechnen:

n <- table(penguins[!is.na(penguins$bill_length_mm),]$species)
prod(c(ade_geo, chi_geo,gen_geo)^(n/sum(n)))
[1] 43.58092

Herleitung: Nach Aufgabenstellung kennen wir das geometrische Mittel der einzelnen Klassen. Sei also \bar{a}_{g,j} Das geometrische Mittel der j. Klasse. Es gilt also \bar{a}_{g,j} = \left(\prod_{i = 1}^{n_j} x_{ji}\right)^{1 / n_j} = x_{j1}^{1/n_j} \cdot x_{j2}^{1/n_j} \cdot \ldots \cdot x_{jn_j}^{1/n_j}, wobei x_{j1}, \dots, x_{jn_j} die Beobachtungen der j. Klasse sind und n_j die Anzahl der Beobachtungen in der jeweiligen Klasse. Dann gilt also \left(\bar{a}_{g,j}\right)^{n_j} = \left(\prod_{i = 1}^{n_j} x_{ji}\right)^{n_j / n_j} = \prod_{i = 1}^{n_j} x_{ji} = x_{j1} \cdot x_{j2} \cdot \ldots \cdot x_{jn_j}. Daraus folgt, dass \prod_{i = 1}^n x_i = x_1 \cdot x_2 \cdot \ldots \cdot x_n = \left(\bar{a}_{g,1}\right)^{n_1} \cdot \left(\bar{a}_{g,2}\right)^{n_2} \cdot \ldots \cdot \left(\bar{a}_{g,l}\right)^{n_l}. Insgesamt erhalten wir also \bar{x}_g = \sqrt[n \ \ \ ]{\prod_{i = 1}^n x_i} = \sqrt[n \ \ \ ]{\left(\bar{a}_{g,1}\right)^{n_1} \cdot \left(\bar{a}_{g,2}\right)^{n_2} \cdot \ldots \cdot \left(\bar{a}_{g,l}\right)^{n_l}} = \left(\left(\bar{a}_{g,1}\right)^{n_1} \cdot \left(\bar{a}_{g,2}\right)^{n_2} \cdot \ldots \cdot \left(\bar{a}_{g,l}\right)^{n_l}\right)^{1 / n}.

Zurück zu Aufgabe 5

Um die Anzahl der Pinguine im Datensatz im jeweiligen Jahr zu bestimmen, können wir die Funktionen table() und cumsum() verwenden. Mit table()erhalten wir die Anzahl an Pinguinen, die in den verschiedenen Jahren erhoben wurden und mit cumsum() summieren wir immer die Anzahl bis zu dem jeweiligen Jahr auf.

#install.packages("palmerpenguins")
library(palmerpenguins)

# Daten  
per_year <- unname(table(penguins$year))
x <- cumsum(per_year)

Die Wachstumsfaktoren können wir einfach anhand von f_t = 1 + \frac{x_t-x_{t-1}}{x_t} bestimmen. Dann erhalten wir die durchschnittliche Wachstumsrate, indem wir das geometrische Mittel der Wachstumsfaktoren berechnen und 1 subtrahieren.

# Wachstumsfaktoren
f <- 1 + (x[-1] - x[-3]) / x[-3]
# durchschnittliche Wachstumsrate
my_geometric.mean(f) - 1
[1] 0.7684097

Der Datensatz wächst pro Jahr durchschnittlich um ungefähr 76.84 % Pinguine.

Zurück zu Aufgabe 6

Mit den Funktionen mean() und median() können wir die beiden Lagemaße berechnen.

#install.packages("palmerpenguins")
library(palmerpenguins)

# arithmetisches Mittel
mean(penguins$body_mass_g, na.rm = TRUE)
[1] 4201.754
# Median
median(penguins$body_mass_g, na.rm = TRUE)
[1] 4050

Das arithmetische Mittel ist deutlich höher als der Median. Betrachten wir das zugehörige Histogramm, können wir erkennen, dass die Modalklasse im Bereich (3500, 4000] liegt und es nur wenige Beobachtungen gibt, die unter 3000 g liegen, während viele Beobachtungen oberhalb von 4500 g liegen. Wir sagen auch, dass das Gewicht stärker nach oben als nach unten streut. Die ausgeprägte Streuung nach oben beeinflusst jedoch nur das arithmetische Mittel, nicht den robusteren Median, sodass das arithmetische Mittel höher ist.

hist(
  penguins$body_mass_g, 
  col = "lightskyblue", 
  main = "", 
  xlab = "Masse in Gramm",   
  ylab = "absolute Häufigkeit"
)

Zurück zu Aufgabe 7


Abbildung 12: Boxplots der Flossenlänge der Pinguine aus dem Datensatz penguins aufgeteilt nach Insel.

In der Grafik ist für die drei Inseln Biscoe, Dream und Torgersen ein Boxplot der Flossenlänge in mm der Pinguine abgebildet. Wir können also die Flossenlänge der Pinguine getrennt nach Insel miteinander vergleichen. Anhand der Mediane und der Lage der Boxen erkennen wir, dass die Pinguine der Insel Biscoe eher längere Flossen haben als die Pinguine der anderen beiden Inseln. Trotzdem lebt der Pinguin mit der kürzesten Flosse ebenfalls auf der insel Biscoe. Dies sehen wir anhand der Länge der unteren Antenne. Die Boxplots zu den Inseln Dream und Torgersen liegen in einem ähnlicheren Bereich, wobei der Boxplot der Insel Dream leicht höher liegt und länger ist. Auf der Insel Torgersen wurde eine Flosse als besonders lang markiert, da der Beobachtungswert mehr als das 1.5-fache der Boxlänge von der Box entfernt liegt. Trotzdem ist diese Ausreißer-Flosse kürzer als die maximale Flossenlänge auf den beiden anderen Inseln.

Wir können den Boxplots auch Informationen zu anderen Eigenschaften als der Lage entnehmen. Wir sehen beispielsweise, dass der Boxplot zur Insel Biscoe einen deutlich größeren Wertebereich abdeckt als die anderen beiden. Dies ist ein Hinweis darauf, dass die Streuung bei den Pinguinen dieser Insel vermutlich größer ist als bei den anderen (mehr dazu in nächsten Kapitel). Außerdem können wir erkennen, dass bei den Boxplots zu den Inseln Dream und Torgersen die Mediane relativ mittig in den Boxen liegen. Die oberen und unteren Antennen sind zwar unterschiedlich lang, dennoch wäre auf Grundlage der Boxplots in beiden Fällen eine relativ symmetrische Stichprobe möglich.
Bei dem Boxplot der Insel Biscoe befindet sich der Median im oberen Teil der Box und die untere Antenne ist deutlich länger als die obere Antenne. Somit ist die Stichprobe der Flossenlänge dieser Insel nicht symmetrisch, sondern die Grafik deutet auf eine linksschiefe Verteilung hin (mehr dazu im nächsten Kapitel).

Zurück zu Aufgabe 8

Autor:innen

Diese Lerneinheit “Deskriptive Statistik” wurde von Roland Fried und Christina Mathieu unter Mithilfe von Merle Mendel und Klemens Schmidt an der Technischen Universität Dortmund entwickelt. Es ist lizenziert unter der CC-BY-SA 4.0 Lizenz und ist verfügbar auf ORCA.nrw.

Literatur

Assenmacher, Walter. 2013. Deskriptive Statistik. Berlin, Heidelberg: Springer. https://doi.org/10.1007/978-3-662-06562-4.
Horst, Allison Marie, Alison Hill, und Kristen B. Gorman. 2020. palmerpenguins: Palmer Archipelago (Antarctica) penguin data. https://doi.org/10.5281/zenodo.3960218.
Schwertman, Neil C., A. J. Gilks, und J. Cameron. 1990. „A simple noncalculus proof that the median minimizes the sum of the absolute deviations“. The American Statistician 44 (1): 38–39. https://doi.org/10.1080/00031305.1990.10475690.