Konfidenzintervalle

Zusammenfassung

In diesem Kapitel behandeln wir die Berechnung von Konfidenzintervallen, mit denen Schätzunsicherheiten quantifiziert werden. Wir leiten für verschiedene Schätzprobleme Formeln zur Berechnung von Konfidenzintervallen her und visualisieren sie mithilfe von Simulationen in R.

Lernziele: Am Ende des Kapitels können Sie

die Interpretation von Konfidenzintervallen erläutern.

Konfidenzintervalle für den Erwartungswert und die Varianz im Einstichprobenproblem berechnen.

die Abhängigkeit der Breite eines Konfidenzintervalls vom Stichprobenumfang und vom Konfidenzniveau mithilfe von R simulieren.

Konfidenzintervalle für die Differenz der Erwartungswerte im Zweistichprobenproblem berechnen.

Hinweis: Die mit einem gekennzeichneten Aufgaben können Sie durch schriftliches Rechnen lösen. Die mit gekennzeichneten Aufgaben setzen Grundkenntnisse der Programmierung mit der statistischen Software R voraus. Sie können R hier installieren, falls Sie R nicht auf Ihrem Rechner installiert haben. Zusätzlich empfiehlt sich die Installation einer integrierten Entwicklungsumgebung (IDE), wie zum Beispiel RStudio. Alternativ zur Installation können Sie die Web-Version webR direkt im Browser verwenden.

1 Einführung

In den vorangegangenen Kapiteln haben wir gelernt, wie sich unbekannte Parameter einer Wahrscheinlichkeitsverteilung – und daraus abgeleitete Größen wie der Erwartungswert oder die Varianz – anhand einer im Experiment gemessenen Stichprobe schätzen lassen und welche mathematischen Qualitätskriterien man an den dafür verwendeten Schätzer stellen kann. Da die Stichprobe nur eine zufällige Auswahl aller möglichen Messungen darstellt, besitzt jeder Schätzwert eine inhärente Unsicherheit. Für die Praxis ist eine quantitative Angabe über die Schätzunsicherheit wünschenswert.

Schätzer, die aus einer Stichprobe eine reelle Zahl als Schätzwert berechnen, werden auch Punktschätzer genannt. Beispiele sind das Stichprobenmittel oder die Stichprobenvarianz.

Als Beispiel betrachten wir den Datensatz penguins aus dem Paket palmerpenguins. Wir interessieren uns für das durchschnittliche Körpergewicht aller Pinguine, die auf Dream Island leben. Wir treffen die Annahme, dass das Körpergewicht dieser Pinguine einer Normalverteilung \textsf{N}(\theta,\sigma^2) folgt, wobei \theta das wahre, aber unbekannte mittlere Körpergewicht ist. Diese Annahme rechtfertigen wir damit, dass sowohl ein Histogramm als auch ein Dichteplot der Körpergewichte aller auf Dream Island vermessenen Pinguine ungefähr die Form einer Normalverteilungsdichte aufweisen.

library(tidyverse)
library(palmerpenguins)

penguins <- penguins |>
  filter(island == "Dream")

ggplot(penguins, aes(x = body_mass_g)) +
  geom_histogram(bins = 20) +
  labs(x = "Körpergewicht", y = "Anzahl")
ggplot(penguins, aes(x = body_mass_g)) +
  geom_density() +
  labs(x = "Körpergewicht", y = "Dichte")

Den wahren Wert des mittleren Körpergewichts können wir mit dem arithmetischen Mittel der gemessenen Körpergewichte schätzen. Die Standardabweichung schätzern wir auch gleich mit.

mean_body_mass <- mean(penguins$body_mass_g, na.rm = TRUE)
sd_body_mass <- sd(penguins$body_mass_g, na.rm = TRUE)

c(mean_body_mass, sd_body_mass)

[1] 3712.9032  416.6441

Wir erhalten also den Schätzwert \widehat{\theta}\approx3713\text{ g}. Zur Veranschaulichung zeichnen wir in den Dichteplot von oben die Dichte der \textsf{N}(3713,417^2)-Verteilung sowie den geschätzten Mittelwert ein. Zu erkennen ist eine gute, wenn auch nicht perfekte Übereinstimmung.

ggplot(penguins, aes(x = body_mass_g)) +
  geom_density() +
  geom_function(
    fun = dnorm,
    args = list(mean = mean_body_mass, sd = sd_body_mass),
    color = "red"
    ) +
  geom_segment(aes(
    x = mean_body_mass,
    y = 0,
    xend = mean_body_mass,
    yend = dnorm(mean_body_mass, mean = mean_body_mass, sd = sd_body_mass)
    ),
    color = "red",
    linetype = "dashed"
    ) +
  labs(x = "Körpergewicht", y = "Dichte")

Anhand des Schätzwerts lässt sich allerdings kein Schätzfehler \widehat{\theta}-\theta berechnen, weil das wahre mittlere Körpergewicht \theta der Pinguine auf Dream Island nicht bekannt ist. Aufgrund der großen Anzahl der Tiere können wir auch nicht alle Mitglieder der Kolonie wiegen, um \theta zu bestimmen, und mehrere Folgeexpeditionen nach Dream Island zur Erhebung weiterer Stichproben, mit denen eine präzisere Schätzung des mittleren Körpergewichts möglich wäre, sind aus Zeit- und Kostengründen wohl nicht durchführbar. Welche Abweichungen zwischen dem gemessenen Mittelwert und dem wahren Mittelwert wären also aufgrund der vorhandenen Daten plausibel? Oder anders gefragt: Welcher Wertebereich für den wahren Parameter ist mit großer Sicherheit mit den Daten vereinbar?

Da wir uns bei einer zufälligen Stichprobe nie sicher über das Ergebnis sein können, geben wir uns eine Konfidenzwahrscheinlichkeit vor, mit der ein Wertebereich den wahren Parameter enthalten soll. Wir schreiben sie als 1-\alpha, wobei \alpha\in(0,1) eine Irrtumswahrscheinlichkeit darstellt, und sprechen von einem Konfidenzbereich zum Konfidenzniveau 1-\alpha, kurz von einem (1-\alpha)-Konfidenzbereich. Ein typischer Wert ist \alpha=0.05, was einem 95\%-Konfidenzbereich entspricht. Wir wollen uns dann zu 95\% sicher sein, dass der Wertebereich den wahren Parameter enthält.

Wie sollte ein Konfidenzbereich aussehen? Natürlich sollte er den Schätzwert beinhalten. Da wir im Allgemeinen nicht sagen können, ob damit der wahre Wert über- oder unterschätzt wird, ist es außerdem sinnvoll, gleichermaßen Abweichungen nach oben wie nach unten zuzulassen. Allzu groß sollten die erlaubten Abweichungen allerdings nicht sein, da sonst die Aussagekraft verloren geht. Ein wahres Durchschnittsgewicht der Dream Island Pinguine von 10000\text{ g} erscheint bei einem gemessenen Durchschnittsgewicht von 3713\text{ g} und einer gemessenen Standardabweichung von 417\text{ g} doch sehr unplausibel, sodass ein solch extremer Wert nicht im Konfidenzbereich liegen sollte.

Im einfachsten Fall ist ein Konfidenzbereich also ein Intervall um den Schätzwert. Dessen Breite hängt im Allgemeinen von drei Einflüssen ab:

Die Verteilung, mit der die Daten modelliert werden, bestimmt, was extreme Werte sind und wie groß plausible Abweichungen vom Schätzwert sein dürfen. Führt die Modellverteilung dazu, dass die Verteilung des Schätzers symmetrisch ist, sollte auch das Konfidenzintervall symmetrisch sein, also gleich große Abweichungen vom Schätzwert nach oben wie nach unten zulassen.
Bei einem großen Konfidenzniveau wollen wir uns sehr sicher sein, dass das Konfidenzintervall den wahren Parameter tatsächlich enthält, und müssen daher mehr mögliche Werte zulassen. Das Intervall wird dadurch breiter.
Bei einem großen Stichprobenumfang haben wir viele Daten zur Verfügung, mit denen wir eine präzise Punktschätzung abgeben und Abweichungen davon enger eingrenzen können. Das Intervall wird dadurch schmaler.

In Kapitel 4 werden wir uns diese qualitativen Einflüsse mithilfe von Simulationen in R genauer anschauen.

Zur Berechnung der Intervallgrenzen stehen nur die zufallsbehafteten Daten zur Verfügung, daher werden sich bei einer Wiederholung des Zufallsexperiments andere Daten und somit ein anderes Konfidenzintervall ergeben. Es handelt sich bei einem Konfidenzintervall also um eine Zufallsvariable \textsf{KI}_{1-\alpha}(X_1,\ldots,X_n), deren Realisierung \textsf{KI}_{1-\alpha}(x_1,\ldots,x_n) zur Stichprobe (x_1,\ldots,x_n) nicht wie gewohnt eine reelle Zahl, sondern ein Intervall in den reellen Zahlen ist. Wir fordern dann, dass dieses Zufallsintervall den unbekannten Parameter \gamma(\theta) mit einer Wahrscheinlichkeit von 1-\alpha enthält, egal was der wahre Wert von \theta ist.

Schätzer, die aus einer Stichprobe ein reelles Intervall als Schätzwert berechnen, werden auch Intervallschätzer genannt. Konfidenzintervalle sind also Intervallschätzer.

Definition 1 (Konfidenzintervall)

Seien X_1,\ldots,X_n unabhängige und identisch verteilte Zufallsvariablen, deren Verteilung P_\theta von einem unbekannten Parameter \theta\in\Theta abhängt. Sei \gamma:\Theta\longrightarrow\Gamma eine Abbildung vom Parameterraum \Theta in eine beliebige Teilmenge \Gamma\subseteq\mathbb{R} der reellen Zahlen. Sei \alpha\in(0,1) eine vorgegebene Irrtumswahrscheinlichkeit.

Eine Zufallsvariable \textsf{KI}_{1-\alpha}(X_1,\ldots,X_n) mit Werten in der Menge aller Intervalle in den reellen Zahlen heißt (1-\alpha)-Konfidenzintervall für \gamma(\theta), wenn P_\theta\big(\textsf{KI}_{1-\alpha}(X_1,\ldots,X_n)\ni\gamma(\theta)\big)=1-\alpha\quad\forall\theta\in\Theta. \tag{1}

Kennen wir einen geeigneten Schätzer \widehat{\gamma}_n für \gamma(\theta), dann ist das Konfidenzintervall von der Form \textsf{KI}_{1-\alpha}=[\widehat{\gamma}_n-\Delta_n,\widehat{\gamma}_n+\Delta_n] \tag{2} mit einer positiven Toleranzgrenze \Delta_n=\Delta_n(X_1,\ldots,X_n), innerhalb der gerade diejenigen möglichen Werte für \gamma(\theta) liegen, die zum Konfidenzniveau 1-\alpha mit den Daten vereinbar sind. Gleichung 1 können wir dann schreiben als P_\theta(\widehat{\gamma}_n-\Delta_n\leq\gamma(\theta)\leq\widehat{\gamma}_n+\Delta_n)=1-\alpha\quad\forall\theta\in\Theta. \tag{3}

Wir setzen hier zunächst ein symmetrisches Konfidenzintervall an, falls die Verteilung von \widehat{\gamma}_n symmetrisch ist. Das wird in Kapitel 2 und in Kapitel 5 der Fall sein, in Kapitel 3 dagegen nicht.

Aufgabe 1

Nach der Vermessung der Pinguine auf Dream Island werten die Forschenden die Daten aus und berechnen für das mittlere Körpergewicht das 95\%-Konfidenzintervall [3639, 3787], wobei die Zahlenwerte in Gramm angegeben sind. Wie bewerten Sie die Aussage, dass das wahre durchschnittliche Körpergewicht aller Pinguine auf Dream Island mit einer Wahrscheinlichkeit von 0.95 in diesem Intervall enthalten ist?

Aufgabe 1 zeigt, dass wir beim Begriff Konfidenzintervall aus mathematischer Sicht zwei verschiedene Bedeutungen unterscheiden müssen:

Ein zufälliges Konfidenzintervall \textsf{KI}_{1-\alpha}(X_1,\ldots,X_n) ist ein Schätzer. Es ist eine Zufallsvariable mit Werten in der Menge aller reellen Intervalle, für die eine Wahrscheinlichkeitsaussage über den wahren Parameter \gamma(\theta) wie in Gleichung 1 sinnvoll ist.
Ein realisiertes Konfidenzintervall \textsf{KI}_{1-\alpha}(x_1,\ldots,x_n) ist die Realisierung des zufälligen Konfidenzintervalls zur Stichprobe (x_1,\ldots,x_n), also ein konkretes Intervall [a,b] mit a,b\in\mathbb{R}. Es kann keine Wahrscheinlichkeitsaussage über den wahren Parameter \gamma(\theta) mehr getroffen werden, denn [a,b] ist deterministisch. Es gilt entweder \gamma(\theta)\in[a,b] oder \gamma(\theta)\notin[a,b].

Im Folgenden werden wir aus sprachlicher Sicht nicht präzise zwischen einem zufälligen und einem realisierten Konfidenzintervall unterscheiden, sondern jeweils von einem Konfidenzintervall sprechen.

Ein Konfidenzintervall wie in Gleichung 2 heißt zweiseitig, da Abweichungen vom Schätzwert sowohl nach unten als auch nach oben berücksichtigt werden. Je nach Anwendungskontext können aber auch nur Abweichungen in eine Richtung von Interesse sein.

Sind nur Abweichungen nach unten interessant, nennt man das Konfidenzintervall linksseitig. Analog zu Gleichung 2 ist es dann von der Form \textsf{KI}_{1-\alpha}=[\widehat{\gamma}_n-\Delta_n,\infty) \tag{4} und die Bedingung in Gleichung 3 wird zu P_\theta(\widehat{\gamma}_n-\Delta_n\leq\gamma(\theta))=1-\alpha\quad\forall\theta\in\Theta. \tag{5} Eine beispielhafte Fragestellung ist, ob das durchschnittliche Körpergewicht der Pinguine auf Dream Island unterhalb des gemessenen Mittelwerts liegt.
Sind nur Abweichungen nach oben interessant, nennt man das Konfidenzintervall rechtsseitig. Analog zu Gleichung 2 ist es dann von der Form \textsf{KI}_{1-\alpha}=(-\infty,\widehat{\gamma}_n+\Delta_n] \tag{6} und die Bedingung in Gleichung 3 wird zu P_\theta(\gamma(\theta)\leq\widehat{\gamma}_n+\Delta_n)=1-\alpha\quad\forall\theta\in\Theta. \tag{7} Eine beispielhafte Fragestellung ist, ob das durchschnittliche Körpergewicht der Pinguine auf Dream Island oberhalb des gemessenen Mittelwerts liegt.

In den folgenden Unterkapiteln leiten wir in verschiedenen Situationen und unter geeigneten mathematischen Annahmen konkrete Formeln zur Berechnung eines Konfidenzintervalls her, indem wir jeweils von einem geeigneten Schätzer \widehat{\gamma}_n für \gamma(\theta) ausgehen, dessen Verteilung bestimmen und dann \Delta_n berechnen, sodass Gleichung 3 erfüllt ist.

2 Konfidenzintervall für den Erwartungswert

Das Stichprobenmittel \widehat{\gamma}_n=\overline{X}_n ist ein erwartungstreuer Schätzer für \gamma(\theta)=\mu=\textsf{E}(X_1). Daher ist es naheliegend, die Konstruktion eines Konfidenzintervalls für \mu auf den Eigenschaften von \overline{X}_n aufzubauen.

Das Stichprobenmittel ist definiert durch \overline{X}_n=\frac{1}{n}\sum_{k=1}^nX_k.

Zu vorgegebenem \alpha\in(0,1) suchen wir gemäß Gleichung 3 eine positive Toleranzgrenze \Delta_n, sodass mit einer Wahrscheinlichkeit von 1-\alpha der unbekannte Erwartungswert \mu in einem Abstand von höchstens \Delta_n um das Stichprobenmittel \overline{X}_n zu finden ist. In einer Gleichung ausgedrückt bedeutet das P_\mu(\overline{X}_n-\Delta_n\leq\mu\leq\overline{X}_n+\Delta_n)=1-\alpha\quad\forall\mu\in\mathbb{R}. \tag{8} Wenn wir ein solches \Delta_n gefunden haben, dann ist ein (1-\alpha)-Konfidenzintervall für \mu wie in Gleichung 2 gegeben durch \textsf{KI}_{1-\alpha}=[\overline{X}_n-\Delta_n,\overline{X}_n+\Delta_n]. \tag{9}

2.1 Die Varianz ist bekannt

Der Erwartungswert des Stichprobenmittels ist \textsf{E}(\overline{X}_n)=\mu und die Varianz ist \textsf{Var}(\overline{X}_n)=\sigma^2/n. Wir nehmen zunächst an, dass der Zahlenwert von \sigma^2 bekannt ist. Wenn wir weiterhin von normalverteilten Daten bzw. von normalverteilten Zufallsvariablen X_1,\ldots,X_n ausgehen, ist \overline{X}_n ebenfalls normalverteilt. Durch Standardisieren gelangen wir zur standardnormalverteilten Zufallsvariablen \overline{X}_n^* =\frac{\overline{X}_n-\textsf{E}(\overline{X}_n)}{\sqrt{\textsf{Var}(\overline{X}_n)}} =\frac{\overline{X}_n-\mu}{\sigma/\sqrt{n}} =\frac{\sqrt{n}(\overline{X}_n-\mu)}{\sigma}. \tag{10}

Beim Standardisieren (auch Z-Transformation genannt) wird der Erwartungswert subtrahiert und anschließend durch die Standardabweichung dividiert.

Die Wahrscheinlichkeit in Gleichung 8 können wir somit über die Verteilungsfunktion der Standardnormalverteilung berechnen: \begin{align*} &\quad P_\mu(\overline{X}_n-\Delta_n\leq\mu\leq\overline{X}_n+\Delta_n)\\ &=P_\mu(-\Delta_n\leq\overline{X}_n-\mu\leq\Delta_n)\\ &=P_\mu\left(-\frac{\sqrt{n}\Delta_n}{\sigma}\leq\frac{\sqrt{n}(\overline{X}_n-\mu)}{\sigma}\leq\frac{\sqrt{n}\Delta_n}{\sigma}\right)\\ &=\Phi\left(\frac{\sqrt{n}\Delta_n}{\sigma}\right)-\Phi\left(-\frac{\sqrt{n}\Delta_n}{\sigma}\right)\\ &=2\Phi\left(\frac{\sqrt{n}\Delta_n}{\sigma}\right)-1. \end{align*}

\Phi ist die Verteilungsfunktion von \textsf{N}(0,1). Sie besitzt die Symmetrieeigenschaft \Phi(-t)=1-\Phi(t).

Um ein (1-\alpha)-Konfidenzintervall zu bekommen, setzen wir diesen Ausdruck gleich 1-\alpha und lösen anschließend nach \Delta_n auf: \begin{align*} &&2\Phi\left(\frac{\sqrt{n}\Delta_n}{\sigma}\right)-1 &=1-\alpha\\ \Longleftrightarrow\quad &&\Phi\left(\frac{\sqrt{n}\Delta_n}{\sigma}\right) &=1-\alpha/2\\ \Longleftrightarrow\quad &&\frac{\sqrt{n}\Delta_n}{\sigma} &=z_{1-\alpha/2}\\ \Longleftrightarrow\quad &&\Delta_n &=z_{1-\alpha/2}\frac{\sigma}{\sqrt{n}} \end{align*} Wir haben somit die gesuchte Toleranzgrenze \Delta_n für Gleichung 8 bzw. Gleichung 9 gefunden. Das Ergebnis halten wir im folgenden Theorem fest.

z_\beta ist das \beta-Quantil der \textsf{N}(0,1)-Verteilung. Es ist diejenige Zahl, für die \Phi(z_\beta)=\beta gilt. In dieser Rechnung ist \beta=1-\alpha/2.

Theorem 1 (Zweiseitiges Konfidenzintervall für \mu bei bekannter Varianz)

Seien X_1,\ldots,X_n unabhängige und identisch \textsf{N}(\mu,\sigma^2)-verteilte Zufallsvariablen mit unbekanntem \mu und bekanntem \sigma^2. Dann ist ein (1-\alpha)-Konfidenzintervall für \mu gegeben durch \textsf{KI}_{1-\alpha}=\left[\overline{X}_n-z_{1-\alpha/2}\frac{\sigma}{\sqrt{n}},\overline{X}_n+z_{1-\alpha/2}\frac{\sigma}{\sqrt{n}}\right]. \tag{11}

Anmerkung.

Anhand von Gleichung 11 stellen wir fest, dass die zufälligen Daten nur eine Auswirkung auf den Mittelpunkt des Intervalls haben, nicht jedoch auf dessen Breite, denn diese ist nicht zufällig. Bei zwei verschiedenen Stichproben mit demselben Stichprobenumfang resultieren die zufälligen Unterschiede in den Daten also lediglich in verschiedene Mittelpunkte gemäß der jeweiligen arithmetischen Mittel. Dagegen wird die Intervallbreite allein vom Stichprobenumfang n und der Irrtumswahrscheinlichkeit \alpha bestimmt. Diese Beobachtungen werden wir in Kapitel 4 mittels einer Simulationsstudie in R weiter erkunden.

Umgekehrt wird es dadurch möglich, bei vorgegebener Irrtumswahrscheinlichkeit \alpha die Intervallbreite über den Stichprobenumfang n zu steuern. So kann vor Erhebung der Daten ein höherer Stichprobenumfang eingeplant werden, damit die statistische Auswertung ein kleineres Konfidenzintervall und damit eine präzisere Aussage über den unbekannten Erwartungswert ergibt (siehe Seite 150 in Timischl 2013). Man spricht auch von einer Fallzahlplanung.

In einem Anwendungsbeispiel sehen wir Gleichung 11 nun in Aktion.

Beispiel 1

Bei 12 verschiedenen Zubereitungen einer isotonischen Kochsalzlösung wurde der prozentuale Massenanteil an Kochsalz gemessen. Die erhaltenen Messwerte in Prozent sind \begin{array}{rrrrrr} 0.91&0.92&0.87&0.89&0.92&0.86\\ 0.94&0.90&0.89&0.90&0.89&0.91 \end{array} Wir nehmen an, dass die Messwerte Realisierungen von unabhängigen und identisch \textsf{N}(\mu,\sigma^2)-verteilten Zufallsvariablen X_1,\ldots,X_{12} mit bekannter Varianz \sigma^2=4\cdot10^{-4} sind. Mithilfe von Gleichung 11 berechnen wir ein 95\%-Konfidenzintervall für den unbekannten Erwartungswert \mu.

Zunächst müssen wir den Wert von \alpha bestimmen. Da ein 95\%-Konfidenzintervall gesucht ist, ist 1-\alpha=0.95 und damit \alpha=0.05. Die Standardabweichung \sigma kann aus der vorgegebenen Varianz \sigma^2 berechnet werden und der Stichprobenumfang ist n=12. Wir benötigen also nur noch den Schätzwert des Stichprobenmittels \overline{X}_n, den wir in R mit der Funktion mean() berechnen:

# gemessene prozentuale Massenanteile
w <- c(0.91, 0.92, 0.87, 0.89, 0.92, 0.86, 0.94, 0.90, 0.89, 0.90, 0.89, 0.91)
# arithmetisches Mittel der Messwerte
mean(w)

[1] 0.9

Die untersuchten Lösungen enthalten im Mittel also einen 0.9\%-igen Massenanteil Kochsalz (wie es bei einer isotonischen Kochsalzlösung sein sollte). Damit berechnen wir nun die Grenzen des gesuchten Konfidenzintervalls:

# untere Intervallgrenze
lower <- mean(w) - qnorm(1 - 0.05 / 2) * sqrt(4e-4 / 12)
# obere Intervallgrenze
upper <- mean(w) + qnorm(1 - 0.05 / 2) * sqrt(4e-4 / 12)

c(lower, upper)

[1] 0.8886841 0.9113159

Auf drei Nachkommastellen gerundet erhalten wir das 95\%-Konfidenzintervall \textsf{KI}_{0.95}=[0.889,0.911].

Ein weiteres Anwendungsproblem lösen Sie in der folgenden Aufgabe.

Aufgabe 2

Arbeiten Sie mit dem Datensatz penguins aus dem Paket palmerpenguins. Berechnen Sie ein 90\%-Konfidenzintervall für die mittlere Schnabellänge bill_length_mm, wenn die einzelnen Schnabellängen als normalverteilt und für die Standardabweichung ein Wert von \sigma=5\text{ mm} angenommen werden.

Gleichung 11 ist ein zweiseitiges Konfidenzintervall, aber mit ähnlichen Überlegungen wie zuvor kann man auch Formeln für einseitige Konfidenzintervalle herleiten.

Aufgabe 3

Wie in Theorem 1 seien X_1,\ldots,X_n unabhängig und identisch normalverteilt mit bekannter Varianz. Rechnen Sie nach, dass einseitige (1-\alpha)-Konfidenzintervalle für den Erwartungswert durch die folgenden Formeln gegeben sind.

Ein linksseitiges Konfidenzintervall für \mu ist \textsf{KI}_{1-\alpha}=\left[\overline{X}_n-z_{1-\alpha}\frac{\sigma}{\sqrt{n}},\infty\right). \tag{12}
Ein rechtsseitiges Konfidenzintervall für \mu ist \textsf{KI}_{1-\alpha}=\left(-\infty,\overline{X}_n+z_{1-\alpha}\frac{\sigma}{\sqrt{n}}\right]. \tag{13}

Anmerkung.

Wir gehen in diesem Abschnitt und auch im weiteren Verlauf von normalverteilten Daten aus, weil wir auf diese Weise exakte Formeln für die Konfidenzintervalle herleiten können. Aufgrund des zentralen Grenzwertsatzes lassen sich jedoch auch für andere Verteilungen approximative Konfidenzintervalle angeben, sofern der Stichprobenumfang ausreichend groß ist. Man spricht in diesem Fall von asymptotischen Konfidenzintervallen, weil sie das Konfidenzniveau für endliches n zwar nur approximativ einhalten, im Grenzwert für n\to\infty jedoch exakt. Asymptotische Konfidenzintervalle für den Erwartungswert sind typischerweise von der Form “Schätzer plus/minus Quantil mal Standardabweichung” (siehe Seite 253-255 in Henze 2019).

2.2 Die Varianz ist unbekannt

Ist die Varianz dagegen nicht bekannt – in der Praxis ist das oft das realistischere Szenario – hilft das Standardisieren des Stichprobenmittels zu \overline{X}_n^*=\frac{\sqrt{n}(\overline{X}_n-\mu)}{\sigma}\sim\textsf{N}(0,1) nicht mehr weiter. Zwar ist das Rechnen mit der Standardnormalverteilung unproblematisch, aber die Intervallgrenzen in Gleichung 11 sind nicht mehr aus den Daten bestimmbar, wenn \sigma als unbekannte Größe vorkommt.

In diesem Fall besteht die Idee darin, die Daten zu nutzen, um die Standardabweichung \sigma mit der Stichprobenstandardabweichung S_n zu schätzen. Jedes Vorkommen von \sigma wird formal durch S_n ersetzt. \overline{X}_n wird nicht mehr wie in Gleichung 10 zu \overline{X}_n^* standardisiert, sondern studentisiert zu T_n=\frac{\sqrt{n}(\overline{X}_n-\mu)}{S_n}.

S_n ist die Wurzel aus der Stichprobenvarianz S_n^2=\frac{1}{n-1}\sum_{k=1}^n(X_k-\overline{X}_n)^2.

Das unbekannte \sigma ist augenscheinlich aus dieser neuen Zufallsvariablen verschwunden, jedoch könnte ihre Verteilung weiterhin von \sigma abhängen, da immerhin die Verteilungen von \overline{X}_n und S_n von \sigma abhängen. Die Frage ist also, welche Verteilung das studentisierte Stichprobenmittel besitzt und von welchen Parametern diese Verteilung abhängt. Dazu bringen wir das studentisierte Stichprobenmittel durch geschickte Umformungen in eine komplizierte Gestalt, in der nur noch standardisierte Zufallsvariablen vorkommen:

\begin{align*} T_n &=\frac{\sqrt{n}(\overline{X}_n-\mu)}{S_n}\\ &=\frac{\frac{\sqrt{n}(\overline{X}_n-\mu)}{\sigma}}{\sqrt{\frac{1}{\sigma^2}S_n^2}}\\ &=\frac{\frac{\sqrt{n}(\overline{X}_n-\mu)}{\sigma}}{\sqrt{\frac{1}{\sigma^2}\frac{1}{n-1}\sum\limits_{k=1}^n(X_k-\overline{X}_n)^2}}\\ &=\frac{\frac{\sqrt{n}(\overline{X}_n-\mu)}{\sigma}}{\sqrt{\frac{1}{n-1}\sum\limits_{k=1}^n\left(\frac{X_k-\mu}{\sigma}-\frac{1}{\sqrt{n}}\frac{\sqrt{n}(\overline{X}_n-\mu)}{\sigma}\right)^2}}\\ &=\frac{\overline{X}_n^* }{\sqrt{\frac{1}{n-1}\sum\limits_{k=1}^n(X_k^* -\frac{1}{\sqrt{n}}\overline{X}_n^*)^2}} \end{align*}

Zuerst wird der Bruch mit 1/\sigma erweitert. Im Nenner des Doppelbruchs lässt sich dann S_n/\sigma als Wurzel aus seinem Quadrat schreiben. Danach wird die Formel für S_n^2 eingesetzt und im Ausdruck (X_k-\overline{X}_n)^2 die Nulladdition -\mu+\mu=0 durchgeführt. Der Faktor 1/\sigma^2 wird in die Summe gezogen und auf beide Terme im Quadrat aufgeteilt. Dadurch erhält man die standardisierten Zufallsvariablen X_k^* und \overline{X}_n^*.

Wegen X_k^*\sim\textsf{N}(0,1) für alle k=1,\ldots,n und \overline{X}_n^*\sim\textsf{N}(0,1) setzt sich das studentisierte Stichprobenmittel T_n nur aus standardnormalverteilten Zufallsvariablen zusammen. Insbesondere sehen wir anhand der Umformung, dass die Verteilung von T_n nur von n abhängt, nicht aber von \mu oder \sigma^2. Dieser Verteilung geben wir einen eigenen Namen.

Definition 2 (t-Verteilung)

Seien X_1,\ldots,X_n unabhängige und identisch \textsf{N}(\mu,\sigma^2)-verteilte Zufallsvariablen. Die Verteilung des studentisierten Stichprobenmittels T_n=\frac{\sqrt{n}(\overline{X}_n-\mu)}{S_n} \tag{14} heißt t-Verteilung mit n-1 Freiheitsgraden. Wir schreiben T_n\sim t_{n-1}.

Weitere Informationen zur t-Verteilung finden Sie z. B. in Henze (2019) auf Seite 249-250

Für einige Werte von n ist die Dichtefunktion der t_n-Verteilung in der folgenden Grafik gezeichnet. Sie nähern sich für wachsendes n immer mehr der Dichtefunktion der Standardnormalverteilung an, die für n = inf eingezeichnet ist.

Anmerkung.

In R gibt es die folgenden Funktionen für Berechnungen mit der t_n-Verteilung. Als zusätzliches Argument muss jeweils df = n für die Anzahl der Freiheitsgrade angegeben werden.

Mathematisches Objekt	R Funktion
Dichtefunktion der t-Verteilung	`dt()`
Verteilungsfunktion der t-Verteilung	`pt()`
Quantil der t-Verteilung	`qt()`
t-verteilte Zufallszahlen	`rt()`

Die Verteilung von \sqrt{n}(\overline{X}_n-\mu)/S_n ist also eine t_{n-1}-Verteilung und hängt somit nur vom Stichprobenumfang n ab. In der Folge müssen in Gleichung 11 die Quantile der Standardnormalverteilung formal durch die Quantile der t_{n-1}-Verteilung ausgetauscht werden. Dass dieses Vorgehen auch mathematisch zu einem Konfidenzintervall für \mu führt, zeigen das folgende Theorem und sein Beweis.

Theorem 2 (Zweiseitiges Konfidenzintervall für \mu bei unbekannter Varianz)

Seien X_1,\ldots,X_n unabhängige und identisch \textsf{N}(\mu,\sigma^2)-verteilte Zufallsvariablen mit unbekanntem \mu und unbekanntem \sigma^2. Dann ist ein (1-\alpha)-Konfidenzintervall für \mu gegeben durch \textsf{KI}_{1-\alpha}=\left[\overline{X}_n-t_{n-1,1-\alpha/2}\frac{S_n}{\sqrt{n}},\overline{X}_n+t_{n-1,1-\alpha/2}\frac{S_n}{\sqrt{n}}\right]. \tag{15}

F_m ist die Verteilungsfunktion von t_m. Genau wie \Phi besitzt F_m die Symmetrieeigenschaft F_m(-t)=1-F_m(t). t_{m,\beta} ist das \beta-Quantil von t_m. Es gilt also F_m(t_{m,\beta})=\beta. Hier ist m=n-1 und \beta=1-\alpha/2.

Beweis. Wir schreiben das Ereignis, dass \textsf{KI}_{1-\alpha} aus Gleichung 15 den unbekannten Erwartungswert \mu enthält, auf das studentisierte Stichprobenmittel um, denn dieses ist t_{n-1}-verteilt. Somit können wir die Wahrscheinlichkeit dieses Ereignisses berechnen: \begin{align*} P(\textsf{KI}_{1-\alpha}\ni\mu) &=P\left(\overline{X}_n-t_{n-1,1-\alpha/2}\frac{S_n}{\sqrt{n}}\leq\mu\leq\overline{X}_n+t_{n-1,1-\alpha/2}\frac{S_n}{\sqrt{n}}\right)\\ &=P\left(-t_{n-1,1-\alpha/2}\frac{S_n}{\sqrt{n}}\leq\overline{X}_n-\mu\leq t_{n-1,1-\alpha/2}\frac{S_n}{\sqrt{n}}\right)\\ &=P\left(-t_{n-1,1-\alpha/2}\leq\frac{\sqrt{n}(\overline{X}_n-\mu)}{S_n}\leq t_{n-1,1-\alpha/2}\right)\\ &=F_{n-1}(t_{n-1,1-\alpha/2})-F_{n-1}(-t_{n-1,1-\alpha/2})\\ &=2F_{n-1}(t_{n-1,1-\alpha/2})-1\\ &=2(1-\alpha/2)-1\\ &=1-\alpha \end{align*} Somit ist \textsf{KI}_{1-\alpha} ein (1-\alpha)-Konfidenzintervall für \mu.

Anmerkung.

Im Gegensatz zu Gleichung 11 hängt die Intervallbreite in Gleichung 15 nun doch über die Stichprobenstandardabweichung von den Daten ab. Bei vorgegebener Irrtumswahrscheinlichkeit \alpha kann man jedoch immer noch einen Mindeststichprobenumfang bestimmen, sodass das Konfidenzintervall eine vorgegebene Breite besitzt (siehe Seite 151 in Timischl 2013).

Als Anwendungsbeispiel von Gleichung 15 hinterfragen wir die in Beispiel 1 gemachte Annahme, dass bei der Messung des Massenanteils an Kochsalz die Varianz bekannt sein soll. Realistischer wäre es, von einem Messverfahren mit unbekannter Streuung in den Messwerten auszugehen.

Beispiel 2

In der Situation von Beispiel 1 nehmen wir an, dass neben \mu auch \sigma^2 unbekannt ist. Aus den 12 Messwerten berechnen wir erneut ein 95\%-Konfidenzintervall, nun mithilfe von Gleichung 15. In der Rechnung müssen wir zwei Dinge ändern: Das Quantil der Standardnormalverteilung wird ersetzt durch das Quantil qt() der t-Verteilung mit df = n - 1 Freiheitsgraden und die Standardabweichung wird ersetzt durch den Schätzwert der Stichprobenstandardabweichung, den wir in R mit der Funktion sd() berechnen.

# gemessene prozentuale Massenanteile
w <- c(0.91, 0.92, 0.87, 0.89, 0.92, 0.86, 0.94, 0.90, 0.89, 0.90, 0.89, 0.91)
# untere Intervallgrenze
lower <- mean(w) - qt(1 - 0.05 / 2, df = 12 - 1) * sd(w) / sqrt(12)
# obere Intervallgrenze
upper <- mean(w) + qt(1 - 0.05 / 2, df = 12 - 1) * sd(w) / sqrt(12)

c(lower, upper)

[1] 0.8859225 0.9140775

Mit den auf drei Nachkommastellen gerundeten Werten ergibt sich das 95\%-Konfidenzintervall \textsf{KI}_{0.95}=[0.886,0.914]. Im Vergleich zum Ergebnis aus Beispiel 1 bleibt der Intervallmittelpunkt gleich, jedoch ändert sich die Intervallbreite. Diese hängt nämlich von der geschätzten Standardabweichung ab und ist daher nicht mehr deterministisch. Die konkreten Messwerte führen hier dazu, dass das Intervall etwas breiter ist.

Auch bei der Arbeit mit den Palmer-Pinguinen ist es realistisch, der Vermessung der Schnabellängen eine unbekannte Varianz zu unterstellen. Lösen Sie die folgende Aufgabe, um nun das korrekte Konfidenzintervall zu ermitteln.

Aufgabe 4

Neben dem zweiseitigen Konfidenzintervall aus Gleichung 15 gibt es ebenfalls Formeln für einseitige Konfidenzintervalle, die Thema der folgenden Aufgabe sind.

Aufgabe 5

Wie in Theorem 2 seien X_1,\ldots,X_n unabhängig und identisch normalverteilt mit unbekannter Varianz. Rechnen Sie nach, dass einseitige (1-\alpha)-Konfidenzintervalle für den Erwartungswert durch die folgenden Formeln gegeben sind.

Ein linksseitiges Konfidenzintervall für \mu ist \textsf{KI}_{1-\alpha}=\left[\overline{X}_n-t_{n-1,1-\alpha}\frac{S_n}{\sqrt{n}},\infty\right). \tag{16}
Ein rechtsseitiges Konfidenzintervall für \mu ist \textsf{KI}_{1-\alpha}=\left(-\infty,\overline{X}_n+t_{n-1,1-\alpha}\frac{S_n}{\sqrt{n}}\right]. \tag{17}

3 Konfidenzintervall für die Varianz

Bei der Herleitung eines Konfidenzintervalls für den Erwartungswert sind wir von einem erwartungstreuen Schätzer für den Erwartungswert ausgegangen, nämlich vom Stichprobenmittel \overline{X}_n. Analog dazu verwenden wir jetzt die Stichprobenvarianz S_n^2, die ein erwartungstreuer Schätzer für die Varianz ist, um ein Konfidenzintervall für die Varianz herzuleiten. Wie zuvor nehmen wir an, dass die Daten von unabhängigen und identisch normalverteilten Zufallsvariablen X_1,\ldots,X_n generiert werden. Deren Erwartungswert \mu und Varianz \sigma^2 sind unbekannt und wir suchen ein (1-\alpha)-Konfidenzintervall für \sigma^2 basierend auf den zufälligen Beobachtungen X_1,\ldots,X_n.

Die Stichprobenvarianz ist definiert durch S_n^2=\frac{1}{n-1}\sum_{k=1}^n(X_k-\overline{X}_n)^2.

Bei der Herleitung eines Konfidenzintervalls für den Erwartungswert war es entscheidend, den Schätzer so zu transformieren, dass die Verteilung – und somit auch das Konfidenzintervall – nicht mehr von unbekannten Parametern abhängt. So haben wir das Stichprobenmittel bei bekannter Varianz standardisiert und bei unbekannter Varianz studentisiert. Den transformierten Schätzer konnten wir jeweils allein durch standardnormalverteilte Zufallsvariablen ausdrücken.

Genauso gehen wir nun bei der Stichprobenvarianz vor. Die zielführende Transformation besteht darin, S_n^2 mit dem Faktor (n-1)/\sigma^2 zu multiplizieren:

\begin{align*} \frac{(n-1)S_n^2}{\sigma^2} &=\frac{1}{\sigma^2}\sum_{k=1}^n(X_k-\overline{X}_n)^2\\ &=\sum_{k=1}^n\left(\frac{X_k-\mu}{\sigma}-\frac{1}{\sqrt{n}}\frac{\sqrt{n}(\overline{X}_n-\mu)}{\sigma}\right)^2\\ &=\sum_{k=1}^n\left(X_k^* -\frac{1}{\sqrt{n}}\overline{X}_n^*\right)^2. \end{align*}

Bereits die Division durch \sigma^2 sorgt dafür, dass die X_k zu X_k^* und \overline{X}_n zu \overline{X}_n^* transformiert werden können. Üblicherweise wird zusätzlich noch mit n-1 multipliziert, um den Vorfaktor vor der Summe zu kürzen.

Wegen X_k^*\sim\textsf{N}(0,1) für alle k=1,\ldots,n und \overline{X}_n^*\sim\textsf{N}(0,1) setzt sich diese Zufallsvariable nur aus standardnormalverteilten Zufallsvariablen zusammen und die Verteilung hängt nur noch von n ab. Wir geben ihr einen eigenen Namen.

Definition 3 (Chi-Quadrat-Verteilung)

Seien X_1,\ldots,X_n unabhängige und identisch \textsf{N}(\mu,\sigma^2)-verteilte Zufallsvariablen. Die Verteilung der Zufallsvariablen \frac{(n-1)S_n^2}{\sigma^2}=\frac{1}{\sigma^2}\sum_{k=1}^n(X_k-\overline{X}_n)^2 \tag{18} heißt Chi-Quadrat-Verteilung mit n-1 Freiheitsgraden. Wir schreiben (n-1)S_n^2/\sigma^2\sim\chi^2_{n-1}.

Weitere Informationen zur Chi-Quadrat-Verteilung finden Sie z. B. in Henze (2019) auf Seite 157.

Für einige Werte von n ist die Dichtefunktion der \chi^2_n-Verteilung in der folgenden Grafik gezeichnet.

Anmerkung.

In R gibt es die folgenden Funktionen für Berechnungen mit der \chi^2_n-Verteilung. Als zusätzliches Argument muss jeweils df = n für die Anzahl der Freiheitsgrade angegeben werden.

Mathematisches Objekt	R Funktion
Dichtefunktion der Chi-Quadrat-Verteilung	`dchisq()`
Verteilungsfunktion der Chi-Quadrat-Verteilung	`pchisq()`
Quantil der Chi-Quadrat-Verteilung	`qchisq()`
Chi-Quadrat-verteilte Zufallszahlen	`rchisq()`

Mithilfe der Chi-Quadrat-Verteilung, genauer gesagt mithilfe ihrer Quantile, können wir nun ein Konfidenzintervall für die Varianz angeben.

Theorem 3 (Zweiseitiges Konfidenzintervall für \sigma^2)

Seien X_1,\ldots,X_n unabhängige und identisch \textsf{N}(\mu,\sigma^2)-verteilte Zufallsvariablen mit unbekanntem \mu und unbekanntem \sigma^2. Dann ist ein (1-\alpha)-Konfidenzintervall für \sigma^2 gegeben durch \textsf{KI}_{1-\alpha}=\left[\frac{(n-1)S_n^2}{\chi^2_{n-1,1-\alpha/2}},\frac{(n-1)S_n^2}{\chi^2_{n-1,\alpha/2}}\right]. \tag{19}

F_m ist die Verteilungsfunktion von \chi^2_m. \chi^2_{m,\beta} ist das \beta-Quantil von \chi^2_m. Es gilt also F_m(\chi^2_{m,\beta})=\beta. Hier ist m=n-1 und \beta=1-\alpha/2 für die linke Intervallgrenze bzw. \beta=\alpha/2 für die rechte Intervallgrenze.

Beweis. Wir schreiben das Ereignis, dass \textsf{KI}_{1-\alpha} aus Gleichung 19 die unbekannte Varianz \sigma^2 enthält, auf die Zufallsvariable (n-1)S_n^2/\sigma^2 um, denn diese ist \chi^2_{n-1}-verteilt. Somit können wir die Wahrscheinlichkeit dieses Ereignisses berechnen: \begin{align*} P(\textsf{KI}_{1-\alpha}\ni\sigma^2) &=P\left(\frac{(n-1)S_n^2}{\chi^2_{n-1,1-\alpha/2}}\leq\sigma^2\leq\frac{(n-1)S_n^2}{\chi^2_{n-1,\alpha/2}}\right)\\ &=P\left(\frac{\chi^2_{n-1,\alpha/2}}{(n-1)S_n^2}\leq\frac{1}{\sigma^2}\leq\frac{\chi^2_{n-1,1-\alpha/2}}{(n-1)S_n^2}\right)\\ &=P\left(\chi^2_{n-1,\alpha/2}\leq\frac{(n-1)S_n^2}{\sigma^2}\leq\chi^2_{n-1,1-\alpha/2}\right)\\ &=F_{n-1}(\chi^2_{n-1,1-\alpha/2})-F_{n-1}(\chi^2_{n-1,\alpha/2})\\ &=1-\alpha/2-\alpha/2\\ &=1-\alpha \end{align*} Somit ist \textsf{KI}_{1-\alpha} ein (1-\alpha)-Konfidenzintervall für \sigma^2.

Wir führen das Rechenbeispiel mit den Kochsalzlösungen fort und berechnen auch noch ein Konfidenzintervall für die Varianz des gemessenen Massenanteils an Kochsalz.

Beispiel 3

In der Situation von Beispiel 1 nehmen wir an, dass neben \mu auch \sigma^2 unbekannt ist, und berechnen ein 95\%-Konfidenzintervall für \sigma^2 mithilfe von Gleichung 19.

Mit \alpha=0.05 und n=12 müssen wir dazu die empirische Varianz mit der Funktion var() und zwei Quantile der Chi-Quadrat-Verteilung mit der Funktion qchisq() berechnen:

# gemessene prozentuale Massenanteile
w <- c(0.91, 0.92, 0.87, 0.89, 0.92, 0.86, 0.94, 0.90, 0.89, 0.90, 0.89, 0.91)
# untere Intervallgrenze
lower <- (12 - 1) * var(w) / qchisq(1 - 0.05 / 2, df = 12 - 1)
# obere Intervallgrenze
upper <- (12 - 1) * var(w) / qchisq(0.05 / 2, df = 12 - 1)

c(lower, upper)

[1] 0.0002463498 0.0014151877

Das gesuchte 95\%-Konfidenzintervall ist also \textsf{KI}_{0.95}=[0.0002,0.0014].

Üben Sie selbst die Berechnung eines Konfidenzintervalls für die Varianz am Beispiel der Palmer-Pinguine.

Aufgabe 6

Arbeiten Sie mit dem Datensatz penguins aus dem Paket palmerpenguins. Berechnen Sie ein 90\%-Konfidenzintervall für die Varianz der Schnabellänge bill_length_mm, wenn die einzelnen Schnabellängen als normalverteilt angenommen werden.

Wie schon beim Erwartungswert lassen sich auch für die Varianz einseitige Konfidenzintervalle angeben. Leiten Sie in der nächsten Aufgabe die Formel dafür her.

Aufgabe 7

Wie in Theorem 3 seien X_1,\ldots,X_n unabhängig und identisch normalverteilt mit unbekannten Parametern. Rechnen Sie nach, dass durch die folgende Formel ein einseitiges (1-\alpha)-Konfidenzintervall für die Varianz \sigma^2 gegeben ist: \textsf{KI}_{1-\alpha}=\left(0,\frac{(n-1)S_n^2}{\chi^2_{n-1,\alpha}}\right]. \tag{20}

Zum Schluss dieses Abschnitts noch eine theoretische Überlegung: Von der Varianz kommt man auf die Standardabweichung. Gleiches gilt bei Konfidenzintervallen für diese beiden statistischen Kenngrößen. Wie genau das funktioniert, sollen Sie sich in der letzten Aufgabe überlegen.

Aufgabe 8

Wie erhält man aus einem Konfidenzintervall für die Varianz ein Konfidenzintervall für die Standardabweichung? Geben Sie entsprechende Formeln an.

4 Simulationen in R

Wir schauen uns jetzt anhand von simulierten Daten an, wie die mit Gleichung 15 berechneten Konfidenzintervalle qualitativ vom Konfidenzniveau und vom Stichprobenumfang abhängen. Dazu schreiben wir in R eine Funktion, die verschiedene Konfidenzintervalle zum Konfidenzniveau 1 - alpha basierend auf N = 100 standardnormalverteilten Stichproben mit festem Stichprobenumfang n berechnet und zeichnet.

library(tidyverse)

draw_confint1 <- function(N = 100, alpha, mu = 0, sigma = 1, n) {

  # leere Vektoren, die in der folgenden For-Schleife befüllt werden
  estimate <- numeric(N)
  lower <- numeric(N)
  upper <- numeric(N)
  contained <- logical(N)

  # generiere N Stichproben
  for (i in 1:N) {
    # ziehe eine Stichprobe vom Umfang n
    x <- rnorm(n, mean = mu, sd = sigma)
    # berechne das Stichprobenmittel
    estimate[i] <- mean(x)
    # berechne die Endpunkte des Intervalls
    lower[i] <- estimate[i] - qt(1 - alpha / 2, df = n - 1) * sd(x) / sqrt(n)
    upper[i] <- estimate[i] + qt(1 - alpha / 2, df = n - 1) * sd(x) / sqrt(n)
    # enthält das Intervall den wahren Parameter?
    contained[i] <- ifelse(lower[i] <= mu & mu <= upper[i], TRUE, FALSE)
  }

  # Ergebnisse
  data <- tibble(estimate, lower, upper, contained)

  # Grafik
  ggplot(data, aes(x = 1:N, y = estimate)) +
    # markiere den wahren Parameter
    geom_hline(
      yintercept = mu,
      linetype = "dashed"
    ) +
    # zeichne die Konfidenzintervalle
    geom_errorbar(
      aes(
        ymin = lower,
        ymax = upper,
        color = contained
      ),
      show.legend = FALSE
    ) +
    # zeichne die Mittelpunkte
    geom_point() +
    # Achsenbeschriftung
    labs(x = "Nummer der Stichprobe", y = "Erwartungswert") +
    # Achsengrenzen
    coord_cartesian(ylim = c(mu - sigma, mu + sigma)) +
    # blaue Intervalle enthalten den wahren Parameter, rote nicht
    scale_color_manual(values = c("TRUE" = "blue", "FALSE" = "red"))
}

Mit dieser Funktion plotten wir nun einige Konfidenzintervalle. Dabei verändern wir zunächst nur den Stichprobenumfang und halten das Konfidenzniveau fest bei 95\%, das heißt alpha = 0.05.

set.seed(1)

plot(draw_confint1(alpha = 0.05, n = 50))
plot(draw_confint1(alpha = 0.05, n = 100))
plot(draw_confint1(alpha = 0.05, n = 500))

Wir beobachten zwei Effekte:

Je größer der Stichprobenumfang ist, desto näher liegen die Intervallmittelpunkte am wahren Erwartungswert. Dies liegt daran, dass die Intervallmittelpunkte gerade die Schätzwerte des Stichprobenmittels \overline{X}_n sind, welches ein schwach konsistenter Schätzer für \mu ist.
Je größer der Stichprobenumfang ist, desto schmaler sind die Intervalle. Das ist nach Gleichung 15 zu erwarten, da einerseits S_n schwach konsistent für \sigma ist, also stochastisch gegen eine Konstante konvergiert, und andererseits die Intervallbreite mit dem Faktor 1/\sqrt{n} abnimmt.

Jetzt halten wir den Stichprobenumfang fest bei n = 100 und verändern nur das Konfidenzniveau. Dabei dient der Wert alpha = 0.5 allein der Illustration, in der Praxis würde man sich keine Irrtumswahrscheinlichkeit von 50\% vorgeben.

set.seed(1)

plot(draw_confint1(alpha = 0.5, n = 100))
plot(draw_confint1(alpha = 0.05, n = 100))
plot(draw_confint1(alpha = 0.005, n = 100))

Erneut machen wir zwei Beobachtungen:

Je größer das Konfidenzniveau ist, desto breiter sind die Intervalle. Wollen wir nämlich mit größerer Sicherheit sagen, dass das Konfidenzintervall den wahren Wert von \mu überdeckt, müssen wir bei gleichem Stichprobenumfang einen größeren Bereich an möglichen Werten zulassen.
Je größer das Konfidenzniveau ist, desto mehr Intervalle enthalten den wahren Parameter. Das ergibt sich aus der Definition eines Konfidenzintervalls. Wenn wir unter gleichen Bedingungen N Stichproben erheben und jeweils ein (1-\alpha)-Konfidenzintervall berechnen, dann erwarten wir, dass rund (1-\alpha)\cdot N dieser Intervalle den wahren Parameter enthalten. Diese Anzahl nimmt mit kleinerem \alpha zu.

Den Einfluss des Stichprobenumfangs schauen wir uns noch etwas detaillierter an. Dazu schreiben wir in R eine weitere Funktion, die (1-\alpha)-Konfidenzintervalle einer standardnormalverteilten Stichprobe mit wachsendem Stichprobenumfang berechnet und zeichnet. Der Unterschied zu draw_confint1() besteht darin, dass nicht immer eine neue Stichprobe gezogen wird und verschiedene Realisierungen eines Konfidenzintervalls berechnet werden, sondern dass stattdessen der bereits vorhandenen Stichprobe ein neuer Datenpunkt hinzugefügt und das Konfidenzintervall mit dieser neuen Information aktualisiert wird.

library(tidyverse)

draw_confint2 <- function(alpha, mu = 0, sigma = 1, n) {

  # ziehe eine Stichprobe vom Umfang n
  x <- rnorm(n, mean = mu, sd = sigma)

  # leere Vektoren, die in der folgenden For-Schleife befüllt werden
  estimate <- numeric(n)
  lower <- numeric(n)
  upper <- numeric(n)
  contained <- logical(n)

  for (i in 2:n) {
    # berechne das Stichprobenmittel
    estimate[i] <- mean(x[1:i])
    # berechne die Endpunkte des Intervalls
    lower[i] <- estimate[i] - qt(1 - alpha / 2, df = i - 1) * sd(x[1:i]) / sqrt(i)
    upper[i] <- estimate[i] + qt(1 - alpha / 2, df = i - 1) * sd(x[1:i]) / sqrt(i)
    # enthält das Intervall den wahren Parameter?
    contained[i] <- ifelse(lower[i] <= mu & mu <= upper[i], TRUE, FALSE)
  }

  # Ergebnisse
  data <- tibble(estimate, lower, upper, contained)

  # Grafik
  ggplot(data, aes(x = 1:n, y = estimate)) +
    # markiere den wahren Parameter
    geom_hline(
      yintercept = mu,
      linetype = "dashed"
    ) +
    # zeichne die Konfidenzintervalle
    geom_errorbar(
      aes(
        ymin = lower,
        ymax = upper,
        color = contained
      ),
      show.legend = FALSE
    ) +
    # zeichne die Mittelpunkte
    geom_point() +
    # Achsenbeschriftung
    labs(x = "Stichprobengröße", y = "Erwartungswert") +
    # Achsengrenzen
    coord_cartesian(ylim = c(mu - sigma, mu + sigma)) +
    # blaue Intervalle enthalten den wahren Parameter, rote nicht
    scale_color_manual(values = c("TRUE" = "blue", "FALSE" = "red"))
}

Wir halten zuerst wieder das Konfidenzniveau fest und erhöhen den Stichprobenumfang. Die Grafiken veranschaulichen die schon eben beobachteten Effekte, dass mit zunehmendem n die Intervallmittelpunkte gegen den wahren Erwartungswert \mu konvergieren (aufgrund der schwachen Konsistenz des Stichprobenmittels) und dass gleichzeitig die Konfidenzintervalle schmaler werden (aufgrund von Gleichung 15).

set.seed(1)

plot(draw_confint2(alpha = 0.05, n = 50))
plot(draw_confint2(alpha = 0.05, n = 100))
plot(draw_confint2(alpha = 0.05, n = 500))

Wir vertauschen die Sichtweisen und verändern nun das Konfidenzniveau bei gleichbleibendem Stichprobenumfang. Erneut ist die Verbreiterung der Intervalle mit steigendem Konfidenzniveau zu erkennen, wobei gleichzeitig immer mehr Intervalle den wahren Parameter überdecken.

set.seed(1)

plot(draw_confint2(alpha = 0.5, n = 500))
plot(draw_confint2(alpha = 0.05, n = 500))
plot(draw_confint2(alpha = 0.005, n = 500))

Simulieren Sie nun selbst die qualitative Abhängigkeit der Intervallbreite vom Stichprobenumfang und vom Konfidenzniveau beim Konfidenzintervall für die Varianz.

Aufgabe 9

Erzeugen Sie 100 standardnormalverteilte Stichproben mit gleichem Stichprobenumfang n, berechnen Sie jeweils das (1-\alpha)-Konfidenzintervall für \sigma^2 und markieren Sie jeweils die empirische Varianz. Zeichnen Sie für verschiedene Werte von n und \alpha diese 100 Intervalle. Beschreiben Sie Ihre Beobachtungen.

5 Konfidenzintervall für die Differenz zweier Erwartungswerte

Bisher waren alle Daten zu einer Stichprobe zusammengefasst, man spricht dann auch von einem Einstichprobenproblem. Mithilfe eines Konfidenzintervalls wurde ein Bereich von Werten angegeben, die sich nicht statistisch signifikant vom wahren Erwartungswert oder von der wahren Varianz dieser einen Stichprobe unterscheiden.

Insbesondere in der medizinischen und pharmazeutischen Forschung sind dagegen Unterschiede zwischen zwei verschiedenen Stichproben relevant. Beispielsweise kann die Wirksamkeit eines neu entwickelten Medikaments mit einer randomisierten kontrollierten Studie untersucht werden, in der die Proband:innen zufällig in eine Versuchsgruppe und eine Kontrollgruppe eingeteilt werden. Die statistischen Unterschiede zwischen den Ergebnissen beider Gruppen lassen dann Schlüsse auf die Wirksamkeit des Medikaments zu. Da in diesem Szenario Daten aus zwei Stichproben miteinander verglichen werden, spricht man von einem Zweistichprobenproblem. Von Interesse ist beispielsweise ein Konfidenzintervall für die Differenz der Erwartungswerte beider Gruppen, das angibt, ob im Mittel ein statistisch signifikanter Unterschied zwischen den Gruppen beobachtet werden kann, zum Beispiel ein signifikanter Unterschied in der Wirksamkeit von Medikament und Placebo.

Die beiden Gruppen, in denen Daten erhoben werden, bezeichnen wir im Folgenden mit X und Y. Wir treffen die folgenden mathematischen Annahmen: In Gruppe X werden m Daten x_1,\ldots,x_m erhoben, die wir als Realisierungen von unabhängigen und identisch normalverteilten Zufallsvariablen X_1,\ldots,X_m mit unbekanntem Erwartungswert \mu_X und unbekannter Varianz \sigma^2 auffassen. In Gruppe Y werden n Daten y_1,\ldots,y_n erhoben, die wir als Realisierungen von unabhängigen und identisch normalverteilten Zufallsvariablen Y_1,\ldots,Y_n mit unbekanntem Erwartungswert \mu_Y und unbekannter Varianz \sigma^2 auffassen. Die Erwartungswerte \mu_X und \mu_Y können verschieden sein. Die Varianz \sigma^2 dagegen soll in beiden Gruppen gleich sein, weswegen wir sie auch nicht mit einem Index versehen. Außerdem nehmen wir an, dass alle Beobachtungen, egal ob sie zu Gruppe X oder zu Gruppe Y gehören, voneinander unabhängig sind.

Es gilt also X_i\sim\textsf{N}(\mu_X,\sigma^2) für alle i=1,\ldots,m und Y_j\sim\textsf{N}(\mu_Y,\sigma^2) für alle j=1,\ldots,n und X_1,\ldots,X_m,Y_1,\ldots,Y_n sind unabhängig.

Da wir an der Differenz der Erwartungswerte \mu_X-\mu_Y interessiert sind, bauen wir das Konfidenzintervall auf dem erwartungstreuen Schätzer \overline{X}_m-\overline{Y}_n auf. Da die Varianz unbekannt ist, studentisieren wir diese Differenz der Stichprobenmittel. Wir subtrahieren von \overline{X}_m-\overline{Y}_n also seinen Erwartungswert und dividieren anschließend durch einen erwartungstreuen Schätzer für die Varianz von \overline{X}_m-\overline{Y}_n.

Im Einstichprobenproblem haben wir das Stichprobenmittel standardisiert, wenn die Varianz bekannt war, und studentisiert, wenn die Varianz unbekannt war.

Der Erwartungswert von \overline{X}_m-\overline{Y}_n ist aufgrund der Erwartungstreue \textsf{E}(\overline{X}_m-\overline{Y}_n)=\mu_X-\mu_Y. Die Varianz von \overline{X}_m-\overline{Y}_n ist aufgrund der Unabhängigkeit aller Zufallsvariablen \begin{align*} \textsf{Var}(\overline{X}_m-\overline{Y}_n) &=\textsf{Var}(\overline{X}_m)+\textsf{Var}(\overline{Y}_n)\\ &=\frac{\textsf{Var}(X_1)}{m}+\frac{\textsf{Var}(Y_1)}{n}\\ &=\frac{\sigma^2}{m}+\frac{\sigma^2}{n}\\ &=\left(\frac{1}{m}+\frac{1}{n}\right)\sigma^2. \end{align*} Die Standardisierung von \overline{X}_m-\overline{Y}_n ist dann \frac{\overline{X}_m-\overline{Y}_n-(\mu_X-\mu_Y)}{\sqrt{\frac{1}{m}+\frac{1}{n}}\sigma} \sim\textsf{N}(0,1). \tag{21}

Die Varianz ist aber unbekannt und daher wird studentisiert: Wir ersetzen \sigma^2 durch die sogenannte gepoolte Stichprobenvarianz S_{m,n}^2=\frac{(m-1)S_X^2+(n-1)S_Y^2}{m+n-2}, \tag{22} die ein gewichtetes Mittel der Stichprobenvarianzen S_X^2 und S_Y^2 und damit ein erwartungstreuer Schätzer für \sigma^2 ist. Die Studentisierung von \overline{X}_m-\overline{Y}_n ist also \frac{\overline{X}_m-\overline{Y}_n-(\mu_X-\mu_Y)}{\sqrt{\frac{1}{m}+\frac{1}{n}}S_{m,n}} \sim t_{m+n-2}. \tag{23}

Eine Begründung für Gleichung 23, dass die studentisierte Differenz der Stichprobenmittel eine t-Verteilung mit m+n-2 Freiheitsgraden besitzt, finden Sie in z. B. Henze (2019) auf Seite 252-253

Mit dieser Zufallsvariablen können wir nun ein Konfidenzintervall für die Differenz \mu_X-\mu_Y der Erwartungswerte in Gruppe X und Gruppe Y angeben.

Theorem 4 (Zweiseitiges Konfidenzintervall für \mu_X-\mu_Y)

Seien X_1,\ldots,X_m identisch \textsf{N}(\mu_X,\sigma^2)-verteilt und seien Y_1,\ldots,Y_n identisch \textsf{N}(\mu_Y,\sigma^2)-verteilt. Alle Zufallsvariablen seien unabhängig und alle Parameter seien unbekannt. Mit S_{m,n}^2 bezeichnen wir die gepoolte Stichprobenvarianz aus Gleichung 22 und für \beta\in(0,1) setzen wir c_{m,n,\alpha}=t_{m+n-2,1-\alpha/2}\sqrt{\frac{1}{m}+\frac{1}{n}}. Dann ist ein (1-\alpha)-Konfidenzintervall für \mu_X-\mu_Y gegeben durch \textsf{KI}_{1-\alpha} =[\overline{X}_m-\overline{Y}_n-c_{m,n,\alpha}S_{m,n},\overline{X}_m-\overline{Y}_n+c_{m,n,\alpha}S_{m,n}]. \tag{24}

Beweis. Wir schreiben das Ereignis, dass \textsf{KI}_{1-\alpha} aus Gleichung 24 die Differenz \mu_X-\mu_Y enthält, auf die studentisierte Differenz der Stichprobenmittel um, denn diese ist t_{m+n-2}-verteilt. Somit können wir die Wahrscheinlichkeit dieses Ereignisses berechnen: \begin{align*} &\quad P(\textsf{KI}_{1-\alpha}\ni\mu_X-\mu_Y)\\ &=P(\overline{X}_m-\overline{Y}_n-c_{m,n,\alpha}S_{m,n}\leq\mu_X-\mu_Y\leq\overline{X}_m-\overline{Y}_n+c_{m,n,\alpha}S_{m,n})\\ &=P(-c_{m,n,\alpha}S_{m,n}\leq\overline{X}_m-\overline{Y}_n-(\mu_X-\mu_Y)\leq c_{m,n,\alpha}S_{m,n})\\ &=P\left(-t_{m+n-2,1-\alpha/2}\leq\frac{\overline{X}_m-\overline{Y}_n-(\mu_X-\mu_Y)}{\sqrt{\frac{1}{m}+\frac{1}{n}}S_{m,n}}\leq t_{m+n-2,1-\alpha/2}\right)\\ &=F_{m+n-2}(t_{m+n-2,1-\alpha/2})-F_{m+n-2}(-t_{m+n-2,1-\alpha/2})\\ &=2F_{m+n-2}(t_{m+n-2,1-\alpha/2})-1\\ &=2(1-\alpha/2)-1\\ &=1-\alpha \end{align*} Somit ist \textsf{KI}_{1-\alpha} ein (1-\alpha)-Konfidenzintervall für \mu_X-\mu_Y.

Bei der wissenschaftlichen Untersuchung der Palmer-Pinguine lassen sich verschiedene Zweistichprobenprobleme formulieren: Pinguinkolonien von verschiedenen Inseln können verglichen oder geschlechterspezifische Unterschiede zwischen weiblichen und männlichen Pinguinen analysiert werden. In der folgenden Aufgabe dagegen geht es um die Schnabelmerkmale verschiedener Pinguinarten.

Aufgabe 10

Arbeiten Sie mit dem Datensatz penguins aus dem Paket palmerpenguins. Berechnen Sie ein 95\%-Konfidenzintervall für die mittlere Differenz der Schnabellänge bill_length_mm zwischen Zügelpinguinen und Eselspinguinen, wenn die einzelnen Schnabellängen als normalverteilt mit gleicher Varianz angenommen werden.

Anmerkung.

In Theorem 4 werden drei Annahmen getroffen:

Beide Stichproben sind unabhängig voneinander.
In beiden Stichproben sind die Daten unabhängig und identisch normalverteilt.
In beiden Stichproben sind die unbekannten Varianzen gleich (\sigma^2_X=\sigma^2_Y=\sigma^2).

Ein Konfidenzintervall für die Differenz der Erwartungswerte berechnet man dann mit Gleichung 24. Weil dabei die gepoolte Stichprobenvarianz und Quantile einer t-Verteilung berechnet werden, spricht man auch vom gepoolten t-Intervall.

Wenn die Annahmen 1. und 2. zutreffen, aber die unbekannten Varianzen in beiden Stichproben verschieden sind (\sigma^2_X\neq\sigma^2_Y), dann berechnet man ein Konfidenzintervall für \mu_X-\mu_Y stattdessen mit dem sogenannten Welch t-Intervall, welches nach dem britischen Statistiker Bernard Lewis Welch benannt ist (siehe Seite 276 in Timischl 2013).

Werden die Messungen von X_i und Y_i beide an der i-ten Person oder am i-ten Objekt durchgeführt, hängen beide Stichproben voneinander ab und die Annahme 1. ist nicht erfüllt. In einer klinischen Studie könnten das beispielsweise die Blutwerte von Patient:innen sein, die vor und nach einer Behandlung gemessen werden. Man sagt, es liegen verbundene oder gepaarte Daten vor. In diesem Fall haben beide Stichproben denselben Umfang (m=n). Nimmt man an, dass die Differenzen D_i=X_i-Y_i für i=1,\ldots,n unabhängig und identisch normalverteilt mit unbekanntem Erwartungswert \mu_D und unbekannter Varianz \sigma^2_D sind, dann wird ein Konfidenzintervall für \mu_D wie in Theorem 2 berechnet. Man spricht von einem verbundenen t-Intervall.

In allen drei Fällen lässt sich ein Konfidenzintervall mit der R Funktion t.test() berechnen, wenn deren Argumente paired und var.equal auf bestimmte Werte gesetzt werden:

t-Intervall	`paired =`	`var.equal =`
gepooltes	`FALSE`	`TRUE`
Welch	`FALSE`	`FALSE`
verbundenes	`TRUE`

6 Zusammenfassung

Konfidenzintervalle ergänzen das Resultat einer Punktschätzung um eine Genauigkeitsangabe in Form eines Intervalls, das neben dem Schätzwert auch alle diejenigen Werte umfasst, die mit einer vorgegebenen Konfidenzwahrscheinlichkeit mit den gemessenen Daten vereinbar sind. Somit wird ein (1-\alpha)-Konfidenzintervall zu einem Schätzer, der aus einer zufallsbehafteten Stichprobe mit einer Wahrscheinlichkeit von 1-\alpha ein Intervall als Schätzwert ermittelt, das den wahren Parameter enthält. Je nach Fragestellung kann ein zweiseitiges oder ein einseitiges Konfidenzintervall berechnet werden.

Bei normalverteilten Daten mit unbekannter Varianz lassen sich Formeln für Konfidenzintervalle herleiten. Im Einstichprobenproblem beruhen Konfidenzintervalle für den Erwartungswert bzw. die Varianz auf der t-Verteilung bzw. der Chi-Quadrat-Verteilung. Im Zweistichprobenproblem beruht ein Konfidenzintervall für die Differenz der Erwartungswerte ebenfalls auf der t-Verteilung, wobei unterschieden werden muss, ob unverbundene Daten mit gleicher bzw. verschiedener Varianz in jeder Gruppe vorliegen, oder ob die Daten verbunden sind.

Die Breite eines Konfidenzintervalls hängt qualitativ vom Stichprobenumfang und von der Konfidenzwahrscheinlichkeit ab. Je größer der Stichprobenumfang, desto schmaler ist das Konfidenzintervall. Je größer die Konfidenzwahrscheinlichkeit, also je kleiner die Irrtumswahrscheinlichkeit, desto breiter ist das Konfidenzintervall.

Lösungen der Aufgaben

Lösung zu Aufgabe 1

Eine Wahrscheinlichkeitsaussage in Bezug auf den wahren Parameter \theta ist aus zwei Gründen nicht möglich. Zum einen hat \theta einen deterministischen, wenn auch unbekannten Wert, und zum anderen ist das Wahrscheinlichkeitsmaß P_\theta nicht auf dem Parameterraum \Theta definiert, sondern auf dem Stichprobenraum. Wenn überhaupt ergäben nur die Wahrscheinlichkeiten 0 oder 1 Sinn, da entweder \theta\in[3639, 3787] oder \theta\notin[3639, 3787] gilt.

Die in Gleichung 1 gestellte Bedingung ist eine Wahrscheinlichkeitsaussage über das Schätzverfahren, mit dem ein konkretes Intervall berechnet wird. Es führt mit einer Wahrscheinlichkeit von 1-\alpha zu einem Intervall, das den wahren Wert \theta enthält. Aus frequentistischer Sicht bedeutet das, dass bei einer mehrmaligen Wiederholung des Zufallsexperiments und immer gleicher Berechnung eines (1-\alpha)-Konfidenzintervalls in ungefähr (1-\alpha)\cdot100\% aller Fälle mit einen Intervall zu rechnen ist, dass \theta enthält.

zurück zu Aufgabe 1

Lösung zu Aufgabe 2

Zuerst entfernen wir mit filter() eventuell vorhandene NA Einträge, da diese nicht in die Berechnung des Konfidenzintervalls einbezogen werden können.

library(palmerpenguins)

penguins <- penguins |>
  filter(!is.na(bill_length_mm))

bill <- penguins$bill_length_mm

Da die Standardabweichung als bekannt angenommen wird, berechnen wir die Intervallgrenzen mit Gleichung 11:

# untere Intervallgrenze
lower <- mean(bill) - qnorm(1 - 0.1 / 2) * 5 / sqrt(length(bill))
# obere Intervallgrenze
upper <- mean(bill) + qnorm(1 - 0.1 / 2) * 5 / sqrt(length(bill))

c(lower, upper)

[1] 43.42918 44.90630

zurück zu Aufgabe 2

Lösung zu Aufgabe 3

Wir rechnen jeweils nach, dass P(\textsf{KI}_{1-\alpha}\ni\mu)=1-\alpha gilt. Dabei nutzen wir aus, dass das standardisierte Stichprobenmittel \textsf{N}(0,1)-verteilt ist. Für das linksseitige Konfidenzintervall sieht die Rechnung dann folgendermaßen aus: \begin{align*} P(\textsf{KI}_{1-\alpha}\ni\mu) &=P\left(\overline{X}_n-z_{1-\alpha}\frac{\sigma}{\sqrt{n}}\leq\mu\right)\\ &=P\left(\overline{X}_n-\mu\leq z_{1-\alpha}\frac{\sigma}{\sqrt{n}}\right)\\ &=P\left(\frac{\sqrt{n}(\overline{X}_n-\mu)}{\sigma}\leq z_{1-\alpha}\right)\\ &=\Phi(z_{1-\alpha})\\ &=1-\alpha \end{align*} Da es sich um ein einseitiges Konfidenzintervall handelt, ist es wichtig, dass das (1-\alpha/2)-Quantil in Gleichung 11 durch das (1-\alpha)-Quantil ersetzt wird. Nur so erhalten wir im letzten Rechenschritt die Überdeckungswahrscheinlichkeit 1-\alpha.

Für das rechtsseitige Intervall erhalten wir genauso \begin{align*} P(\textsf{KI}_{1-\alpha}\ni\mu) &=P\left(\mu\leq\overline{X}_n+z_{1-\alpha}\frac{\sigma}{\sqrt{n}}\right)\\ &=P\left(-z_{1-\alpha}\frac{\sigma}{\sqrt{n}}\leq\overline{X}_n-\mu\right)\\ &=P\left(-z_{1-\alpha}\leq\frac{\sqrt{n}(\overline{X}_n-\mu)}{\sigma}\right)\\ &=1-\Phi(-z_{1-\alpha})\\ &=\Phi(z_{1-\alpha})\\ &=1-\alpha \end{align*}

zurück zu Aufgabe 3

Lösung zu Aufgabe 4

Da nun auch die Standardabweichung unbekannt ist, berechnen wir die Intervallgrenzen mit Gleichung 15:

penguins <- penguins |>
  filter(!is.na(bill_length_mm))

bill <- penguins$bill_length_mm

# untere Intervallgrenze
lower <- mean(bill) - qt(1 - 0.1 / 2, df = length(bill) - 1) * sd(bill) / sqrt(length(bill))
# obere Intervallgrenze
upper <- mean(bill) + qt(1 - 0.1 / 2, df = length(bill) - 1) * sd(bill) / sqrt(length(bill))

c(lower, upper)

[1] 43.28166 45.05382

zurück zu Aufgabe 4

Lösung zu Aufgabe 5

Ähnlich zum Beweis von Theorem 2 rechnen wir jeweils nach, dass P(\textsf{KI}_{1-\alpha}\ni\mu)=1-\alpha gilt. Dabei nutzen wir aus, dass das studentisierte Stichprobenmittel t_{n-1}-verteilt ist. Für das linksseitige Konfidenzintervall sieht die Rechnung dann folgendermaßen aus: \begin{align*} P(\textsf{KI}_{1-\alpha}\ni\mu) &=P\left(\overline{X}_n-t_{n-1,1-\alpha}\frac{S_n}{\sqrt{n}}\leq\mu\right)\\ &=P\left(\overline{X}_n-\mu\leq t_{n-1,1-\alpha}\frac{S_n}{\sqrt{n}}\right)\\ &=P\left(\frac{\sqrt{n}(\overline{X}_n-\mu)}{S_n}\leq t_{n-1,1-\alpha}\right)\\ &=F_{n-1}(t_{n-1,1-\alpha})\\ &=1-\alpha \end{align*} Da es sich um ein einseitiges Konfidenzintervall handelt, ist es wichtig, dass das (1-\alpha/2)-Quantil in Gleichung 15 durch das (1-\alpha)-Quantil ersetzt wird. Nur so erhalten wir im letzten Rechenschritt die Überdeckungswahrscheinlichkeit 1-\alpha.

Für das rechtsseitige Intervall erhalten wir genauso \begin{align*} P(\textsf{KI}_{1-\alpha}\ni\mu) &=P\left(\mu\leq\overline{X}_n+t_{n-1,1-\alpha}\frac{S_n}{\sqrt{n}}\right)\\ &=P\left(-t_{n-1,1-\alpha}\frac{S_n}{\sqrt{n}}\leq\overline{X}_n-\mu\right)\\ &=P\left(-t_{n-1,1-\alpha}\leq\frac{\sqrt{n}(\overline{X}_n-\mu)}{S_n}\right)\\ &=1-F_{n-1}(-t_{n-1,1-\alpha})\\ &=F_{n-1}(t_{n-1,1-\alpha})\\ &=1-\alpha \end{align*}

zurück zu Aufgabe 5

Lösung zu Aufgabe 6

Die Intervallgrenzen berechnen wir mit Gleichung 19:

penguins <- penguins |>
  filter(!is.na(bill_length_mm))

bill <- penguins$bill_length_mm

# untere Intervallgrenze
lower <- (length(bill) - 1) * var(bill) / qchisq(1 - 0.1 / 2, df = length(bill) - 1)
# obere Intervallgrenze
upper <- (length(bill) - 1) * var(bill) / qchisq(0.1 / 2, df = length(bill) - 1)

c(lower, upper)

[1] 29.08686 44.31124

zurück zu Aufgabe 6

Lösung zu Aufgabe 7

Wir rechnen nach, dass P(\textsf{KI}_{1-\alpha}\ni\sigma^2)=1-\alpha gilt. Dabei nutzen wir aus, dass (n-1)S_n^2/\sigma^2 eine \chi^2_{n-1}-verteilte Zufallsvariable ist: \begin{align*} P(\textsf{KI}_{1-\alpha}\ni\sigma^2) &=P\left(\sigma^2\leq\frac{(n-1)S_n^2}{\chi^2_{n-1,\alpha}}\right)\\ &=P\left(\frac{(n-1)S_n^2}{\sigma^2}\geq\chi^2_{n-1,\alpha}\right)\\ &=1-F_{n-1}(\chi^2_{n-1,\alpha})\\ &=1-\alpha \end{align*}

zurück zu Aufgabe 7

Lösung zu Aufgabe 8

Die Standardabweichung ist die Quadratwurzel aus der Varianz und die Quadratwurzel ist eine streng monoton wachsende Funktion. Daher erhält man ein Konfidenzintervall für die Standardabweichung, indem man ein Konfidenzintervall für die Varianz berechnet und aus den Intervallgrenzen die Quadratwurzel zieht.

Mit dem Resultat aus Theorem 3 ist ein zweiseitiges (1-\alpha)-Konfidenzintervall für \sigma gegeben durch \left[\sqrt{\frac{(n-1)}{\chi^2_{n-1,1-\alpha/2}}}S_n,\sqrt{\frac{(n-1)}{\chi^2_{n-1,\alpha/2}}}S_n\right] und ein einseitiges (1-\alpha)-Konfidenzintervall für \sigma ist nach Aufgabe 7 \left(0,\sqrt{\frac{(n-1)}{\chi^2_{n-1,\alpha}}}S_n\right].

zurück zu Aufgabe 8

Lösung zu Aufgabe 9

Wir modifizieren den R-Code der Funktion draw_confint2() aus Kapitel 4, sodass sie nun Konfidenzintervalle für die Varianz gemäß Gleichung 19 berechnet.

library(tidyverse)

draw_confint4 <- function(alpha, mu = 0, sigma = 1, n) {

  # ziehe eine Stichprobe vom Umfang n
  x <- rnorm(n, mean = mu, sd = sigma)

  # leere Vektoren, die in der folgenden For-Schleife befüllt werden
  estimate <- numeric(n)
  lower <- numeric(n)
  upper <- numeric(n)
  contained <- logical(n)

  for (i in 2:n) {
    # berechne die Stichprobenvarianz
    estimate[i] <- var(x[1:i])
    # berechne die Endpunkte des Intervalls
    lower[i] <- (i - 1) * estimate[i] / qchisq(1 - alpha / 2, df = i - 1)
    upper[i] <- (i - 1) * estimate[i] / qchisq(alpha / 2, df = i - 1)
    # enthält das Intervall den wahren Parameter?
    contained[i] <- ifelse(lower[i] <= sigma^2 & sigma^2 <= upper[i], TRUE, FALSE)
  }

  # Ergebnisse
  data <- tibble(estimate, lower, upper, contained)

  # Grafik
  ggplot(data, aes(x = 1:n, y = estimate)) +
    # markiere den wahren Parameter
    geom_hline(
      yintercept = sigma^2,
      linetype = "dashed"
    ) +
    # zeichne die Konfidenzintervalle
    geom_errorbar(
      aes(
        ymin = lower,
        ymax = upper,
        color = contained
      ),
      show.legend = FALSE
    ) +
    # zeichne die Mittelpunkte
    geom_point() +
    # Achsenbeschriftung
    labs(x = "Stichprobengröße", y = "Varianz") +
    # Achsengrenzen
    coord_cartesian(ylim = c(0, 2 * sigma^2)) +
    # blaue Intervalle enthalten den wahren Parameter, rote nicht
    scale_color_manual(values = c("TRUE" = "blue", "FALSE" = "red"))
}

Anschließend plotten wir für Stichprobengrößen bis n = 500 und für verschiedene Werte von alpha die entsprechenden Konfidenzintervalle.

set.seed(1)

plot(draw_confint4(alpha = 0.5, n = 500))
plot(draw_confint4(alpha = 0.05, n = 500))
plot(draw_confint4(alpha = 0.005, n = 500))

Zum einen beobachten wir, dass die empirischen Varianzen mit steigendem Stichprobenumfang immer näher an der wahren Varianz liegen. Das ist genau die schwache Konsistenz der Stichprobenvarianz für \sigma^2.

Zum anderen beobachten wir, dass die Intervallbreite mit steigendem n kleiner wird und mit steigendem Konfidenzniveau, also kleinerem alpha, größer wird. Ein ähnliches Verhalten haben wir bereits beim Konfidenzintervall für den Erwartungswert festgestellt.

zurück zu Aufgabe 9

Lösung zu Aufgabe 10

Zuerst entfernen wir mit filter() eventuell vorhandene NA Einträge, da diese nicht in die Berechnung des Konfidenzintervalls einbezogen werden können.

penguins <- penguins |>
  filter(!is.na(bill_length_mm))

# Zügelpinguine
chinstrap <- penguins |>
  filter(species == "Chinstrap")
chinstrap <- chinstrap$bill_length_mm
# Eselspinguine
gentoo <- penguins |>
  filter(species == "Gentoo")
gentoo <- gentoo$bill_length_mm

Da die Varianz bei beiden Pinguinarten als gleich angenommen wird, berechnen wir die Intervallgrenzen mit Gleichung 24:

m <- length(chinstrap)
n <- length(gentoo)

c <- qt(1 - 0.05 / 2, df = m + n - 2) * sqrt(1 / m + 1 / n)
# gepoolte Varianz
S <- ((m - 1) * sd(chinstrap) + (n - 1) * sd(gentoo)) / (m + n - 2)
# untere Intervallgrenze
lower <- mean(chinstrap) - mean(gentoo) - c * S
# obere Intervallgrenze
upper <- mean(chinstrap) - mean(gentoo) + c * S

c(lower, upper)

[1] NaN NaN

zurück zu Aufgabe 10

Autor:innen

Die Lerneinheit “Schätztheorie – Konfidenzintervalle” wurde von Axel Bücher, Kathrin Möllenhoff und Christian Müller an der Heinrich-Heine-Universität Düsseldorf entwickelt. Es ist lizenziert unter der CC-BY-SA 4.0 Lizenz und ist verfügbar auf ORCA.nrw.

Literatur

Henze, Norbert. 2019. Stochastik: Eine Einführung mit Grundzügen der Maßtheorie. Springer Berlin Heidelberg. https://doi.org/10.1007/978-3-662-59563-3.

Timischl, Werner. 2013. Angewandte Statistik. Springer Vienna. https://doi.org/10.1007/978-3-7091-1349-3.