mean_body_mass <- mean(penguins$body_mass_g, na.rm = TRUE)
sd_body_mass <- sd(penguins$body_mass_g, na.rm = TRUE)
c(mean_body_mass, sd_body_mass)
[1] 3712.9032 416.6441
Lernziele: Am Ende des Kapitels können Sie
- die Interpretation von Konfidenzintervallen erläutern.
- Konfidenzintervalle für den Erwartungswert und die Varianz im Einstichprobenproblem berechnen.
- die Abhängigkeit der Breite eines Konfidenzintervalls vom Stichprobenumfang und vom Konfidenzniveau mithilfe von R simulieren.
- Konfidenzintervalle für die Differenz der Erwartungswerte im Zweistichprobenproblem berechnen.
Hinweis: Die mit einem gekennzeichneten Aufgaben können Sie durch schriftliches Rechnen lösen. Die mit gekennzeichneten Aufgaben setzen Grundkenntnisse der Programmierung mit der statistischen Software R voraus. Sie können R hier installieren, falls Sie R nicht auf Ihrem Rechner installiert haben. Zusätzlich empfiehlt sich die Installation einer integrierten Entwicklungsumgebung (IDE), wie zum Beispiel RStudio. Alternativ zur Installation können Sie die Web-Version webR direkt im Browser verwenden.
In den vorangegangenen Kapiteln haben wir gelernt, wie sich unbekannte Parameter einer Wahrscheinlichkeitsverteilung – und daraus abgeleitete Größen wie der Erwartungswert oder die Varianz – anhand einer im Experiment gemessenen Stichprobe schätzen lassen und welche mathematischen Qualitätskriterien man an den dafür verwendeten Schätzer stellen kann. Da die Stichprobe nur eine zufällige Auswahl aller möglichen Messungen darstellt, besitzt jeder Schätzwert eine inhärente Unsicherheit. Für die Praxis ist eine quantitative Angabe über die Schätzunsicherheit wünschenswert.
Als Beispiel betrachten wir den Datensatz penguins
aus dem Paket palmerpenguins
. Wir interessieren uns für das durchschnittliche Körpergewicht aller Pinguine, die auf Dream Island leben. Wir treffen die Annahme, dass das Körpergewicht dieser Pinguine einer Normalverteilung \textsf{N}(\theta,\sigma^2) folgt, wobei \theta das wahre, aber unbekannte mittlere Körpergewicht ist. Diese Annahme rechtfertigen wir damit, dass sowohl ein Histogramm als auch ein Dichteplot der Körpergewichte aller auf Dream Island vermessenen Pinguine ungefähr die Form einer Normalverteilungsdichte aufweisen.
library(tidyverse)
library(palmerpenguins)
penguins <- penguins |>
filter(island == "Dream")
ggplot(penguins, aes(x = body_mass_g)) +
geom_histogram(bins = 20) +
labs(x = "Körpergewicht", y = "Anzahl")
ggplot(penguins, aes(x = body_mass_g)) +
geom_density() +
labs(x = "Körpergewicht", y = "Dichte")
Den wahren Wert des mittleren Körpergewichts können wir mit dem arithmetischen Mittel der gemessenen Körpergewichte schätzen. Die Standardabweichung schätzern wir auch gleich mit.
mean_body_mass <- mean(penguins$body_mass_g, na.rm = TRUE)
sd_body_mass <- sd(penguins$body_mass_g, na.rm = TRUE)
c(mean_body_mass, sd_body_mass)
[1] 3712.9032 416.6441
Wir erhalten also den Schätzwert \widehat{\theta}\approx3713\text{ g}. Zur Veranschaulichung zeichnen wir in den Dichteplot von oben die Dichte der \textsf{N}(3713,417^2)-Verteilung sowie den geschätzten Mittelwert ein. Zu erkennen ist eine gute, wenn auch nicht perfekte Übereinstimmung.
ggplot(penguins, aes(x = body_mass_g)) +
geom_density() +
geom_function(
fun = dnorm,
args = list(mean = mean_body_mass, sd = sd_body_mass),
color = "red"
) +
geom_segment(aes(
x = mean_body_mass,
y = 0,
xend = mean_body_mass,
yend = dnorm(mean_body_mass, mean = mean_body_mass, sd = sd_body_mass)
),
color = "red",
linetype = "dashed"
) +
labs(x = "Körpergewicht", y = "Dichte")
Anhand des Schätzwerts lässt sich allerdings kein Schätzfehler \widehat{\theta}-\theta berechnen, weil das wahre mittlere Körpergewicht \theta der Pinguine auf Dream Island nicht bekannt ist. Aufgrund der großen Anzahl der Tiere können wir auch nicht alle Mitglieder der Kolonie wiegen, um \theta zu bestimmen, und mehrere Folgeexpeditionen nach Dream Island zur Erhebung weiterer Stichproben, mit denen eine präzisere Schätzung des mittleren Körpergewichts möglich wäre, sind aus Zeit- und Kostengründen wohl nicht durchführbar. Welche Abweichungen zwischen dem gemessenen Mittelwert und dem wahren Mittelwert wären also aufgrund der vorhandenen Daten plausibel? Oder anders gefragt: Welcher Wertebereich für den wahren Parameter ist mit großer Sicherheit mit den Daten vereinbar?
Da wir uns bei einer zufälligen Stichprobe nie sicher über das Ergebnis sein können, geben wir uns eine Konfidenzwahrscheinlichkeit vor, mit der ein Wertebereich den wahren Parameter enthalten soll. Wir schreiben sie als 1-\alpha, wobei \alpha\in(0,1) eine Irrtumswahrscheinlichkeit darstellt, und sprechen von einem Konfidenzbereich zum Konfidenzniveau 1-\alpha, kurz von einem (1-\alpha)-Konfidenzbereich. Ein typischer Wert ist \alpha=0.05, was einem 95\%-Konfidenzbereich entspricht. Wir wollen uns dann zu 95\% sicher sein, dass der Wertebereich den wahren Parameter enthält.
Wie sollte ein Konfidenzbereich aussehen? Natürlich sollte er den Schätzwert beinhalten. Da wir im Allgemeinen nicht sagen können, ob damit der wahre Wert über- oder unterschätzt wird, ist es außerdem sinnvoll, gleichermaßen Abweichungen nach oben wie nach unten zuzulassen. Allzu groß sollten die erlaubten Abweichungen allerdings nicht sein, da sonst die Aussagekraft verloren geht. Ein wahres Durchschnittsgewicht der Dream Island Pinguine von 10000\text{ g} erscheint bei einem gemessenen Durchschnittsgewicht von 3713\text{ g} und einer gemessenen Standardabweichung von 417\text{ g} doch sehr unplausibel, sodass ein solch extremer Wert nicht im Konfidenzbereich liegen sollte.
Im einfachsten Fall ist ein Konfidenzbereich also ein Intervall um den Schätzwert. Dessen Breite hängt im Allgemeinen von drei Einflüssen ab:
In Kapitel 4 werden wir uns diese qualitativen Einflüsse mithilfe von Simulationen in R genauer anschauen.
Zur Berechnung der Intervallgrenzen stehen nur die zufallsbehafteten Daten zur Verfügung, daher werden sich bei einer Wiederholung des Zufallsexperiments andere Daten und somit ein anderes Konfidenzintervall ergeben. Es handelt sich bei einem Konfidenzintervall also um eine Zufallsvariable \textsf{KI}_{1-\alpha}(X_1,\ldots,X_n), deren Realisierung \textsf{KI}_{1-\alpha}(x_1,\ldots,x_n) zur Stichprobe (x_1,\ldots,x_n) nicht wie gewohnt eine reelle Zahl, sondern ein Intervall in den reellen Zahlen ist. Wir fordern dann, dass dieses Zufallsintervall den unbekannten Parameter \gamma(\theta) mit einer Wahrscheinlichkeit von 1-\alpha enthält, egal was der wahre Wert von \theta ist.
Definition 1 (Konfidenzintervall)
Seien X_1,\ldots,X_n unabhängige und identisch verteilte Zufallsvariablen, deren Verteilung P_\theta von einem unbekannten Parameter \theta\in\Theta abhängt. Sei \gamma:\Theta\longrightarrow\Gamma eine Abbildung vom Parameterraum \Theta in eine beliebige Teilmenge \Gamma\subseteq\mathbb{R} der reellen Zahlen. Sei \alpha\in(0,1) eine vorgegebene Irrtumswahrscheinlichkeit.
Eine Zufallsvariable \textsf{KI}_{1-\alpha}(X_1,\ldots,X_n) mit Werten in der Menge aller Intervalle in den reellen Zahlen heißt (1-\alpha)-Konfidenzintervall für \gamma(\theta), wenn P_\theta\big(\textsf{KI}_{1-\alpha}(X_1,\ldots,X_n)\ni\gamma(\theta)\big)=1-\alpha\quad\forall\theta\in\Theta. \tag{1}
Kennen wir einen geeigneten Schätzer \widehat{\gamma}_n für \gamma(\theta), dann ist das Konfidenzintervall von der Form \textsf{KI}_{1-\alpha}=[\widehat{\gamma}_n-\Delta_n,\widehat{\gamma}_n+\Delta_n] \tag{2} mit einer positiven Toleranzgrenze \Delta_n=\Delta_n(X_1,\ldots,X_n), innerhalb der gerade diejenigen möglichen Werte für \gamma(\theta) liegen, die zum Konfidenzniveau 1-\alpha mit den Daten vereinbar sind. Gleichung 1 können wir dann schreiben als P_\theta(\widehat{\gamma}_n-\Delta_n\leq\gamma(\theta)\leq\widehat{\gamma}_n+\Delta_n)=1-\alpha\quad\forall\theta\in\Theta. \tag{3}
Aufgabe 1
Nach der Vermessung der Pinguine auf Dream Island werten die Forschenden die Daten aus und berechnen für das mittlere Körpergewicht das 95\%-Konfidenzintervall [3639, 3787], wobei die Zahlenwerte in Gramm angegeben sind. Wie bewerten Sie die Aussage, dass das wahre durchschnittliche Körpergewicht aller Pinguine auf Dream Island mit einer Wahrscheinlichkeit von 0.95 in diesem Intervall enthalten ist?
Aufgabe 1 zeigt, dass wir beim Begriff Konfidenzintervall aus mathematischer Sicht zwei verschiedene Bedeutungen unterscheiden müssen:
Im Folgenden werden wir aus sprachlicher Sicht nicht präzise zwischen einem zufälligen und einem realisierten Konfidenzintervall unterscheiden, sondern jeweils von einem Konfidenzintervall sprechen.
Ein Konfidenzintervall wie in Gleichung 2 heißt zweiseitig, da Abweichungen vom Schätzwert sowohl nach unten als auch nach oben berücksichtigt werden. Je nach Anwendungskontext können aber auch nur Abweichungen in eine Richtung von Interesse sein.
In den folgenden Unterkapiteln leiten wir in verschiedenen Situationen und unter geeigneten mathematischen Annahmen konkrete Formeln zur Berechnung eines Konfidenzintervalls her, indem wir jeweils von einem geeigneten Schätzer \widehat{\gamma}_n für \gamma(\theta) ausgehen, dessen Verteilung bestimmen und dann \Delta_n berechnen, sodass Gleichung 3 erfüllt ist.
Das Stichprobenmittel \widehat{\gamma}_n=\overline{X}_n ist ein erwartungstreuer Schätzer für \gamma(\theta)=\mu=\textsf{E}(X_1). Daher ist es naheliegend, die Konstruktion eines Konfidenzintervalls für \mu auf den Eigenschaften von \overline{X}_n aufzubauen.
Zu vorgegebenem \alpha\in(0,1) suchen wir gemäß Gleichung 3 eine positive Toleranzgrenze \Delta_n, sodass mit einer Wahrscheinlichkeit von 1-\alpha der unbekannte Erwartungswert \mu in einem Abstand von höchstens \Delta_n um das Stichprobenmittel \overline{X}_n zu finden ist. In einer Gleichung ausgedrückt bedeutet das P_\mu(\overline{X}_n-\Delta_n\leq\mu\leq\overline{X}_n+\Delta_n)=1-\alpha\quad\forall\mu\in\mathbb{R}. \tag{8} Wenn wir ein solches \Delta_n gefunden haben, dann ist ein (1-\alpha)-Konfidenzintervall für \mu wie in Gleichung 2 gegeben durch \textsf{KI}_{1-\alpha}=[\overline{X}_n-\Delta_n,\overline{X}_n+\Delta_n]. \tag{9}
Der Erwartungswert des Stichprobenmittels ist \textsf{E}(\overline{X}_n)=\mu und die Varianz ist \textsf{Var}(\overline{X}_n)=\sigma^2/n. Wir nehmen zunächst an, dass der Zahlenwert von \sigma^2 bekannt ist. Wenn wir weiterhin von normalverteilten Daten bzw. von normalverteilten Zufallsvariablen X_1,\ldots,X_n ausgehen, ist \overline{X}_n ebenfalls normalverteilt. Durch Standardisieren gelangen wir zur standardnormalverteilten Zufallsvariablen \overline{X}_n^* =\frac{\overline{X}_n-\textsf{E}(\overline{X}_n)}{\sqrt{\textsf{Var}(\overline{X}_n)}} =\frac{\overline{X}_n-\mu}{\sigma/\sqrt{n}} =\frac{\sqrt{n}(\overline{X}_n-\mu)}{\sigma}. \tag{10}
Die Wahrscheinlichkeit in Gleichung 8 können wir somit über die Verteilungsfunktion der Standardnormalverteilung berechnen: \begin{align*} &\quad P_\mu(\overline{X}_n-\Delta_n\leq\mu\leq\overline{X}_n+\Delta_n)\\ &=P_\mu(-\Delta_n\leq\overline{X}_n-\mu\leq\Delta_n)\\ &=P_\mu\left(-\frac{\sqrt{n}\Delta_n}{\sigma}\leq\frac{\sqrt{n}(\overline{X}_n-\mu)}{\sigma}\leq\frac{\sqrt{n}\Delta_n}{\sigma}\right)\\ &=\Phi\left(\frac{\sqrt{n}\Delta_n}{\sigma}\right)-\Phi\left(-\frac{\sqrt{n}\Delta_n}{\sigma}\right)\\ &=2\Phi\left(\frac{\sqrt{n}\Delta_n}{\sigma}\right)-1. \end{align*}
Um ein (1-\alpha)-Konfidenzintervall zu bekommen, setzen wir diesen Ausdruck gleich 1-\alpha und lösen anschließend nach \Delta_n auf: \begin{align*} &&2\Phi\left(\frac{\sqrt{n}\Delta_n}{\sigma}\right)-1 &=1-\alpha\\ \Longleftrightarrow\quad &&\Phi\left(\frac{\sqrt{n}\Delta_n}{\sigma}\right) &=1-\alpha/2\\ \Longleftrightarrow\quad &&\frac{\sqrt{n}\Delta_n}{\sigma} &=z_{1-\alpha/2}\\ \Longleftrightarrow\quad &&\Delta_n &=z_{1-\alpha/2}\frac{\sigma}{\sqrt{n}} \end{align*} Wir haben somit die gesuchte Toleranzgrenze \Delta_n für Gleichung 8 bzw. Gleichung 9 gefunden. Das Ergebnis halten wir im folgenden Theorem fest.
Theorem 1 (Zweiseitiges Konfidenzintervall für \mu bei bekannter Varianz)
Seien X_1,\ldots,X_n unabhängige und identisch \textsf{N}(\mu,\sigma^2)-verteilte Zufallsvariablen mit unbekanntem \mu und bekanntem \sigma^2. Dann ist ein (1-\alpha)-Konfidenzintervall für \mu gegeben durch \textsf{KI}_{1-\alpha}=\left[\overline{X}_n-z_{1-\alpha/2}\frac{\sigma}{\sqrt{n}},\overline{X}_n+z_{1-\alpha/2}\frac{\sigma}{\sqrt{n}}\right]. \tag{11}
Anmerkung.
Anhand von Gleichung 11 stellen wir fest, dass die zufälligen Daten nur eine Auswirkung auf den Mittelpunkt des Intervalls haben, nicht jedoch auf dessen Breite, denn diese ist nicht zufällig. Bei zwei verschiedenen Stichproben mit demselben Stichprobenumfang resultieren die zufälligen Unterschiede in den Daten also lediglich in verschiedene Mittelpunkte gemäß der jeweiligen arithmetischen Mittel. Dagegen wird die Intervallbreite allein vom Stichprobenumfang n und der Irrtumswahrscheinlichkeit \alpha bestimmt. Diese Beobachtungen werden wir in Kapitel 4 mittels einer Simulationsstudie in R weiter erkunden.
Umgekehrt wird es dadurch möglich, bei vorgegebener Irrtumswahrscheinlichkeit \alpha die Intervallbreite über den Stichprobenumfang n zu steuern. So kann vor Erhebung der Daten ein höherer Stichprobenumfang eingeplant werden, damit die statistische Auswertung ein kleineres Konfidenzintervall und damit eine präzisere Aussage über den unbekannten Erwartungswert ergibt (siehe Seite 150 in Timischl 2013). Man spricht auch von einer Fallzahlplanung.
In einem Anwendungsbeispiel sehen wir Gleichung 11 nun in Aktion.
Beispiel 1
Bei 12 verschiedenen Zubereitungen einer isotonischen Kochsalzlösung wurde der prozentuale Massenanteil an Kochsalz gemessen. Die erhaltenen Messwerte in Prozent sind \begin{array}{rrrrrr} 0.91&0.92&0.87&0.89&0.92&0.86\\ 0.94&0.90&0.89&0.90&0.89&0.91 \end{array} Wir nehmen an, dass die Messwerte Realisierungen von unabhängigen und identisch \textsf{N}(\mu,\sigma^2)-verteilten Zufallsvariablen X_1,\ldots,X_{12} mit bekannter Varianz \sigma^2=4\cdot10^{-4} sind. Mithilfe von Gleichung 11 berechnen wir ein 95\%-Konfidenzintervall für den unbekannten Erwartungswert \mu.
Zunächst müssen wir den Wert von \alpha bestimmen. Da ein 95\%-Konfidenzintervall gesucht ist, ist 1-\alpha=0.95 und damit \alpha=0.05. Die Standardabweichung \sigma kann aus der vorgegebenen Varianz \sigma^2 berechnet werden und der Stichprobenumfang ist n=12. Wir benötigen also nur noch den Schätzwert des Stichprobenmittels \overline{X}_n, den wir in R mit der Funktion mean()
berechnen:
# gemessene prozentuale Massenanteile
w <- c(0.91, 0.92, 0.87, 0.89, 0.92, 0.86, 0.94, 0.90, 0.89, 0.90, 0.89, 0.91)
# arithmetisches Mittel der Messwerte
mean(w)
[1] 0.9
Die untersuchten Lösungen enthalten im Mittel also einen 0.9\%-igen Massenanteil Kochsalz (wie es bei einer isotonischen Kochsalzlösung sein sollte). Damit berechnen wir nun die Grenzen des gesuchten Konfidenzintervalls:
# untere Intervallgrenze
lower <- mean(w) - qnorm(1 - 0.05 / 2) * sqrt(4e-4 / 12)
# obere Intervallgrenze
upper <- mean(w) + qnorm(1 - 0.05 / 2) * sqrt(4e-4 / 12)
c(lower, upper)
[1] 0.8886841 0.9113159
Auf drei Nachkommastellen gerundet erhalten wir das 95\%-Konfidenzintervall \textsf{KI}_{0.95}=[0.889,0.911].
Ein weiteres Anwendungsproblem lösen Sie in der folgenden Aufgabe.
Aufgabe 2
Arbeiten Sie mit dem Datensatz penguins
aus dem Paket palmerpenguins
. Berechnen Sie ein 90\%-Konfidenzintervall für die mittlere Schnabellänge bill_length_mm
, wenn die einzelnen Schnabellängen als normalverteilt und für die Standardabweichung ein Wert von \sigma=5\text{ mm} angenommen werden.
Gleichung 11 ist ein zweiseitiges Konfidenzintervall, aber mit ähnlichen Überlegungen wie zuvor kann man auch Formeln für einseitige Konfidenzintervalle herleiten.
Aufgabe 3
Wie in Theorem 1 seien X_1,\ldots,X_n unabhängig und identisch normalverteilt mit bekannter Varianz. Rechnen Sie nach, dass einseitige (1-\alpha)-Konfidenzintervalle für den Erwartungswert durch die folgenden Formeln gegeben sind.
Anmerkung.
Wir gehen in diesem Abschnitt und auch im weiteren Verlauf von normalverteilten Daten aus, weil wir auf diese Weise exakte Formeln für die Konfidenzintervalle herleiten können. Aufgrund des zentralen Grenzwertsatzes lassen sich jedoch auch für andere Verteilungen approximative Konfidenzintervalle angeben, sofern der Stichprobenumfang ausreichend groß ist. Man spricht in diesem Fall von asymptotischen Konfidenzintervallen, weil sie das Konfidenzniveau für endliches n zwar nur approximativ einhalten, im Grenzwert für n\to\infty jedoch exakt. Asymptotische Konfidenzintervalle für den Erwartungswert sind typischerweise von der Form “Schätzer plus/minus Quantil mal Standardabweichung” (siehe Seite 253-255 in Henze 2019).
Ist die Varianz dagegen nicht bekannt – in der Praxis ist das oft das realistischere Szenario – hilft das Standardisieren des Stichprobenmittels zu \overline{X}_n^*=\frac{\sqrt{n}(\overline{X}_n-\mu)}{\sigma}\sim\textsf{N}(0,1) nicht mehr weiter. Zwar ist das Rechnen mit der Standardnormalverteilung unproblematisch, aber die Intervallgrenzen in Gleichung 11 sind nicht mehr aus den Daten bestimmbar, wenn \sigma als unbekannte Größe vorkommt.
In diesem Fall besteht die Idee darin, die Daten zu nutzen, um die Standardabweichung \sigma mit der Stichprobenstandardabweichung S_n zu schätzen. Jedes Vorkommen von \sigma wird formal durch S_n ersetzt. \overline{X}_n wird nicht mehr wie in Gleichung 10 zu \overline{X}_n^* standardisiert, sondern studentisiert zu T_n=\frac{\sqrt{n}(\overline{X}_n-\mu)}{S_n}.
Das unbekannte \sigma ist augenscheinlich aus dieser neuen Zufallsvariablen verschwunden, jedoch könnte ihre Verteilung weiterhin von \sigma abhängen, da immerhin die Verteilungen von \overline{X}_n und S_n von \sigma abhängen. Die Frage ist also, welche Verteilung das studentisierte Stichprobenmittel besitzt und von welchen Parametern diese Verteilung abhängt. Dazu bringen wir das studentisierte Stichprobenmittel durch geschickte Umformungen in eine komplizierte Gestalt, in der nur noch standardisierte Zufallsvariablen vorkommen:
\begin{align*} T_n &=\frac{\sqrt{n}(\overline{X}_n-\mu)}{S_n}\\ &=\frac{\frac{\sqrt{n}(\overline{X}_n-\mu)}{\sigma}}{\sqrt{\frac{1}{\sigma^2}S_n^2}}\\ &=\frac{\frac{\sqrt{n}(\overline{X}_n-\mu)}{\sigma}}{\sqrt{\frac{1}{\sigma^2}\frac{1}{n-1}\sum\limits_{k=1}^n(X_k-\overline{X}_n)^2}}\\ &=\frac{\frac{\sqrt{n}(\overline{X}_n-\mu)}{\sigma}}{\sqrt{\frac{1}{n-1}\sum\limits_{k=1}^n\left(\frac{X_k-\mu}{\sigma}-\frac{1}{\sqrt{n}}\frac{\sqrt{n}(\overline{X}_n-\mu)}{\sigma}\right)^2}}\\ &=\frac{\overline{X}_n^* }{\sqrt{\frac{1}{n-1}\sum\limits_{k=1}^n(X_k^* -\frac{1}{\sqrt{n}}\overline{X}_n^*)^2}} \end{align*}
Wegen X_k^*\sim\textsf{N}(0,1) für alle k=1,\ldots,n und \overline{X}_n^*\sim\textsf{N}(0,1) setzt sich das studentisierte Stichprobenmittel T_n nur aus standardnormalverteilten Zufallsvariablen zusammen. Insbesondere sehen wir anhand der Umformung, dass die Verteilung von T_n nur von n abhängt, nicht aber von \mu oder \sigma^2. Dieser Verteilung geben wir einen eigenen Namen.
Definition 2 (t-Verteilung)
Seien X_1,\ldots,X_n unabhängige und identisch \textsf{N}(\mu,\sigma^2)-verteilte Zufallsvariablen. Die Verteilung des studentisierten Stichprobenmittels T_n=\frac{\sqrt{n}(\overline{X}_n-\mu)}{S_n} \tag{14} heißt t-Verteilung mit n-1 Freiheitsgraden. Wir schreiben T_n\sim t_{n-1}.
Für einige Werte von n ist die Dichtefunktion der t_n-Verteilung in der folgenden Grafik gezeichnet. Sie nähern sich für wachsendes n immer mehr der Dichtefunktion der Standardnormalverteilung an, die für n = inf
eingezeichnet ist.
Anmerkung.
In R gibt es die folgenden Funktionen für Berechnungen mit der t_n-Verteilung. Als zusätzliches Argument muss jeweils df = n
für die Anzahl der Freiheitsgrade angegeben werden.
Mathematisches Objekt | R Funktion |
---|---|
Dichtefunktion der t-Verteilung | dt() |
Verteilungsfunktion der t-Verteilung | pt() |
Quantil der t-Verteilung | qt() |
t-verteilte Zufallszahlen | rt() |
Die Verteilung von \sqrt{n}(\overline{X}_n-\mu)/S_n ist also eine t_{n-1}-Verteilung und hängt somit nur vom Stichprobenumfang n ab. In der Folge müssen in Gleichung 11 die Quantile der Standardnormalverteilung formal durch die Quantile der t_{n-1}-Verteilung ausgetauscht werden. Dass dieses Vorgehen auch mathematisch zu einem Konfidenzintervall für \mu führt, zeigen das folgende Theorem und sein Beweis.
Theorem 2 (Zweiseitiges Konfidenzintervall für \mu bei unbekannter Varianz)
Seien X_1,\ldots,X_n unabhängige und identisch \textsf{N}(\mu,\sigma^2)-verteilte Zufallsvariablen mit unbekanntem \mu und unbekanntem \sigma^2. Dann ist ein (1-\alpha)-Konfidenzintervall für \mu gegeben durch \textsf{KI}_{1-\alpha}=\left[\overline{X}_n-t_{n-1,1-\alpha/2}\frac{S_n}{\sqrt{n}},\overline{X}_n+t_{n-1,1-\alpha/2}\frac{S_n}{\sqrt{n}}\right]. \tag{15}
Beweis. Wir schreiben das Ereignis, dass \textsf{KI}_{1-\alpha} aus Gleichung 15 den unbekannten Erwartungswert \mu enthält, auf das studentisierte Stichprobenmittel um, denn dieses ist t_{n-1}-verteilt. Somit können wir die Wahrscheinlichkeit dieses Ereignisses berechnen: \begin{align*} P(\textsf{KI}_{1-\alpha}\ni\mu) &=P\left(\overline{X}_n-t_{n-1,1-\alpha/2}\frac{S_n}{\sqrt{n}}\leq\mu\leq\overline{X}_n+t_{n-1,1-\alpha/2}\frac{S_n}{\sqrt{n}}\right)\\ &=P\left(-t_{n-1,1-\alpha/2}\frac{S_n}{\sqrt{n}}\leq\overline{X}_n-\mu\leq t_{n-1,1-\alpha/2}\frac{S_n}{\sqrt{n}}\right)\\ &=P\left(-t_{n-1,1-\alpha/2}\leq\frac{\sqrt{n}(\overline{X}_n-\mu)}{S_n}\leq t_{n-1,1-\alpha/2}\right)\\ &=F_{n-1}(t_{n-1,1-\alpha/2})-F_{n-1}(-t_{n-1,1-\alpha/2})\\ &=2F_{n-1}(t_{n-1,1-\alpha/2})-1\\ &=2(1-\alpha/2)-1\\ &=1-\alpha \end{align*} Somit ist \textsf{KI}_{1-\alpha} ein (1-\alpha)-Konfidenzintervall für \mu.
Anmerkung.
Im Gegensatz zu Gleichung 11 hängt die Intervallbreite in Gleichung 15 nun doch über die Stichprobenstandardabweichung von den Daten ab. Bei vorgegebener Irrtumswahrscheinlichkeit \alpha kann man jedoch immer noch einen Mindeststichprobenumfang bestimmen, sodass das Konfidenzintervall eine vorgegebene Breite besitzt (siehe Seite 151 in Timischl 2013).
Als Anwendungsbeispiel von Gleichung 15 hinterfragen wir die in Beispiel 1 gemachte Annahme, dass bei der Messung des Massenanteils an Kochsalz die Varianz bekannt sein soll. Realistischer wäre es, von einem Messverfahren mit unbekannter Streuung in den Messwerten auszugehen.
Beispiel 2
In der Situation von Beispiel 1 nehmen wir an, dass neben \mu auch \sigma^2 unbekannt ist. Aus den 12 Messwerten berechnen wir erneut ein 95\%-Konfidenzintervall, nun mithilfe von Gleichung 15. In der Rechnung müssen wir zwei Dinge ändern: Das Quantil der Standardnormalverteilung wird ersetzt durch das Quantil qt()
der t-Verteilung mit df = n - 1
Freiheitsgraden und die Standardabweichung wird ersetzt durch den Schätzwert der Stichprobenstandardabweichung, den wir in R mit der Funktion sd()
berechnen.
# gemessene prozentuale Massenanteile
w <- c(0.91, 0.92, 0.87, 0.89, 0.92, 0.86, 0.94, 0.90, 0.89, 0.90, 0.89, 0.91)
# untere Intervallgrenze
lower <- mean(w) - qt(1 - 0.05 / 2, df = 12 - 1) * sd(w) / sqrt(12)
# obere Intervallgrenze
upper <- mean(w) + qt(1 - 0.05 / 2, df = 12 - 1) * sd(w) / sqrt(12)
c(lower, upper)
[1] 0.8859225 0.9140775
Mit den auf drei Nachkommastellen gerundeten Werten ergibt sich das 95\%-Konfidenzintervall \textsf{KI}_{0.95}=[0.886,0.914]. Im Vergleich zum Ergebnis aus Beispiel 1 bleibt der Intervallmittelpunkt gleich, jedoch ändert sich die Intervallbreite. Diese hängt nämlich von der geschätzten Standardabweichung ab und ist daher nicht mehr deterministisch. Die konkreten Messwerte führen hier dazu, dass das Intervall etwas breiter ist.
Auch bei der Arbeit mit den Palmer-Pinguinen ist es realistisch, der Vermessung der Schnabellängen eine unbekannte Varianz zu unterstellen. Lösen Sie die folgende Aufgabe, um nun das korrekte Konfidenzintervall zu ermitteln.
Aufgabe 4
Arbeiten Sie mit dem Datensatz penguins
aus dem Paket palmerpenguins
. Berechnen Sie ein 90\%-Konfidenzintervall für die mittlere Schnabellänge bill_length_mm
, wenn die einzelnen Schnabellängen als normalverteilt angenommen werden.
Neben dem zweiseitigen Konfidenzintervall aus Gleichung 15 gibt es ebenfalls Formeln für einseitige Konfidenzintervalle, die Thema der folgenden Aufgabe sind.
Aufgabe 5
Wie in Theorem 2 seien X_1,\ldots,X_n unabhängig und identisch normalverteilt mit unbekannter Varianz. Rechnen Sie nach, dass einseitige (1-\alpha)-Konfidenzintervalle für den Erwartungswert durch die folgenden Formeln gegeben sind.
Bei der Herleitung eines Konfidenzintervalls für den Erwartungswert sind wir von einem erwartungstreuen Schätzer für den Erwartungswert ausgegangen, nämlich vom Stichprobenmittel \overline{X}_n. Analog dazu verwenden wir jetzt die Stichprobenvarianz S_n^2, die ein erwartungstreuer Schätzer für die Varianz ist, um ein Konfidenzintervall für die Varianz herzuleiten. Wie zuvor nehmen wir an, dass die Daten von unabhängigen und identisch normalverteilten Zufallsvariablen X_1,\ldots,X_n generiert werden. Deren Erwartungswert \mu und Varianz \sigma^2 sind unbekannt und wir suchen ein (1-\alpha)-Konfidenzintervall für \sigma^2 basierend auf den zufälligen Beobachtungen X_1,\ldots,X_n.
Bei der Herleitung eines Konfidenzintervalls für den Erwartungswert war es entscheidend, den Schätzer so zu transformieren, dass die Verteilung – und somit auch das Konfidenzintervall – nicht mehr von unbekannten Parametern abhängt. So haben wir das Stichprobenmittel bei bekannter Varianz standardisiert und bei unbekannter Varianz studentisiert. Den transformierten Schätzer konnten wir jeweils allein durch standardnormalverteilte Zufallsvariablen ausdrücken.
Genauso gehen wir nun bei der Stichprobenvarianz vor. Die zielführende Transformation besteht darin, S_n^2 mit dem Faktor (n-1)/\sigma^2 zu multiplizieren:
\begin{align*} \frac{(n-1)S_n^2}{\sigma^2} &=\frac{1}{\sigma^2}\sum_{k=1}^n(X_k-\overline{X}_n)^2\\ &=\sum_{k=1}^n\left(\frac{X_k-\mu}{\sigma}-\frac{1}{\sqrt{n}}\frac{\sqrt{n}(\overline{X}_n-\mu)}{\sigma}\right)^2\\ &=\sum_{k=1}^n\left(X_k^* -\frac{1}{\sqrt{n}}\overline{X}_n^*\right)^2. \end{align*}
Wegen X_k^*\sim\textsf{N}(0,1) für alle k=1,\ldots,n und \overline{X}_n^*\sim\textsf{N}(0,1) setzt sich diese Zufallsvariable nur aus standardnormalverteilten Zufallsvariablen zusammen und die Verteilung hängt nur noch von n ab. Wir geben ihr einen eigenen Namen.
Definition 3 (Chi-Quadrat-Verteilung)
Seien X_1,\ldots,X_n unabhängige und identisch \textsf{N}(\mu,\sigma^2)-verteilte Zufallsvariablen. Die Verteilung der Zufallsvariablen \frac{(n-1)S_n^2}{\sigma^2}=\frac{1}{\sigma^2}\sum_{k=1}^n(X_k-\overline{X}_n)^2 \tag{18} heißt Chi-Quadrat-Verteilung mit n-1 Freiheitsgraden. Wir schreiben (n-1)S_n^2/\sigma^2\sim\chi^2_{n-1}.
Für einige Werte von n ist die Dichtefunktion der \chi^2_n-Verteilung in der folgenden Grafik gezeichnet.
Anmerkung.
In R gibt es die folgenden Funktionen für Berechnungen mit der \chi^2_n-Verteilung. Als zusätzliches Argument muss jeweils df = n
für die Anzahl der Freiheitsgrade angegeben werden.
Mathematisches Objekt | R Funktion |
---|---|
Dichtefunktion der Chi-Quadrat-Verteilung | dchisq() |
Verteilungsfunktion der Chi-Quadrat-Verteilung | pchisq() |
Quantil der Chi-Quadrat-Verteilung | qchisq() |
Chi-Quadrat-verteilte Zufallszahlen | rchisq() |
Mithilfe der Chi-Quadrat-Verteilung, genauer gesagt mithilfe ihrer Quantile, können wir nun ein Konfidenzintervall für die Varianz angeben.
Theorem 3 (Zweiseitiges Konfidenzintervall für \sigma^2)
Seien X_1,\ldots,X_n unabhängige und identisch \textsf{N}(\mu,\sigma^2)-verteilte Zufallsvariablen mit unbekanntem \mu und unbekanntem \sigma^2. Dann ist ein (1-\alpha)-Konfidenzintervall für \sigma^2 gegeben durch \textsf{KI}_{1-\alpha}=\left[\frac{(n-1)S_n^2}{\chi^2_{n-1,1-\alpha/2}},\frac{(n-1)S_n^2}{\chi^2_{n-1,\alpha/2}}\right]. \tag{19}
Beweis. Wir schreiben das Ereignis, dass \textsf{KI}_{1-\alpha} aus Gleichung 19 die unbekannte Varianz \sigma^2 enthält, auf die Zufallsvariable (n-1)S_n^2/\sigma^2 um, denn diese ist \chi^2_{n-1}-verteilt. Somit können wir die Wahrscheinlichkeit dieses Ereignisses berechnen: \begin{align*} P(\textsf{KI}_{1-\alpha}\ni\sigma^2) &=P\left(\frac{(n-1)S_n^2}{\chi^2_{n-1,1-\alpha/2}}\leq\sigma^2\leq\frac{(n-1)S_n^2}{\chi^2_{n-1,\alpha/2}}\right)\\ &=P\left(\frac{\chi^2_{n-1,\alpha/2}}{(n-1)S_n^2}\leq\frac{1}{\sigma^2}\leq\frac{\chi^2_{n-1,1-\alpha/2}}{(n-1)S_n^2}\right)\\ &=P\left(\chi^2_{n-1,\alpha/2}\leq\frac{(n-1)S_n^2}{\sigma^2}\leq\chi^2_{n-1,1-\alpha/2}\right)\\ &=F_{n-1}(\chi^2_{n-1,1-\alpha/2})-F_{n-1}(\chi^2_{n-1,\alpha/2})\\ &=1-\alpha/2-\alpha/2\\ &=1-\alpha \end{align*} Somit ist \textsf{KI}_{1-\alpha} ein (1-\alpha)-Konfidenzintervall für \sigma^2.
Wir führen das Rechenbeispiel mit den Kochsalzlösungen fort und berechnen auch noch ein Konfidenzintervall für die Varianz des gemessenen Massenanteils an Kochsalz.
Beispiel 3
In der Situation von Beispiel 1 nehmen wir an, dass neben \mu auch \sigma^2 unbekannt ist, und berechnen ein 95\%-Konfidenzintervall für \sigma^2 mithilfe von Gleichung 19.
Mit \alpha=0.05 und n=12 müssen wir dazu die empirische Varianz mit der Funktion var()
und zwei Quantile der Chi-Quadrat-Verteilung mit der Funktion qchisq()
berechnen:
# gemessene prozentuale Massenanteile
w <- c(0.91, 0.92, 0.87, 0.89, 0.92, 0.86, 0.94, 0.90, 0.89, 0.90, 0.89, 0.91)
# untere Intervallgrenze
lower <- (12 - 1) * var(w) / qchisq(1 - 0.05 / 2, df = 12 - 1)
# obere Intervallgrenze
upper <- (12 - 1) * var(w) / qchisq(0.05 / 2, df = 12 - 1)
c(lower, upper)
[1] 0.0002463498 0.0014151877
Das gesuchte 95\%-Konfidenzintervall ist also \textsf{KI}_{0.95}=[0.0002,0.0014].
Üben Sie selbst die Berechnung eines Konfidenzintervalls für die Varianz am Beispiel der Palmer-Pinguine.
Aufgabe 6
Arbeiten Sie mit dem Datensatz penguins
aus dem Paket palmerpenguins
. Berechnen Sie ein 90\%-Konfidenzintervall für die Varianz der Schnabellänge bill_length_mm
, wenn die einzelnen Schnabellängen als normalverteilt angenommen werden.
Wie schon beim Erwartungswert lassen sich auch für die Varianz einseitige Konfidenzintervalle angeben. Leiten Sie in der nächsten Aufgabe die Formel dafür her.
Aufgabe 7
Wie in Theorem 3 seien X_1,\ldots,X_n unabhängig und identisch normalverteilt mit unbekannten Parametern. Rechnen Sie nach, dass durch die folgende Formel ein einseitiges (1-\alpha)-Konfidenzintervall für die Varianz \sigma^2 gegeben ist: \textsf{KI}_{1-\alpha}=\left(0,\frac{(n-1)S_n^2}{\chi^2_{n-1,\alpha}}\right]. \tag{20}
Zum Schluss dieses Abschnitts noch eine theoretische Überlegung: Von der Varianz kommt man auf die Standardabweichung. Gleiches gilt bei Konfidenzintervallen für diese beiden statistischen Kenngrößen. Wie genau das funktioniert, sollen Sie sich in der letzten Aufgabe überlegen.
Aufgabe 8
Wie erhält man aus einem Konfidenzintervall für die Varianz ein Konfidenzintervall für die Standardabweichung? Geben Sie entsprechende Formeln an.
Wir schauen uns jetzt anhand von simulierten Daten an, wie die mit Gleichung 15 berechneten Konfidenzintervalle qualitativ vom Konfidenzniveau und vom Stichprobenumfang abhängen. Dazu schreiben wir in R eine Funktion, die verschiedene Konfidenzintervalle zum Konfidenzniveau 1 - alpha
basierend auf N = 100
standardnormalverteilten Stichproben mit festem Stichprobenumfang n
berechnet und zeichnet.
library(tidyverse)
draw_confint1 <- function(N = 100, alpha, mu = 0, sigma = 1, n) {
# leere Vektoren, die in der folgenden For-Schleife befüllt werden
estimate <- numeric(N)
lower <- numeric(N)
upper <- numeric(N)
contained <- logical(N)
# generiere N Stichproben
for (i in 1:N) {
# ziehe eine Stichprobe vom Umfang n
x <- rnorm(n, mean = mu, sd = sigma)
# berechne das Stichprobenmittel
estimate[i] <- mean(x)
# berechne die Endpunkte des Intervalls
lower[i] <- estimate[i] - qt(1 - alpha / 2, df = n - 1) * sd(x) / sqrt(n)
upper[i] <- estimate[i] + qt(1 - alpha / 2, df = n - 1) * sd(x) / sqrt(n)
# enthält das Intervall den wahren Parameter?
contained[i] <- ifelse(lower[i] <= mu & mu <= upper[i], TRUE, FALSE)
}
# Ergebnisse
data <- tibble(estimate, lower, upper, contained)
# Grafik
ggplot(data, aes(x = 1:N, y = estimate)) +
# markiere den wahren Parameter
geom_hline(
yintercept = mu,
linetype = "dashed"
) +
# zeichne die Konfidenzintervalle
geom_errorbar(
aes(
ymin = lower,
ymax = upper,
color = contained
),
show.legend = FALSE
) +
# zeichne die Mittelpunkte
geom_point() +
# Achsenbeschriftung
labs(x = "Nummer der Stichprobe", y = "Erwartungswert") +
# Achsengrenzen
coord_cartesian(ylim = c(mu - sigma, mu + sigma)) +
# blaue Intervalle enthalten den wahren Parameter, rote nicht
scale_color_manual(values = c("TRUE" = "blue", "FALSE" = "red"))
}
Mit dieser Funktion plotten wir nun einige Konfidenzintervalle. Dabei verändern wir zunächst nur den Stichprobenumfang und halten das Konfidenzniveau fest bei 95\%, das heißt alpha = 0.05
.
set.seed(1)
plot(draw_confint1(alpha = 0.05, n = 50))
plot(draw_confint1(alpha = 0.05, n = 100))
plot(draw_confint1(alpha = 0.05, n = 500))
Wir beobachten zwei Effekte:
Jetzt halten wir den Stichprobenumfang fest bei n = 100
und verändern nur das Konfidenzniveau. Dabei dient der Wert alpha = 0.5
allein der Illustration, in der Praxis würde man sich keine Irrtumswahrscheinlichkeit von 50\% vorgeben.
set.seed(1)
plot(draw_confint1(alpha = 0.5, n = 100))
plot(draw_confint1(alpha = 0.05, n = 100))
plot(draw_confint1(alpha = 0.005, n = 100))
Erneut machen wir zwei Beobachtungen:
Den Einfluss des Stichprobenumfangs schauen wir uns noch etwas detaillierter an. Dazu schreiben wir in R eine weitere Funktion, die (1-\alpha)-Konfidenzintervalle einer standardnormalverteilten Stichprobe mit wachsendem Stichprobenumfang berechnet und zeichnet. Der Unterschied zu draw_confint1()
besteht darin, dass nicht immer eine neue Stichprobe gezogen wird und verschiedene Realisierungen eines Konfidenzintervalls berechnet werden, sondern dass stattdessen der bereits vorhandenen Stichprobe ein neuer Datenpunkt hinzugefügt und das Konfidenzintervall mit dieser neuen Information aktualisiert wird.
library(tidyverse)
draw_confint2 <- function(alpha, mu = 0, sigma = 1, n) {
# ziehe eine Stichprobe vom Umfang n
x <- rnorm(n, mean = mu, sd = sigma)
# leere Vektoren, die in der folgenden For-Schleife befüllt werden
estimate <- numeric(n)
lower <- numeric(n)
upper <- numeric(n)
contained <- logical(n)
for (i in 2:n) {
# berechne das Stichprobenmittel
estimate[i] <- mean(x[1:i])
# berechne die Endpunkte des Intervalls
lower[i] <- estimate[i] - qt(1 - alpha / 2, df = i - 1) * sd(x[1:i]) / sqrt(i)
upper[i] <- estimate[i] + qt(1 - alpha / 2, df = i - 1) * sd(x[1:i]) / sqrt(i)
# enthält das Intervall den wahren Parameter?
contained[i] <- ifelse(lower[i] <= mu & mu <= upper[i], TRUE, FALSE)
}
# Ergebnisse
data <- tibble(estimate, lower, upper, contained)
# Grafik
ggplot(data, aes(x = 1:n, y = estimate)) +
# markiere den wahren Parameter
geom_hline(
yintercept = mu,
linetype = "dashed"
) +
# zeichne die Konfidenzintervalle
geom_errorbar(
aes(
ymin = lower,
ymax = upper,
color = contained
),
show.legend = FALSE
) +
# zeichne die Mittelpunkte
geom_point() +
# Achsenbeschriftung
labs(x = "Stichprobengröße", y = "Erwartungswert") +
# Achsengrenzen
coord_cartesian(ylim = c(mu - sigma, mu + sigma)) +
# blaue Intervalle enthalten den wahren Parameter, rote nicht
scale_color_manual(values = c("TRUE" = "blue", "FALSE" = "red"))
}
Wir halten zuerst wieder das Konfidenzniveau fest und erhöhen den Stichprobenumfang. Die Grafiken veranschaulichen die schon eben beobachteten Effekte, dass mit zunehmendem n die Intervallmittelpunkte gegen den wahren Erwartungswert \mu konvergieren (aufgrund der schwachen Konsistenz des Stichprobenmittels) und dass gleichzeitig die Konfidenzintervalle schmaler werden (aufgrund von Gleichung 15).
set.seed(1)
plot(draw_confint2(alpha = 0.05, n = 50))
plot(draw_confint2(alpha = 0.05, n = 100))
plot(draw_confint2(alpha = 0.05, n = 500))
Wir vertauschen die Sichtweisen und verändern nun das Konfidenzniveau bei gleichbleibendem Stichprobenumfang. Erneut ist die Verbreiterung der Intervalle mit steigendem Konfidenzniveau zu erkennen, wobei gleichzeitig immer mehr Intervalle den wahren Parameter überdecken.
set.seed(1)
plot(draw_confint2(alpha = 0.5, n = 500))
plot(draw_confint2(alpha = 0.05, n = 500))
plot(draw_confint2(alpha = 0.005, n = 500))
Simulieren Sie nun selbst die qualitative Abhängigkeit der Intervallbreite vom Stichprobenumfang und vom Konfidenzniveau beim Konfidenzintervall für die Varianz.
Aufgabe 9
Erzeugen Sie 100 standardnormalverteilte Stichproben mit gleichem Stichprobenumfang n, berechnen Sie jeweils das (1-\alpha)-Konfidenzintervall für \sigma^2 und markieren Sie jeweils die empirische Varianz. Zeichnen Sie für verschiedene Werte von n und \alpha diese 100 Intervalle. Beschreiben Sie Ihre Beobachtungen.
Bisher waren alle Daten zu einer Stichprobe zusammengefasst, man spricht dann auch von einem Einstichprobenproblem. Mithilfe eines Konfidenzintervalls wurde ein Bereich von Werten angegeben, die sich nicht statistisch signifikant vom wahren Erwartungswert oder von der wahren Varianz dieser einen Stichprobe unterscheiden.
Insbesondere in der medizinischen und pharmazeutischen Forschung sind dagegen Unterschiede zwischen zwei verschiedenen Stichproben relevant. Beispielsweise kann die Wirksamkeit eines neu entwickelten Medikaments mit einer randomisierten kontrollierten Studie untersucht werden, in der die Proband:innen zufällig in eine Versuchsgruppe und eine Kontrollgruppe eingeteilt werden. Die statistischen Unterschiede zwischen den Ergebnissen beider Gruppen lassen dann Schlüsse auf die Wirksamkeit des Medikaments zu. Da in diesem Szenario Daten aus zwei Stichproben miteinander verglichen werden, spricht man von einem Zweistichprobenproblem. Von Interesse ist beispielsweise ein Konfidenzintervall für die Differenz der Erwartungswerte beider Gruppen, das angibt, ob im Mittel ein statistisch signifikanter Unterschied zwischen den Gruppen beobachtet werden kann, zum Beispiel ein signifikanter Unterschied in der Wirksamkeit von Medikament und Placebo.
Die beiden Gruppen, in denen Daten erhoben werden, bezeichnen wir im Folgenden mit X und Y. Wir treffen die folgenden mathematischen Annahmen: In Gruppe X werden m Daten x_1,\ldots,x_m erhoben, die wir als Realisierungen von unabhängigen und identisch normalverteilten Zufallsvariablen X_1,\ldots,X_m mit unbekanntem Erwartungswert \mu_X und unbekannter Varianz \sigma^2 auffassen. In Gruppe Y werden n Daten y_1,\ldots,y_n erhoben, die wir als Realisierungen von unabhängigen und identisch normalverteilten Zufallsvariablen Y_1,\ldots,Y_n mit unbekanntem Erwartungswert \mu_Y und unbekannter Varianz \sigma^2 auffassen. Die Erwartungswerte \mu_X und \mu_Y können verschieden sein. Die Varianz \sigma^2 dagegen soll in beiden Gruppen gleich sein, weswegen wir sie auch nicht mit einem Index versehen. Außerdem nehmen wir an, dass alle Beobachtungen, egal ob sie zu Gruppe X oder zu Gruppe Y gehören, voneinander unabhängig sind.
Da wir an der Differenz der Erwartungswerte \mu_X-\mu_Y interessiert sind, bauen wir das Konfidenzintervall auf dem erwartungstreuen Schätzer \overline{X}_m-\overline{Y}_n auf. Da die Varianz unbekannt ist, studentisieren wir diese Differenz der Stichprobenmittel. Wir subtrahieren von \overline{X}_m-\overline{Y}_n also seinen Erwartungswert und dividieren anschließend durch einen erwartungstreuen Schätzer für die Varianz von \overline{X}_m-\overline{Y}_n.
Der Erwartungswert von \overline{X}_m-\overline{Y}_n ist aufgrund der Erwartungstreue \textsf{E}(\overline{X}_m-\overline{Y}_n)=\mu_X-\mu_Y. Die Varianz von \overline{X}_m-\overline{Y}_n ist aufgrund der Unabhängigkeit aller Zufallsvariablen \begin{align*} \textsf{Var}(\overline{X}_m-\overline{Y}_n) &=\textsf{Var}(\overline{X}_m)+\textsf{Var}(\overline{Y}_n)\\ &=\frac{\textsf{Var}(X_1)}{m}+\frac{\textsf{Var}(Y_1)}{n}\\ &=\frac{\sigma^2}{m}+\frac{\sigma^2}{n}\\ &=\left(\frac{1}{m}+\frac{1}{n}\right)\sigma^2. \end{align*} Die Standardisierung von \overline{X}_m-\overline{Y}_n ist dann \frac{\overline{X}_m-\overline{Y}_n-(\mu_X-\mu_Y)}{\sqrt{\frac{1}{m}+\frac{1}{n}}\sigma} \sim\textsf{N}(0,1). \tag{21}
Die Varianz ist aber unbekannt und daher wird studentisiert: Wir ersetzen \sigma^2 durch die sogenannte gepoolte Stichprobenvarianz S_{m,n}^2=\frac{(m-1)S_X^2+(n-1)S_Y^2}{m+n-2}, \tag{22} die ein gewichtetes Mittel der Stichprobenvarianzen S_X^2 und S_Y^2 und damit ein erwartungstreuer Schätzer für \sigma^2 ist. Die Studentisierung von \overline{X}_m-\overline{Y}_n ist also \frac{\overline{X}_m-\overline{Y}_n-(\mu_X-\mu_Y)}{\sqrt{\frac{1}{m}+\frac{1}{n}}S_{m,n}} \sim t_{m+n-2}. \tag{23}
Mit dieser Zufallsvariablen können wir nun ein Konfidenzintervall für die Differenz \mu_X-\mu_Y der Erwartungswerte in Gruppe X und Gruppe Y angeben.
Theorem 4 (Zweiseitiges Konfidenzintervall für \mu_X-\mu_Y)
Seien X_1,\ldots,X_m identisch \textsf{N}(\mu_X,\sigma^2)-verteilt und seien Y_1,\ldots,Y_n identisch \textsf{N}(\mu_Y,\sigma^2)-verteilt. Alle Zufallsvariablen seien unabhängig und alle Parameter seien unbekannt. Mit S_{m,n}^2 bezeichnen wir die gepoolte Stichprobenvarianz aus Gleichung 22 und für \beta\in(0,1) setzen wir c_{m,n,\alpha}=t_{m+n-2,1-\alpha/2}\sqrt{\frac{1}{m}+\frac{1}{n}}. Dann ist ein (1-\alpha)-Konfidenzintervall für \mu_X-\mu_Y gegeben durch \textsf{KI}_{1-\alpha} =[\overline{X}_m-\overline{Y}_n-c_{m,n,\alpha}S_{m,n},\overline{X}_m-\overline{Y}_n+c_{m,n,\alpha}S_{m,n}]. \tag{24}
Beweis. Wir schreiben das Ereignis, dass \textsf{KI}_{1-\alpha} aus Gleichung 24 die Differenz \mu_X-\mu_Y enthält, auf die studentisierte Differenz der Stichprobenmittel um, denn diese ist t_{m+n-2}-verteilt. Somit können wir die Wahrscheinlichkeit dieses Ereignisses berechnen: \begin{align*} &\quad P(\textsf{KI}_{1-\alpha}\ni\mu_X-\mu_Y)\\ &=P(\overline{X}_m-\overline{Y}_n-c_{m,n,\alpha}S_{m,n}\leq\mu_X-\mu_Y\leq\overline{X}_m-\overline{Y}_n+c_{m,n,\alpha}S_{m,n})\\ &=P(-c_{m,n,\alpha}S_{m,n}\leq\overline{X}_m-\overline{Y}_n-(\mu_X-\mu_Y)\leq c_{m,n,\alpha}S_{m,n})\\ &=P\left(-t_{m+n-2,1-\alpha/2}\leq\frac{\overline{X}_m-\overline{Y}_n-(\mu_X-\mu_Y)}{\sqrt{\frac{1}{m}+\frac{1}{n}}S_{m,n}}\leq t_{m+n-2,1-\alpha/2}\right)\\ &=F_{m+n-2}(t_{m+n-2,1-\alpha/2})-F_{m+n-2}(-t_{m+n-2,1-\alpha/2})\\ &=2F_{m+n-2}(t_{m+n-2,1-\alpha/2})-1\\ &=2(1-\alpha/2)-1\\ &=1-\alpha \end{align*} Somit ist \textsf{KI}_{1-\alpha} ein (1-\alpha)-Konfidenzintervall für \mu_X-\mu_Y.
Bei der wissenschaftlichen Untersuchung der Palmer-Pinguine lassen sich verschiedene Zweistichprobenprobleme formulieren: Pinguinkolonien von verschiedenen Inseln können verglichen oder geschlechterspezifische Unterschiede zwischen weiblichen und männlichen Pinguinen analysiert werden. In der folgenden Aufgabe dagegen geht es um die Schnabelmerkmale verschiedener Pinguinarten.
Aufgabe 10
Arbeiten Sie mit dem Datensatz penguins
aus dem Paket palmerpenguins
. Berechnen Sie ein 95\%-Konfidenzintervall für die mittlere Differenz der Schnabellänge bill_length_mm
zwischen Zügelpinguinen und Eselspinguinen, wenn die einzelnen Schnabellängen als normalverteilt mit gleicher Varianz angenommen werden.
Anmerkung.
In Theorem 4 werden drei Annahmen getroffen:
Ein Konfidenzintervall für die Differenz der Erwartungswerte berechnet man dann mit Gleichung 24. Weil dabei die gepoolte Stichprobenvarianz und Quantile einer t-Verteilung berechnet werden, spricht man auch vom gepoolten t-Intervall.
Wenn die Annahmen 1. und 2. zutreffen, aber die unbekannten Varianzen in beiden Stichproben verschieden sind (\sigma^2_X\neq\sigma^2_Y), dann berechnet man ein Konfidenzintervall für \mu_X-\mu_Y stattdessen mit dem sogenannten Welch t-Intervall, welches nach dem britischen Statistiker Bernard Lewis Welch benannt ist (siehe Seite 276 in Timischl 2013).
Werden die Messungen von X_i und Y_i beide an der i-ten Person oder am i-ten Objekt durchgeführt, hängen beide Stichproben voneinander ab und die Annahme 1. ist nicht erfüllt. In einer klinischen Studie könnten das beispielsweise die Blutwerte von Patient:innen sein, die vor und nach einer Behandlung gemessen werden. Man sagt, es liegen verbundene oder gepaarte Daten vor. In diesem Fall haben beide Stichproben denselben Umfang (m=n). Nimmt man an, dass die Differenzen D_i=X_i-Y_i für i=1,\ldots,n unabhängig und identisch normalverteilt mit unbekanntem Erwartungswert \mu_D und unbekannter Varianz \sigma^2_D sind, dann wird ein Konfidenzintervall für \mu_D wie in Theorem 2 berechnet. Man spricht von einem verbundenen t-Intervall.
In allen drei Fällen lässt sich ein Konfidenzintervall mit der R Funktion t.test()
berechnen, wenn deren Argumente paired
und var.equal
auf bestimmte Werte gesetzt werden:
t-Intervall | paired = |
var.equal = |
---|---|---|
gepooltes | FALSE |
TRUE |
Welch | FALSE |
FALSE |
verbundenes | TRUE |
Konfidenzintervalle ergänzen das Resultat einer Punktschätzung um eine Genauigkeitsangabe in Form eines Intervalls, das neben dem Schätzwert auch alle diejenigen Werte umfasst, die mit einer vorgegebenen Konfidenzwahrscheinlichkeit mit den gemessenen Daten vereinbar sind. Somit wird ein (1-\alpha)-Konfidenzintervall zu einem Schätzer, der aus einer zufallsbehafteten Stichprobe mit einer Wahrscheinlichkeit von 1-\alpha ein Intervall als Schätzwert ermittelt, das den wahren Parameter enthält. Je nach Fragestellung kann ein zweiseitiges oder ein einseitiges Konfidenzintervall berechnet werden.
Bei normalverteilten Daten mit unbekannter Varianz lassen sich Formeln für Konfidenzintervalle herleiten. Im Einstichprobenproblem beruhen Konfidenzintervalle für den Erwartungswert bzw. die Varianz auf der t-Verteilung bzw. der Chi-Quadrat-Verteilung. Im Zweistichprobenproblem beruht ein Konfidenzintervall für die Differenz der Erwartungswerte ebenfalls auf der t-Verteilung, wobei unterschieden werden muss, ob unverbundene Daten mit gleicher bzw. verschiedener Varianz in jeder Gruppe vorliegen, oder ob die Daten verbunden sind.
Die Breite eines Konfidenzintervalls hängt qualitativ vom Stichprobenumfang und von der Konfidenzwahrscheinlichkeit ab. Je größer der Stichprobenumfang, desto schmaler ist das Konfidenzintervall. Je größer die Konfidenzwahrscheinlichkeit, also je kleiner die Irrtumswahrscheinlichkeit, desto breiter ist das Konfidenzintervall.
Die Lerneinheit “Schätztheorie – Konfidenzintervalle” wurde von Axel Bücher, Kathrin Möllenhoff und Christian Müller an der Heinrich-Heine-Universität Düsseldorf entwickelt. Es ist lizenziert unter der CC-BY-SA 4.0 Lizenz und ist verfügbar auf ORCA.nrw.