install.packages("palmerpenguins")
install.packages("compositions")
Lernziele: Am Ende des Kapitels können Sie
- den Gauss-Test in R anwenden
- die Ergebnisse interpretieren
1 Einführung
Sei X_1,...,X_n eine Stichprobe einer normalverteilten Zufallsvariable mit unbekanntem Mittelwert \mu und als bekannt angenommener Varianz \sigma^2: X_i \stackrel{i.i.d.}{\sim} N(\mu,\sigma^2) \tag{1.1} Wir interessieren uns für den Test der Nullhypothese H_0:\mu \leq \mu_0 \text{ versus } H_1:\mu > \mu_0 \tag{1.2} für ein festes \mu_0 \in \mathbb{R}, etwa \mu_0 = 0. Dieses Testproblem tritt etwa auf, wenn ein Produkthersteller bei der Qualitätskontrolle aus Kostengründen nur eine Stichprobe der fertigen Produkte untersuchen kann. Weiter muss bekannt sein, dass das gemessene Merkmal des Produkts, das Auskunft über dessen Qualität gibt, normalverteilt ist. Der Produkthersteller möchte sicherstellen, dass die durchschnittliche Qualität der insgesamt produzierten Artikel größer als \mu_0 ist.
Anmerkung (Annahmen und deren Realitätsnähe). Die Annahme das die Varianz \sigma^2 bekannt ist, ist in fast allen Fällen in der Praxis unrealistisch. Daher setzt man statt des Gauss-Tests häufig eher den t-test ein, welcher in einem separaten Kapitel behandelt wird. Der Gauss-Test eignet sich jedoch gut, um die Grundideen des statistischen Tests nachzuvollziehen und dient damit als ideale Einführung in die Thematik.
2 Idee des Gausstests
Das Stichprobenmittel \bar{X} ist der Maximum-Likelihood-Schätzer für den Parameter \mu und kann daher benutzt werden, um grob einzuschätzen ob die Null- oder Alternativhypothese zutrifft. Dieses grobe Einschätzen wird durch die Herleitung der Teststatistik im Gauss-Test präzisiert und erlaubt es, die Fehlerwahrscheinlichkeiten bei einer Testentscheidung zu beschränken.
Ist etwa \bar{X} größer als \mu_0, so ist dies ein Indiz dafür das H_1:\mu > \mu_0 wahr ist. Um die Teststatistik herzuleiten starten wir daher mit \bar{X}, und verwerfen H_0 für große Werte von \bar{X}. Die sogenannte kritische Region des Tests hat daher die Form
K:= \{(x_1,...,x_n):\bar{x} \geq c\}
für ein vorher festgelegtes c. Die zentrale Frage ist, wie groß c gewählt werden muss um Vertrauen in die Korrektheit der Alternativhypothese H_1:\mu > \mu_0 zu haben, wenn die Daten \bar{x} \geq c liefern. Vertrauen kann hier näher präzisiert werden: Wir verlangen, dass wir im obigen Fall eine hinreichend kleine Wahrscheinlichkeit haben, einen Fehler 1. Art zu machen, also H_0 fälschlicherweise zu verwerfen.
3 Niveau und Trennschärfe eines Tests
Allgemeiner kann man folgende Überlegung anstellen: Testet man H_0:\theta \in \Theta_0 gegen H_1:\theta \in \Theta_1 und der wahre Parameter \theta liegt in \Theta_0, so ist H_0 wahr. Beobachtet man in diesem Fall Daten x\in K, verwirft man H_0 fälschlicherweise und begeht einen Fehler 1. Art. Ein guter Test sollte daher folgende Eigenschaft haben: Die Wahrscheinlichkeit P_{\theta}(X \in K) sollte klein sein, falls \theta \in \Theta_0. Ist hingegen \theta \in \Theta_1, so sollte die Wahrscheinlichkeit groß sein, da man H_0 korrekterweise verwerfen möchte falls H_1 wahr ist. Die Qualität eines Tests lässt sich damit mit der Funktion \theta \mapsto P_{\theta}(X\in K) messen.
Definition 3.1 (Gütefunktion eines statistischen Tests) Die Gütefunktion eines statistischen Tests mit kritscher Region K ist definiert als \theta \mapsto \pi(\theta;K)=P_{\theta}(X \in K)
Um die Fehlerwahrscheinlichkeit für einen Fehler 1. Art zu quantifizieren, führt man das Niveau eines Tests wie folgt ein:
Definition 3.2 (Niveau eines statistischen Tests) Das Niveau eines statistischen Tests mit kritischer Region K und Gütefunktion \pi(\cdot\ ;K) ist definiert als \alpha := \sup\limits_{\theta \in \Theta_0} \pi(\theta;K) Ein Test hat das Signifikanzniveau oder Niveau \alpha_0, falls \alpha \leq \alpha_0.
Die Asymmetrie zwischen H_0 und H_1 wird nun formalisiert, indem man sich zunächst auf den Fehler 1. Art konzentriert. Dazu fordert man, dass diese Fehlerwahrscheinlichkeit auf eine vorgegebene Schranke \alpha_0 beschränkt wird.
Anmerkung (Konvention 1). Sei ein festes \alpha_0 vorgegeben. Wir verwenden dann ausschließlich Tests mit Signifikanzniveau \alpha_0. Mit anderen Worten erlauben wir nur die Verwendung von Tests, dessen Gütefunktion \pi(\cdot\ ;K) unter der Nullhypothese H_0 maximal den Wert \alpha_0 annimmt: \sup\limits_{\theta \in \Theta_0} \pi(\theta;K) \leq \alpha_0
Aufgabe 3.1 (Quiz) Überlegen Sie sich einen Moment, wieso es nicht hilft \alpha_0 einfach sehr klein zu wählen. Könnte man dadurch nicht die Wahrscheinlichkeit für einen Fehler 1. Art nahezu vollständig eliminieren?
Bevor wir die Teststatistik im Gausstest herleiten, führen wir noch folgende Konvention ein:
Anmerkung (Konvention 2). Für ein fest vorgegebenes Niveau \alpha_0 bevorzugen wir einen Test zum Niveau \alpha_0 mit der größtmöglichen Güte \pi(\theta;K) für \theta \in \Theta_1.
Obige Konvention drückt aus, dass wir bei kontrolliertem Fehler 1. Art zum Niveau \alpha den Test verwenden, der am ehesten H_0 verwirft, sofern \theta \in \Theta_1 ist.
Wir bevorzugen also einen Test mit kritischer Region K_1 über einen Test mit kritischer Region K_2 sofern
\pi(\theta;K_1)> \pi(\theta;K_2) für mindestens ein \theta \in \Theta_1 erfüllt ist, und nennen einen solchen Test dann besser. Hält die obige Ungleichung für alle \theta \in \Theta_1, so nennen wir den Test gleichmäßig besser. In der Praxis sucht man nach dem Test, dessen Gütefunktion maximal (für ein vorgegebenes \alpha_0) für alle \theta \in \Theta_1 ist. Solch einen Test nennen wir gleichmäßig bester Test (Rüschendorf 2014).
4 Herleitung der Teststatistik
Wir kehren nun zum Testproblem in Gleichung 1.2 zurück und leiten eine geeignete Teststatistik her. Dazu standardisieren wir \bar{X} zunächst, indem wir \mu_0 subtrahieren: T:=\bar{X}-\mu_0 \tag{4.1}
Aufgabe 4.1 (Arbeitsauftrag) Zeigen Sie, dass T aus Gleichung 4.1 den unter P_{\mu_0} den Erwartungswert \mathbb{E}_{\mu_0}[T]=0 hat.
Gleichung 4.1 ist ein erster Ansatz, jedoch möchten wir gerne eine Teststatistik die einer bekannten Verteilung folgt. Bisher hat T nur Erwartungswert 0 unter P_{\mu_0}. Daher standardisieren wir Gleichung 4.1 noch geeignet:
T:=\sqrt{n}\frac{\bar{X}-\mu_0}{\sigma} \tag{4.2}
Man kann leicht mit Hilfe des zentralen Grenzwertsatzes oder den Eigenschaften von Summen normalverteilter Zufallsvariablen zeigen, dass T aus Gleichung 4.2 N(0,1)-verteilt ist. Die Idee ist nun, die kritische Region K gerade so zu wählen, dass wir unter Annahme von H_0:\mu \leq \mu_0 das Niveau \alpha_0 einhalten. Wir wählen die kritische Region K daher von der Form
K:=\{(x_1,...,x_n):T \geq c_{\alpha_0}\} \tag{4.3} für ein von \alpha_0 abhängiges c_{\alpha_0}. Da wir wissen, dass T aus Gleichung 4.2 N(0,1)-verteilt ist, können wir dieses c_{\alpha_0} nun ganz einfach als das 1-\alpha_0-Quantil \xi_{1-\alpha} der N(0,1)-Verteilung wählen. Das heißt, wir verwerfen H_0:\mu \leq \mu_0, falls T\geq \xi_{1-\alpha_0}. Unter Annahme von H_0 ist T\geq \xi_{1-\alpha_0} gerade mit Wahrscheinlichkeit \alpha_0, und somit gilt
P_{\mu_0}(X\in K)=P_{\mu_0}(T \geq \xi_{1-\alpha_0})=\alpha_0 und wir erfüllen Konvention 1.
Man kann zeigen, dass der Gausstest mit Teststatistik in Gleichung 4.2 und kritischer Region K wie in Gleichung 4.3 tatsächlich ein gleichmäßig bester Test ist. Ändert man jedoch das Testproblem auf den Test
H_0: \mu = \mu_0 \text{ versus } H_1:\mu \neq \mu_0 für ein fest gewähltes \mu_0 \in \mathbb{R}, so ist der Gausstest lediglich noch gleichmäßig bester Test in der Klasse aller unverfälschter Tests.
5 Anwendungsbeispiel
Wir verwenden nun einen Datensatz von Gorman, Williams, und Fraser (2014), der Daten zu drei verschiedenen antarktischen Pinguinarten enthält. Diese wurden 2007-2009 von Dr. Kristen Gorman im Rahmen des Palmer Station Long Term Ecological Research Program gesammelt und aufbereitet.
Beispiel 5.1 (Anwendungsbeispiel - Schnabellänge von Adelie-Pinguinen) Wir nehmen an, dass das Team von Gorman, Williams, und Fraser (2014) im Rahmen der Messungen antarktischer Pinguine daran interessiert ist, die durchschnittliche Schnabellänge von Pinguinen der Spezies Adelie zu untersuchen. Frühere Messungen haben ergeben, dass diese Pinguine im Schnitt eine Schnabellänge von \mu_0=38.8 Millimeter haben. Wir möchten nun einen statistischen Test mit Hilfe der Daten der Palmer Station durchführen um
H_0:\mu \leq \mu_0 \text{ versus } H_1:\mu > \mu_0 zu testen. Anschaulich gesprochen wollen wir überprüfen, ob sich die durchschnittliche Schnabellänge der Adelie-Pinguine seit den letzten Erhebungen verlängert hat. Wir setzen hierbei voraus, dass \sigma^2 = 1.5 ist.
Zunächst installieren und laden wir dazu das R-Paket palmerpenguins
. Zusätzlich installieren wir das R-Paket compositions
, da dieses den Gausstest beinhaltet.
Anschließend laden wir den Datensatz, wobei wir elf Pinguine entfernen die unvollständige Messungen enthalten. Zusätzlich laden wir die Pakete ggplot2
zur Visualisierung und dplyr
zum Filtern des Datensatzes.
library(palmerpenguins)
library(dplyr)
library(ggplot2)
library(dplyr)
library(compositions)
theme_set(theme_minimal())
<- na.omit(penguins)
penguins head(penguins)
str(penguins)
tibble [333 × 8] (S3: tbl_df/tbl/data.frame)
$ species : Factor w/ 3 levels "Adelie","Chinstrap",..: 1 1 1 1 1 1 1 1 1 1 ...
$ island : Factor w/ 3 levels "Biscoe","Dream",..: 3 3 3 3 3 3 3 3 3 3 ...
$ bill_length_mm : num [1:333] 39.1 39.5 40.3 36.7 39.3 38.9 39.2 41.1 38.6 34.6 ...
$ bill_depth_mm : num [1:333] 18.7 17.4 18 19.3 20.6 17.8 19.6 17.6 21.2 21.1 ...
$ flipper_length_mm: int [1:333] 181 186 195 193 190 181 195 182 191 198 ...
$ body_mass_g : int [1:333] 3750 3800 3250 3450 3650 3625 4675 3200 3800 4400 ...
$ sex : Factor w/ 2 levels "female","male": 2 1 1 1 2 1 2 1 2 2 ...
$ year : int [1:333] 2007 2007 2007 2007 2007 2007 2007 2007 2007 2007 ...
- attr(*, "na.action")= 'omit' Named int [1:11] 4 9 10 11 12 48 179 219 257 269 ...
..- attr(*, "names")= chr [1:11] "4" "9" "10" "11" ...
Der Datensatz enthält Messungen zu 344 Penguinen der Spezies Adelie, Chinstrap und und Gentoo. Die 344 Pinguine wurden auf drei verschiedenen Inseln Biscoe, Dream und Torgersen gesichtet, und die erhobenen Variablen sind
Die Schnabellänge
bill_length_mm
in MillimeternDie Schnabeldicke
bill_depth_mm
in MillimeternDie Flossenlänge
flipper_length_mm
in MillimeternDas Gewicht
body_mass_g
in GrammDas Geschlecht
sex
Das Jahr
year
wann der Pinguin gesichtet und vermessen wurde
Abbildung 5.1 veranschaulicht die gemessenen Abschnitte.1 Zunächst überprüfen wir mittels eines Quantil-Quantil-Plots, ob die Verteilungsannahme in Gleichung 1.1 angemessen scheint.
<- penguins %>% filter(species == "Adelie")
adelie qqnorm(adelie$bill_length_mm, pch = 1, frame = FALSE)
qqline(adelie$bill_length_mm, col = "steelblue", lwd = 2)
Abbildung 5.2 zeigt, dass die Normalverteilungsannahme gerechtfertigt ist.
%>%
-Operator und der filter
Funktion jeweils den Originaldatensatz penguins
filtern können. Es werden all diejenigen Reihen im Datensatz zurückgeliefert, die die in den Klammern angegebene Bedingung erfüllen. Analog kann man anstatt filter
die select
Funktion verwenden, um bestimmte Spalten des Datensatzes auszuwählen.Die folgende R-Funktion implementiert den Gausstest entsprechend Gleichung 4.3:
<- function(X, mu0, sigma){
gauss.test <- sqrt(length(X)) * ((mean(X) - mu0) / sigma)
T
T }
Aufgabe 5.1 (Arbeitsauftrag)
Wenden Sie den Gausstest entsprechend den im obigen Anwendungsbeispieltext gegebenen Parametern mit Hilfe der Funktion
gauss.test
an. Welche Teststatistik ergibt sich?Berechnen Sie auf Basis der von der Funktion
gauss.test
berechneten Teststatistik T den zugehörigen p-Wert.
Die Lösung zu Arbeitsauftrag 3 zeigt, dass wir die Nullhypothese H_0:\mu \leq 38.8 verwerfen, da T\in K, bzw. p<\alpha_0 gilt.
Aufgabe 5.2 (Arbeitsauftrag) Das Forschungsteam hat sich entschlossen, die Schnabeldicke der Gentoo-Pinguine zusätzlich zu untersuchen. Es steht die Vermutung im Raum, dass sich die Schnabeldicke (neben anderen physiologischen Eigenschaften) innerhalb der Jahre 2007 und 2009 durch den Klimawandel geändert hat. Nehmen Sie \sigma = 1.5 an und testen Sie H_0:\mu \leq \mu_0 \text{ versus } H_1:\mu > \mu_0 für die Gentoo-Pinguine die 2009 vermessen wurden, wobei Sie \mu_0 als das Stichprobenmittel der Schnabeldicken von Gentoo-Pinguinen verwenden, welche 2007 vermessen wurden.
6 Statistische Signifikanz und praktische Relevanz
Wenn man mittels
mean(adelie$bill_length_mm)
[1] 38.82397
einmal den Stichprobenmittelwert der Schnabellänge der Adelie-Pinguine berechnet, stellt man fest das dieser sehr nah an \mu_0=38.8 ist. Das beobachtete Stichprobenmittel unterscheidet sich also nur geringfügig von \mu_0, und intuitiv erscheint dies als kein starkes Indiz gegen die Gültigkeit von H_0:\mu \leq \mu_0. Ein häufig bemängeltes Problem des Konzepts der statistischen Signifikanz bei Hypothesentests ist, dass für hinreichend große Stichproben (hier 137 Adelie-Pinguine) selbst sehr kleine Unterschiede (hier \bar{X}-\mu_0) zur Ablehnung von H_0 führen (Rao und Lovric 2016).
Mathematisch wird dies daran deutlich, dass
\sqrt{n}\frac{\bar{X}-\mu_0}{\sigma} für festes \bar{X}, \mu_0 und \sigma für n\rightarrow \infty mit Sicherheit zur Verwerfung von H_0 führt. Ob ein statistisch signifikantes Resultat praktische bzw. wissenschaftliche Relevanz hat, lässt sich mit Hilfe eines Hypothesentests nicht beantworten.
Im Anwendungsbeispiel beträgt der gemessene Unterschied zwischen \bar{X} und \mu_0 weniger als 1 Millimeter und besitzt wohl kaum praktische Relevanz.
7 Zusammenfassung
In diesem Kapitel haben Sie den Gauss-Test als einführendes Beispiel für einen parametrischen Hypothesentest kennengelernt. Grundlegende Konzepte wie das Niveau und die Teststatistik des Gausstests wurden motiviert und hergeleitet. Ein praktisches Anwendungsbeispiel hat illustriert wie man den Test in R anwenden kann, und welche Aspekte bei der Interpretation eines Testergebnisses zu berücksichtigen sind.
Lösungen der Aufgaben
Lizenz
Diese lerneinheit “Statistische Hypothesentests” wurde von Riko Kelter, Alexander Schurr und Susanne Spies unter Mithilfe von Annika Hirth an der Universität Siegen entwickelt. Es ist lizenziert unter der CC-BY-SA 4.0 Lizenz und ist verfügbar auf ORCA.nrw.
Literatur
Fußnoten
Grafik von Allison Horst, frei verfügbar unter https://allisonhorst.github.io/palmerpenguins/articles/art.html↩︎