Eine Einführung in statistische Hypothesentests – Der Gauss-Test

Zusammenfassung
Wir behandeln in diesem Kapitel den Gauss-Test als einführendes Beispiel für einen parametrischen Hypothesentest. Die Herleitung der Teststatistik sowie praktische Beispiele veranschaulichen wie der Test in R angewendet wird.

Lernziele: Am Ende des Kapitels können Sie

  • den Gauss-Test in R anwenden
  • die Ergebnisse interpretieren

1 Einführung

Sei X_1,...,X_n eine Stichprobe einer normalverteilten Zufallsvariable mit unbekanntem Mittelwert \mu und als bekannt angenommener Varianz \sigma^2: X_i \stackrel{i.i.d.}{\sim} N(\mu,\sigma^2) \tag{1.1} Wir interessieren uns für den Test der Nullhypothese H_0:\mu \leq \mu_0 \text{ versus } H_1:\mu > \mu_0 \tag{1.2} für ein festes \mu_0 \in \mathbb{R}, etwa \mu_0 = 0. Dieses Testproblem tritt etwa auf, wenn ein Produkthersteller bei der Qualitätskontrolle aus Kostengründen nur eine Stichprobe der fertigen Produkte untersuchen kann. Weiter muss bekannt sein, dass das gemessene Merkmal des Produkts, das Auskunft über dessen Qualität gibt, normalverteilt ist. Der Produkthersteller möchte sicherstellen, dass die durchschnittliche Qualität der insgesamt produzierten Artikel größer als \mu_0 ist.

Anmerkung (Annahmen und deren Realitätsnähe). Die Annahme das die Varianz \sigma^2 bekannt ist, ist in fast allen Fällen in der Praxis unrealistisch. Daher setzt man statt des Gauss-Tests häufig eher den t-test ein, welcher in einem separaten Kapitel behandelt wird. Der Gauss-Test eignet sich jedoch gut, um die Grundideen des statistischen Tests nachzuvollziehen und dient damit als ideale Einführung in die Thematik.

2 Idee des Gausstests

Das Stichprobenmittel \bar{X} ist der Maximum-Likelihood-Schätzer für den Parameter \mu und kann daher benutzt werden, um grob einzuschätzen ob die Null- oder Alternativhypothese zutrifft. Dieses grobe Einschätzen wird durch die Herleitung der Teststatistik im Gauss-Test präzisiert und erlaubt es, die Fehlerwahrscheinlichkeiten bei einer Testentscheidung zu beschränken.

Ist etwa \bar{X} größer als \mu_0, so ist dies ein Indiz dafür das H_1:\mu > \mu_0 wahr ist. Um die Teststatistik herzuleiten starten wir daher mit \bar{X}, und verwerfen H_0 für große Werte von \bar{X}. Die sogenannte kritische Region des Tests hat daher die Form

K:= \{(x_1,...,x_n):\bar{x} \geq c\}

für ein vorher festgelegtes c. Die zentrale Frage ist, wie groß c gewählt werden muss um Vertrauen in die Korrektheit der Alternativhypothese H_1:\mu > \mu_0 zu haben, wenn die Daten \bar{x} \geq c liefern. Vertrauen kann hier näher präzisiert werden: Wir verlangen, dass wir im obigen Fall eine hinreichend kleine Wahrscheinlichkeit haben, einen Fehler 1. Art zu machen, also H_0 fälschlicherweise zu verwerfen.

3 Niveau und Trennschärfe eines Tests

Allgemeiner kann man folgende Überlegung anstellen: Testet man H_0:\theta \in \Theta_0 gegen H_1:\theta \in \Theta_1 und der wahre Parameter \theta liegt in \Theta_0, so ist H_0 wahr. Beobachtet man in diesem Fall Daten x\in K, verwirft man H_0 fälschlicherweise und begeht einen Fehler 1. Art. Ein guter Test sollte daher folgende Eigenschaft haben: Die Wahrscheinlichkeit P_{\theta}(X \in K) sollte klein sein, falls \theta \in \Theta_0. Ist hingegen \theta \in \Theta_1, so sollte die Wahrscheinlichkeit groß sein, da man H_0 korrekterweise verwerfen möchte falls H_1 wahr ist. Die Qualität eines Tests lässt sich damit mit der Funktion \theta \mapsto P_{\theta}(X\in K) messen.

Definition 3.1 (Gütefunktion eines statistischen Tests) Die Gütefunktion eines statistischen Tests mit kritscher Region K ist definiert als \theta \mapsto \pi(\theta;K)=P_{\theta}(X \in K)

Um die Fehlerwahrscheinlichkeit für einen Fehler 1. Art zu quantifizieren, führt man das Niveau eines Tests wie folgt ein:

Definition 3.2 (Niveau eines statistischen Tests) Das Niveau eines statistischen Tests mit kritischer Region K und Gütefunktion \pi(\cdot\ ;K) ist definiert als \alpha := \sup\limits_{\theta \in \Theta_0} \pi(\theta;K) Ein Test hat das Signifikanzniveau oder Niveau \alpha_0, falls \alpha \leq \alpha_0.

Die Asymmetrie zwischen H_0 und H_1 wird nun formalisiert, indem man sich zunächst auf den Fehler 1. Art konzentriert. Dazu fordert man, dass diese Fehlerwahrscheinlichkeit auf eine vorgegebene Schranke \alpha_0 beschränkt wird.

Anmerkung (Konvention 1). Sei ein festes \alpha_0 vorgegeben. Wir verwenden dann ausschließlich Tests mit Signifikanzniveau \alpha_0. Mit anderen Worten erlauben wir nur die Verwendung von Tests, dessen Gütefunktion \pi(\cdot\ ;K) unter der Nullhypothese H_0 maximal den Wert \alpha_0 annimmt: \sup\limits_{\theta \in \Theta_0} \pi(\theta;K) \leq \alpha_0

In der Praxis wird sehr häufig das Signifikanzniveau \alpha_0 = 0.05 gewählt. Dies hat hauptsächlich historische Gründe und keine mathematischen. Kritisch ist hier insbesondere, dass unter dieser Annahme die Wahrscheinlichkeit für ein falsch-positives Resultat bei mehrfachem Testen sehr groß werden kann (Ioannidis 2005). In den letzten Jahren gab es daher gehäuft Kritik an dem hier vorgestellten frequentistischen Ansatz, Hypothesen zu testen (Halsey 2019), siehe auch Benjamin u. a. (2018). Alternativen bieten unter anderem sogenannte Bayesianische Hypothesentests Kelter (2020).

Aufgabe 3.1 (Quiz) Überlegen Sie sich einen Moment, wieso es nicht hilft \alpha_0 einfach sehr klein zu wählen. Könnte man dadurch nicht die Wahrscheinlichkeit für einen Fehler 1. Art nahezu vollständig eliminieren?

Bevor wir die Teststatistik im Gausstest herleiten, führen wir noch folgende Konvention ein:

Anmerkung (Konvention 2). Für ein fest vorgegebenes Niveau \alpha_0 bevorzugen wir einen Test zum Niveau \alpha_0 mit der größtmöglichen Güte \pi(\theta;K) für \theta \in \Theta_1.

Obige Konvention drückt aus, dass wir bei kontrolliertem Fehler 1. Art zum Niveau \alpha den Test verwenden, der am ehesten H_0 verwirft, sofern \theta \in \Theta_1 ist.

Wir bevorzugen also einen Test mit kritischer Region K_1 über einen Test mit kritischer Region K_2 sofern

\pi(\theta;K_1)> \pi(\theta;K_2) für mindestens ein \theta \in \Theta_1 erfüllt ist, und nennen einen solchen Test dann besser. Hält die obige Ungleichung für alle \theta \in \Theta_1, so nennen wir den Test gleichmäßig besser. In der Praxis sucht man nach dem Test, dessen Gütefunktion maximal (für ein vorgegebenes \alpha_0) für alle \theta \in \Theta_1 ist. Solch einen Test nennen wir gleichmäßig bester Test (Rüschendorf 2014).

In der Literatur findet man vielfach die englischen bezeichnungen more powerful, uniformly more powerful und uniformly most powerful, statt besser, gleichmäßig besser und gleichmäßig bester.

4 Herleitung der Teststatistik

Wir kehren nun zum Testproblem in Gleichung 1.2 zurück und leiten eine geeignete Teststatistik her. Dazu standardisieren wir \bar{X} zunächst, indem wir \mu_0 subtrahieren: T:=\bar{X}-\mu_0 \tag{4.1}

Aufgabe 4.1 (Arbeitsauftrag) Zeigen Sie, dass T aus Gleichung 4.1 den unter P_{\mu_0} den Erwartungswert \mathbb{E}_{\mu_0}[T]=0 hat.

Schreiben Sie zunächst \mathbb{E}_{\mu_0}[T] wie folgt um: \mathbb{E}_{\mu_0}[T]=\mathbb{E}_{\mu_0}[\bar{X}-\mu_0] Setzen Sie nun \bar{X}:=\frac{1}{n}\sum_{i=1}^n X_i ein und verwenden Gleichung 1.1.

Gleichung 4.1 ist ein erster Ansatz, jedoch möchten wir gerne eine Teststatistik die einer bekannten Verteilung folgt. Bisher hat T nur Erwartungswert 0 unter P_{\mu_0}. Daher standardisieren wir Gleichung 4.1 noch geeignet:

T:=\sqrt{n}\frac{\bar{X}-\mu_0}{\sigma} \tag{4.2}

Man kann leicht mit Hilfe des zentralen Grenzwertsatzes oder den Eigenschaften von Summen normalverteilter Zufallsvariablen zeigen, dass T aus Gleichung 4.2 N(0,1)-verteilt ist. Die Idee ist nun, die kritische Region K gerade so zu wählen, dass wir unter Annahme von H_0:\mu \leq \mu_0 das Niveau \alpha_0 einhalten. Wir wählen die kritische Region K daher von der Form

Eine ausführliche Herleitung hiervon finden Sie zum Beispiel in Kapitel 4 in Bijma u. a. (2017).

K:=\{(x_1,...,x_n):T \geq c_{\alpha_0}\} \tag{4.3} für ein von \alpha_0 abhängiges c_{\alpha_0}. Da wir wissen, dass T aus Gleichung 4.2 N(0,1)-verteilt ist, können wir dieses c_{\alpha_0} nun ganz einfach als das 1-\alpha_0-Quantil \xi_{1-\alpha} der N(0,1)-Verteilung wählen. Das heißt, wir verwerfen H_0:\mu \leq \mu_0, falls T\geq \xi_{1-\alpha_0}. Unter Annahme von H_0 ist T\geq \xi_{1-\alpha_0} gerade mit Wahrscheinlichkeit \alpha_0, und somit gilt

P_{\mu_0}(X\in K)=P_{\mu_0}(T \geq \xi_{1-\alpha_0})=\alpha_0 und wir erfüllen Konvention 1.

Man kann zeigen, dass der Gausstest mit Teststatistik in Gleichung 4.2 und kritischer Region K wie in Gleichung 4.3 tatsächlich ein gleichmäßig bester Test ist. Ändert man jedoch das Testproblem auf den Test

H_0: \mu = \mu_0 \text{ versus } H_1:\mu \neq \mu_0 für ein fest gewähltes \mu_0 \in \mathbb{R}, so ist der Gausstest lediglich noch gleichmäßig bester Test in der Klasse aller unverfälschter Tests.

Ein Test mit kritischer Region K ist ein unverfälschter Test zum Niveau \alpha_0, wenn \pi(\theta_0;K)\leq \alpha_0 \leq \pi(\theta_1;K) für alle \theta_0 \in \Theta_0 und alle \theta_1 \in \Theta_1 gilt, also die Trennschärfe bzw. Güte des Tests unter H_1 mindestens so groß wie unter H_0 ist. Praktisch gesprochen verwirft man, wenn H_1 wahr ist, die Nullhypothese H_0 mindestens mit derselben Wahrscheinlichkeit wie wenn H_0 wahr ist.

5 Anwendungsbeispiel

Wir verwenden nun einen Datensatz von Gorman, Williams, und Fraser (2014), der Daten zu drei verschiedenen antarktischen Pinguinarten enthält. Diese wurden 2007-2009 von Dr. Kristen Gorman im Rahmen des Palmer Station Long Term Ecological Research Program gesammelt und aufbereitet.

Beispiel 5.1 (Anwendungsbeispiel - Schnabellänge von Adelie-Pinguinen) Wir nehmen an, dass das Team von Gorman, Williams, und Fraser (2014) im Rahmen der Messungen antarktischer Pinguine daran interessiert ist, die durchschnittliche Schnabellänge von Pinguinen der Spezies Adelie zu untersuchen. Frühere Messungen haben ergeben, dass diese Pinguine im Schnitt eine Schnabellänge von \mu_0=38.8 Millimeter haben. Wir möchten nun einen statistischen Test mit Hilfe der Daten der Palmer Station durchführen um

H_0:\mu \leq \mu_0 \text{ versus } H_1:\mu > \mu_0 zu testen. Anschaulich gesprochen wollen wir überprüfen, ob sich die durchschnittliche Schnabellänge der Adelie-Pinguine seit den letzten Erhebungen verlängert hat. Wir setzen hierbei voraus, dass \sigma^2 = 1.5 ist.

Zunächst installieren und laden wir dazu das R-Paket palmerpenguins. Zusätzlich installieren wir das R-Paket compositions, da dieses den Gausstest beinhaltet.

install.packages("palmerpenguins")
install.packages("compositions")

Anschließend laden wir den Datensatz, wobei wir elf Pinguine entfernen die unvollständige Messungen enthalten. Zusätzlich laden wir die Pakete ggplot2 zur Visualisierung und dplyr zum Filtern des Datensatzes.

library(palmerpenguins)
library(dplyr)
library(ggplot2)
library(dplyr)
library(compositions)
theme_set(theme_minimal())
penguins <- na.omit(penguins)
head(penguins)
str(penguins)
tibble [333 × 8] (S3: tbl_df/tbl/data.frame)
 $ species          : Factor w/ 3 levels "Adelie","Chinstrap",..: 1 1 1 1 1 1 1 1 1 1 ...
 $ island           : Factor w/ 3 levels "Biscoe","Dream",..: 3 3 3 3 3 3 3 3 3 3 ...
 $ bill_length_mm   : num [1:333] 39.1 39.5 40.3 36.7 39.3 38.9 39.2 41.1 38.6 34.6 ...
 $ bill_depth_mm    : num [1:333] 18.7 17.4 18 19.3 20.6 17.8 19.6 17.6 21.2 21.1 ...
 $ flipper_length_mm: int [1:333] 181 186 195 193 190 181 195 182 191 198 ...
 $ body_mass_g      : int [1:333] 3750 3800 3250 3450 3650 3625 4675 3200 3800 4400 ...
 $ sex              : Factor w/ 2 levels "female","male": 2 1 1 1 2 1 2 1 2 2 ...
 $ year             : int [1:333] 2007 2007 2007 2007 2007 2007 2007 2007 2007 2007 ...
 - attr(*, "na.action")= 'omit' Named int [1:11] 4 9 10 11 12 48 179 219 257 269 ...
  ..- attr(*, "names")= chr [1:11] "4" "9" "10" "11" ...

Der Datensatz enthält Messungen zu 344 Penguinen der Spezies Adelie, Chinstrap und und Gentoo. Die 344 Pinguine wurden auf drei verschiedenen Inseln Biscoe, Dream und Torgersen gesichtet, und die erhobenen Variablen sind

  • Die Schnabellänge bill_length_mm in Millimetern

  • Die Schnabeldicke bill_depth_mm in Millimetern

  • Die Flossenlänge flipper_length_mm in Millimetern

  • Das Gewicht body_mass_g in Gramm

  • Das Geschlecht sex

  • Das Jahr year wann der Pinguin gesichtet und vermessen wurde

Abbildung 5.1: Schnabellänge und -dicke von Pinguinen, Grafik von Allison Horst

Abbildung 5.1 veranschaulicht die gemessenen Abschnitte.1 Zunächst überprüfen wir mittels eines Quantil-Quantil-Plots, ob die Verteilungsannahme in Gleichung 1.1 angemessen scheint.

adelie <- penguins %>% filter(species == "Adelie")
qqnorm(adelie$bill_length_mm, pch = 1, frame = FALSE)
qqline(adelie$bill_length_mm, col = "steelblue", lwd = 2)
Abbildung 5.2: Quantil-Quantil-Plot für die Schnabellänge von Adelie-Pinguinen

Abbildung 5.2 zeigt, dass die Normalverteilungsannahme gerechtfertigt ist.

Beachten Sie, dass Sie mit dem %>%-Operator und der filter Funktion jeweils den Originaldatensatz penguins filtern können. Es werden all diejenigen Reihen im Datensatz zurückgeliefert, die die in den Klammern angegebene Bedingung erfüllen. Analog kann man anstatt filter die select Funktion verwenden, um bestimmte Spalten des Datensatzes auszuwählen.

Die folgende R-Funktion implementiert den Gausstest entsprechend Gleichung 4.3:

gauss.test <- function(X, mu0, sigma){
  T <- sqrt(length(X)) * ((mean(X) - mu0) / sigma)
  T
}

Aufgabe 5.1 (Arbeitsauftrag)  

  1. Wenden Sie den Gausstest entsprechend den im obigen Anwendungsbeispieltext gegebenen Parametern mit Hilfe der Funktion gauss.test an. Welche Teststatistik ergibt sich?

  2. Berechnen Sie auf Basis der von der Funktion gauss.test berechneten Teststatistik T den zugehörigen p-Wert.

Sie können für das Argument X in der Funktion adelie$bill_length_mm verwenden. Die Werte für mu0 und sigma können Sie dem Text im Anwendungsbeispiel entnehmen.

Verwenden Sie die Funktion qnorm um das \xi_{1-\alpha}-Quantil zu berechnen.

Die Lösung zu Arbeitsauftrag 3 zeigt, dass wir die Nullhypothese H_0:\mu \leq 38.8 verwerfen, da T\in K, bzw. p<\alpha_0 gilt.

Aufgabe 5.2 (Arbeitsauftrag) Das Forschungsteam hat sich entschlossen, die Schnabeldicke der Gentoo-Pinguine zusätzlich zu untersuchen. Es steht die Vermutung im Raum, dass sich die Schnabeldicke (neben anderen physiologischen Eigenschaften) innerhalb der Jahre 2007 und 2009 durch den Klimawandel geändert hat. Nehmen Sie \sigma = 1.5 an und testen Sie H_0:\mu \leq \mu_0 \text{ versus } H_1:\mu > \mu_0 für die Gentoo-Pinguine die 2009 vermessen wurden, wobei Sie \mu_0 als das Stichprobenmittel der Schnabeldicken von Gentoo-Pinguinen verwenden, welche 2007 vermessen wurden.

Erstellen Sie zunächst zwei Datensätze für die Gentoo-Pinguine aus dem Jahr 2007 und dem Jahr 2009. Anschließend erhalten Sie \mu_0 als Schätzung des Stichprobenmittels der Schnabeldicke von Gentoo-Pinguinen, die 2007 vermessen wurden.

gentoo_2007 <- penguins %>% filter(species == "Gentoo", year == 2007)
gentoo_2009 <- penguins %>% filter(species == "Gentoo", year == 2009)
mu0 <- mean(gentoo_2007$bill_depth_mm)
mu0
[1] 14.7

In der Praxis würde man für so eine Situation eher den t-Test für zwei unverbundene Stichproben nutzen. Der Gausstest nimmt an, dass \mu_0 fest gewählt ist, sodass \bar{X}-\mu_0 dieselbe Varianz wie \bar{X} hat. Da jedoch \mu_0 die Varianz der Schnabeldicken aus dem Jahr 2007 ist, ist Var(\mu_0)>0 und damit die Varianz von \bar{X}-\mu_0 größer als die Varianz von \bar{X}. Dadurch ist die Teststatistik nicht mehr passend, und Student’s t-test wäre geeigneter. Wir illustrieren hier dennoch, wie man auch mittels des Gausstest eine solche Fragestellung angehen kann. Der t-Test für zwei unverbundene Stichproben wird in einem separaten Kapitel behandelt.

6 Statistische Signifikanz und praktische Relevanz

Wenn man mittels

mean(adelie$bill_length_mm)
[1] 38.82397

einmal den Stichprobenmittelwert der Schnabellänge der Adelie-Pinguine berechnet, stellt man fest das dieser sehr nah an \mu_0=38.8 ist. Das beobachtete Stichprobenmittel unterscheidet sich also nur geringfügig von \mu_0, und intuitiv erscheint dies als kein starkes Indiz gegen die Gültigkeit von H_0:\mu \leq \mu_0. Ein häufig bemängeltes Problem des Konzepts der statistischen Signifikanz bei Hypothesentests ist, dass für hinreichend große Stichproben (hier 137 Adelie-Pinguine) selbst sehr kleine Unterschiede (hier \bar{X}-\mu_0) zur Ablehnung von H_0 führen (Rao und Lovric 2016).

Mathematisch wird dies daran deutlich, dass

\sqrt{n}\frac{\bar{X}-\mu_0}{\sigma} für festes \bar{X}, \mu_0 und \sigma für n\rightarrow \infty mit Sicherheit zur Verwerfung von H_0 führt. Ob ein statistisch signifikantes Resultat praktische bzw. wissenschaftliche Relevanz hat, lässt sich mit Hilfe eines Hypothesentests nicht beantworten.

Im Anwendungsbeispiel beträgt der gemessene Unterschied zwischen \bar{X} und \mu_0 weniger als 1 Millimeter und besitzt wohl kaum praktische Relevanz.

Historisch wurde das Signifikanzniveau eingeführt, um festzustellen ob eine tiefergehende Untersuchung des beobachteten Phänomens sinnvoll ist oder nicht (Howie 2002). Um mit Hilfe des Ergebnisses eines statistischen Hypothesentest in einer Stichprobe auf die zu Grunde liegende Population zu schliessen bemerkten bereits die frühen Pioniere der Statistik, dass Replikationen der beobachteten Testergebnis auf Basis weiterer Erhebungen essentiell sind (Fisher 1925). Weitere Informationen finden Sie zum Beispiel in Rauch u. a. (2019).

7 Zusammenfassung

In diesem Kapitel haben Sie den Gauss-Test als einführendes Beispiel für einen parametrischen Hypothesentest kennengelernt. Grundlegende Konzepte wie das Niveau und die Teststatistik des Gausstests wurden motiviert und hergeleitet. Ein praktisches Anwendungsbeispiel hat illustriert wie man den Test in R anwenden kann, und welche Aspekte bei der Interpretation eines Testergebnisses zu berücksichtigen sind.

Lösungen der Aufgaben

Würde man \alpha_0 sehr klein wählen, wäre tatsächlich die Wahrscheinlichkeit P_{\theta}(X \in K) für \theta \in \Theta_0 klein. Man würde also den Fehler 1. Art nahezu unmöglich machen. Leider würde dadurch jedoch auch die Wahrscheinlichkeit für einen Fehler 2. Art P_{\theta}(X \notin K)=1-\pi(\theta;K) für \theta \in \Theta_1 sehr groß werden. Anders ausgedrückt: Verwirft man H_0 nur für sehr extreme Werte, so verwirft man H_0 auch nur noch sehr selten, falls H_1 wirklich wahr ist.

Zurück zu Aufgabe 3.1

Wir erhalten durch Anwenden von Gleichung 1.1 und \bar{X}:=\frac{1}{n}\sum_{i=1}^n X_i: \mathbb{E}_{\mu_0}[T]=\mathbb{E}_{\mu_0}[\bar{X}-\mu_0]=\mathbb{E}_{\mu_0}\left [\frac{1}{n}\sum_{i=1}^n X_i-\mu_0 \right ]\\ = \left (\frac{1}{n}\sum_{i=1}^n \mathbb{E}_{\mu_0} X_i \right ) -\mathbb{E}_{\mu_0}[\mu_0] = \frac{1}{n}n\mu_0-\mu_0=0

Zurück zu Aufgabe 4.1

result <- gauss.test(X = adelie$bill_length_mm, 
                    mu0 = 38.8, 
                    sigma = 1.5)
result
[1] 0.193108

Zurück zu Aufgabe 5.1

pnorm(result, mean = 0, sd = 1, lower.tail = FALSE)
[1] 0.4234372

Zurück zu Aufgabe 5.1

Wir sehen, dass die Schnabellänge von Gentoo-Pinguinen aus dem Jahr 2009 tatsächlich etwas größer als die von Gentoo-Pinguinen aus dem Jahr 2007 ist:

mean(gentoo_2009$bill_depth_mm)
[1] 15.30244

Um zu überprüfen, ob dieser Unterschied durch Zufall in der Stichprobe entstanden ist, oder ob ein Unterschied in den zu Grunde liegenden Grundpopulationen der Gentoo-Pinguine in den Jahren 2007 und 2009 besteht, führen wir den Gausstest durch:

T <- gauss.test(gentoo_2009$bill_depth_mm, mu0 = mu0, sigma = 1.5)
T
[1] 2.571661

Die Teststatistik ist eindeutig, der p-Wert zeigt, dass wir H_0:\mu \leq \mu_0 verwerfen sollten:

pnorm(T, mean = 0, sd = 1, lower.tail = FALSE)
[1] 0.005060593

Zurück zu Aufgabe 5.2

Lizenz
Diese lerneinheit “Statistische Hypothesentests” wurde von Riko Kelter, Alexander Schurr und Susanne Spies unter Mithilfe von Annika Hirth an der Universität Siegen entwickelt. Es ist lizenziert unter der CC-BY-SA 4.0 Lizenz und ist verfügbar auf ORCA.nrw.

Literatur

Benjamin, Daniel J., J. O. Berger, Magnus Johannesson, Brian A. Nosek, Eric-Jan Wagenmakers, Richard Berk, Kenneth A. Bollen, u. a. 2018. Redefine statistical significance. Nature Human Behaviour 2 (1): 6–10. https://doi.org/10.1038/s41562-017-0189-z.
Bijma, Fetsje, Marianne Jonker, A. W. van der Vaart, und Reinie. Erné. 2017. Introduction to Mathematical Statistics. Amsterdam: Amsterdam University Press.
Fisher, Ronald A. 1925. Statistical Methods for Research Workers. Herausgegeben von Oliver and Boyd. Edinburgh: Oliver; Boyd, Hafner Publishing Company.
Gorman, Kristen B., Tony D. Williams, und William R. Fraser. 2014. Ecological Sexual Dimorphism and Environmental Variability within a Community of Antarctic Penguins (Genus Pygoscelis). PLOS ONE 9 (3): e90081. https://doi.org/10.1371/JOURNAL.PONE.0090081.
Halsey, Lewis G. 2019. The reign of the p-value is over: what alternative analyses could we employ to fill the power vacuum? Biology Letters 15 (5): 20190174. https://doi.org/10.1098/rsbl.2019.0174.
Howie, David. 2002. Interpreting Probability : Controversies and Developments in the Early Twentieth Century. Cambridge: Cambridge University Press.
Ioannidis, John P. A. 2005. Contradicted and initially stronger effects in highly cited clinical research. Journal of the American Medical Association 294 (2): 218–28. https://doi.org/10.1001/jama.294.2.218.
Kelter, Riko. 2020. Bayesian alternatives to null hypothesis significance testing in biomedical research: a non-technical introduction to Bayesian inference with JASP. BMC Medical Research Methodology 20 (142). https://doi.org/10.1186/s12874-020-00980-6.
Rao, Calyampudi Radhakrishna, und Miodrag M. Lovric. 2016. Testing point null hypothesis of a normal mean and the truth: 21st Century perspective. Journal of Modern Applied Statistical Methods 15 (2): 2–21. https://doi.org/10.22237/jmasm/1478001660.
Rauch, Geraldine, Konrad Neumann, Ulrike Grittner, Carolin Herrmann, und Jochen Kruppa. 2019. Medizinische Statistik für Dummies. Weinheim: Wiley-VCH.
Rüschendorf, Ludger. 2014. Mathematische Statistik. Springer.
Wagenmakers, Eric-Jan, Richard D. Morey, und Michael D. Lee. 2016. Bayesian Benefits for the Pragmatic Researcher. Current Directions in Psychological Science 25 (3): 169–76. https://doi.org/10.1177/0963721416643289.

Fußnoten

  1. Grafik von Allison Horst, frei verfügbar unter https://allisonhorst.github.io/palmerpenguins/articles/art.html↩︎