Zusammenfassung

Wir behandeln in diesem Kapitel den t-Test für zwei unverbundene Stichproben. Dieser ist einer der am häufigsten in der Praxis eingesetzten parametrischen Hypothesentests. Die Unterschiede zwischen Student’s und Welch’s t-Test werden diskutiert und die Teststatistik motiviert und erläutert. Praktische Beispiele veranschaulichen wie der Test in R angewendet wird.

Lernziele: Am Ende des Kapitels können Sie

den t-Test für zwei unverbundene Stichproben in R anwenden

Student’s und Welch’s t-Test unterscheiden

die Ergebnisse interpretieren

1 Einführung

In einer Reihe von Kontexten liegt das Interesse darin, die verschiedenen Merkmalsausprägungen einer Stichprobe im Hinblick auf ihre zentrale Lage zwischen zwei oder mehreren Gruppen zu vergleichen. Parametrische Tests vergleichen in den meisten Fällen Populationsmittel, das heißt die Erwartungswerte. Nicht-parametrische Tests vergleichen stattdessen allgemeinere Lageunterschiede zwischen den zwei oder mehreren Gruppen und benötigen weniger Modellierungsannahmen.

In diesem Kapitel widmen wir uns dem t-Test für unverbundene Stichproben. Der t-Test gliedert sich in vier wichtige Varianten:

Der Einstichproben-t-Test (engl. one-sample t-test) überprüft anhand des Mittelwerts einer Stichprobe, ob der Mittelwert der Grundgesamtheit sich von einem vorgegebenen Sollwert unterscheidet. Vorausgesetzt wird dabei, dass die beobachteten Daten einer normalverteilten Grundgesamtheit entstammen. Alternativ lässt man in der Praxis auch asymptotische Argumente zu, um bei hinreichend großer Fallzahl den zentralen Grenzwertsatz auszunutzen.
Der Zweistichproben-t-Test (engl. two-sample t-test) prüft anhand der Mittelwerte zweier unabhängiger Stichproben, wie sich die Mittelwerte zweier Populationen zueinander verhalten. Voraussetzung ist, dass die Daten der Stichproben einer normalverteilten Grundgesamtheit entstammen bzw. es genügend große Stichprobenumfänge gibt, so dass der zentrale Grenzwertsatz gilt. Der klassische (auch Student’sche) t-Test setzt dabei voraus, dass beide Stichproben aus Grundgesamtheiten mit gleicher Varianz stammen. Der sogenannte Welch-t-Test ist eine Variante, die die Gleichheit der Varianzen nicht voraussetzt.
Der t-Differenzentest (engl. paired t-test) überprüft mit den Differenzen der Messwerte von zwei Variablen, die an denselben Untersuchungseinheiten erfasst wurden, ob Mittelwertunterschiede bezüglich dieser beiden Variablen in der Grundgesamtheit existieren. Er setzt voraus, dass die Differenzen normalverteilt sind.
Der t-Test des Regressionskoeffizienten prüft in der linearen Regression unter der Annahme normalverteilter Residuen, ob ein Regressionskoeffizient null ist.

2 Der t-test für zwei unverbundene Stichproben

Der Gauß-Test für unverbundene Stichproben vergleicht ein stetiges Merkmal zwischen zwei Gruppen. Im Gauß-Test wird jedoch die Annahme getroffen, dass die Varianz \sigma^2 bekannt ist. Der t-test für zwei unverbundene Stichproben verwirft diese in der Praxis unrealistische Annahme und nimmt an, dass die Varianz ebenfalls unbekannt ist.

Was bedeutet unverbunden? Zwei Stichproben heißen unverbunden, wenn ihre Werte unabhängig voneinander sind. Unabhängigkeit ist in der Regel dann gewährleistet, sofern die Werte von unterschiedlichen Individuen (etwa Patient:innen, Labortieren, Teilnehmer:innen) stammen. Wichtig ist dabei, dass letztere in keiner Beziehung zueinander stehen.

Der t-test für zwei unverbundene Stichproben nimmt an, dass die Daten (X_1,...,X_{n_1}) und (Y_1,...,Y_{n_2}) der ersten und zweiten Gruppe normalverteilt sind

X_i \stackrel{i.i.d.}\sim N(\mu_1,\sigma_1^2)\\ Y_i \stackrel{i.i.d.}\sim N(\mu_2,\sigma_2^2) und legt den Fokus auf die Differenz \Delta der Mittelwerte: \Delta := \mu_2-\mu_1 Geschätzt wird \Delta durch \hat{\Delta}:=\bar{X}-\bar{Y}, die Differenz der Stichprobenmittel beider Gruppen. Die zu testende Nullhypothese H_0 und ihre Alternative H_1 sind daher definiert als: H_0:\Delta = \Delta_0 \text{ und } H_1:\Delta \neq \Delta_0 In der Praxis ist der Fall \Delta_0 = 0 oft der relevante, da dann \mu_1=\mu_2 gilt. Um den obigen Test durchzuführen, können prinzipiell zwei verschiedene Annahmen gemacht werden.

Man nimmt an, die Varianzen bzw. Standardabweichungen beider Gruppen sind identisch
Man nimmt an, die Varianzen bzw. Standardabweichungen beider Gruppen unterscheiden sich

3 Student’s t-test - Gleiche Varianzen in beiden Gruppen

Unter der Annahme dass \sigma_1 = \sigma_2 gilt – dies nennt man auch Homoskedastizität – ist der auf folgender Teststatistik basierende Student’sche Zweistichproben-t-Test der uniformly most powerful unbiased (UMPU) Test:

Beachten Sie, dass T_t nicht nur vom Wert \Delta_0 sondern auch von den beobachteten Daten abhängt. Diese fliessen in den geschätzten Wert \hat{\Delta} ein. Man könnte also auch T_t(\Delta_0,\hat{\Delta}) schreiben.

T_t(\Delta_0) :=\frac{\hat{\Delta}-\Delta_0}{\sqrt{\hat{\sigma}_p^2 (\frac{1}{n_1}+\frac{1}{n_2})}} \tag{3.1} wobei \hat{\sigma}_p^2 der gepoolte Varianzschätzer ist, \hat{\sigma}_p^2 := \frac{1}{n-2}((n_1-1)\hat{\sigma}_1^2 +(n_2-1)\hat{\sigma}_2^2) \tag{3.2}

\hat{\sigma}_a^2 =\frac{1}{n_a-1}\sum_{i:z_i=1}(y_i -\bar{y}_a)^2 \tag{3.3} für a=1,2 und n=n_1+n_2. Unter Annahme der Nullhypothese H_0:\Delta = \Delta_0 ergibt sich das Resultat, dass T_t eine t-Verteilung mit n-2 Freiheitsgraden hat (Fay und Brittain 2022). Der kritische Wert T_{krit} des Tests zum Niveau \alpha entspricht dann dem (1-\frac{\alpha}{2})-Quantil der entsprechenden t-Verteilung. Die Nullhypothese H_0 wird abgelehnt, falls |T_t(\Delta_0)|\geq T_{krit} gilt.

Das \frac{\alpha}{2} im (1-\frac{\alpha}{2})-Quantil ergibt sich, da wir einen zweiseitigen Test zum Niveau \alpha durchführen.

Der zugehörige zweiseitige p-Wert des Tests ist gegeben durch:

p(\Delta_0):= 2 F_{t,n-2}(-|T_t(\Delta_0)|) \tag{3.4} wobei F_{t,df} die kumulative Verteilungsfunktion einer zentralen t-Verteilung mit df Freiheitsgraden ist. Das zugehörige 100(1-\alpha)\%-Konfidenzintervall ist gegeben durch

\hat{\Delta}\pm F_{n,n-2}^{-1}(1-\alpha/2)\sqrt{\hat{\sigma}_p^2 \left (\frac{1}{n_1}+\frac{1}{n_2}\right )}

4 Welch’s t-test - Unterschiedliche Varianzen in beiden Gruppen

Nimmt man hingegen an, dass \sigma_1 \neq \sigma_2 – dies bezeichnet man als Heteroskedastizität – dann erhält man das sogenannte Behrens-Fisher-Problem. In diesem Fall existiert kein uniformly most powerful unbiased Test. Modifiziert man jedoch die Teststatistik zu T_{BF}(\Delta_0):=\frac{\hat{\Delta}-\Delta_0}{\sqrt{\frac{\hat{\sigma}_1^2}{n_1}+\frac{\hat{\sigma}_2^2}{n_2}}} \tag{4.1} so hängt letztere nun zusätzlich von den Schätzern \hat{\sigma}_1^2 und \hat{\sigma}_1^2 ab. Es existieren verschiedene Methoden um nun mit Hilfe von T_{BF} einen statistischen Test durchzuführen, und es ergeben sich entsprechend verschiedene Konfidenzintervalle (Fay und Brittain 2022, Kap. 9.3). Eine weit verbreitete Methode ist die Methode nach Welch, bei der das Konfidenzintervall die Form

\hat{\Delta} \pm c_W \sqrt{\frac{\hat{\sigma}_1^2}{n_1}+\frac{\hat{\sigma}_2^2}{n_2}} hat, wobei c_W = F_{t,d_w}^{-1}(1-\alpha /2) ist, und die Freiheitsgrade d_{w} durch die sogenannte Welch-Satterthwaite-Approximation aus den Daten geschätzt werden. In der Praxis übernimmt die t.test Funktion in R dies automatisch.

5 Anwendungsbeispiel

Kommen wir nun zu einem Anwendungsbeispiel:

Beispiel 5.1 (Körpergröße nach Regionen) Eine epidemiologische Studie erfast verschiedene Charakterisika der Bevölkerung. Unter anderem wird die Körpergröße erhoben, um aktuelle Referenzwerte für die medizinische Forschung zu gewährleisten. Der Studienleitung fällt bei der Erhebung der Körpergrößen auf, dass Männer in Süddeutschland etwas kleiner zu sein scheinen als Männer in Norddeutschland. An der Studie haben n_1 = 100 norddeutsche und n_2 = 70 süddeutsche Männer teilgenommen. Tabelle 5.1 enthält die mittleren Körpergrößen und empirischen Standardabweichungen der beiden Gruppen:

Tabelle 5.1: Körpergröße nach Regionen in der epidemiologischen Studie

	Mittelwert	Standardabweichung	Fallzahl
Norddeutschland	181.1	6.9	100
Süddeutschland	179.8	7.0	70

Auf Basis der beobachteten Unterschiede stellt sich der Studienleitung die Frage:

Sind Männer aus Süddeutschland im Durchschnitt kleiner als Männer in Norddeutschland?

Widmen wir uns zunächst dem Aufstellen der zu testenden Hypothesen. Aus dem Anwendungsbeispiel lassen sich die beiden folgenden Hypothesen ableiten:

H_0: Die erwartete Körpergröße von nord- und süddeutschen Männern ist gleich.
H_1: Die erwartete Körpergröße von nord- und süddeutschen Männern unterscheidet sich.

Im Kontext des t-tests für zwei unverbundene Stichproben lassen sich H_0 und H_1 auch als H_0:\Delta = 0 und H_1:\Delta \neq 0 formulieren, was äquivalent zu H_0:\mu_1=\mu_2 und H_1:\mu_1 \neq \mu_2 ist.

Anmerkung (Achtung!). Als parametrischer Test macht der t-Test mehrere Annahmen. Die folgenden drei Punkte sollte man sich stets vor Augen halten, bevor man ihn anwendet:

Die gemessenen Werte des Merkmals müssen pro Individuum bzw. Beobachtung unabhängig voneinander sein.
Das Merkmal muss mindestens intervallskaliert sein.
Die Verteilung des Merkmals ist in beiden Gruppen normalverteilt oder die Stichprobengrößen pro Gruppe sind mindestens 30.

Aufgabe 5.1 (Berechnung der Teststatistik) Berechnen Sie den Wert der Teststatistik T_t(\Delta_0) für die obigen Studiendaten unter der Annahme, dass \sigma_1 = \sigma_2 gilt.

Tipp zu Aufgabe 5.1 anzeigen

Zunächst benötigen Sie \hat{\Delta} und \Delta_0, um den Zähler der Teststatistik in Gleichung 3.1 zu berechnen:

hatDelta <- 181.1 - 179.8
Delta_0 <- 0
numerator <- hatDelta - Delta_0

Anschließend müssen Sie den Nenner berechnen.

Weiteren Tipp zu Aufgabe 5.1 anzeigen

Die Werte für n_1 und n_2 sowie \hat{\sigma}_1 und \hat{\sigma}_2 entnehmen wir Tabelle 5.1:

hatSigma_1 <- 6.9
hatSigma_2 <- 7.0
n_1 <- 100
n_2 <- 70

Damit können wir dann \hat{\sigma}_p^2 wie folgt mit Hilfe von Gleichung 3.2 berechnen:

hatSigma_p_Squared <- (1 / (n_1 + n_2 - 2)) * ((n_1 - 1) * hatSigma_1^2 + (n_2 - 1) * hatSigma_2^2)
hatSigma_p_Squared

[1] 48.18089

Nun müssen wir nur noch den Nenner damit berechnen.

Aufgabe 5.2 (Testentscheidung) Vergleichen Sie den Wert der in Arbeitsauftrag 1 erhaltenen Teststatistik T_t(\Delta_0) mit dem kritischen Wert des zweiseitigen Tests zum Niveau \alpha = 0.05 und formulieren Sie eine Testentscheidung.

Aufgabe 5.3 (Berechnung des p-Werts) Berechnen Sie den zugehörigen p-Wert zum t-test für unverbundene Stichproben für die Studiendaten aus Tabelle 5.1.

6 Ein weiteres Anwendungsbeispiel

Wir verwenden nun einen Datensatz von Gorman, Williams, und Fraser (2014), der Daten zu drei verschiedenen antarktischen Pinguinarten enthält. Diese wurden 2007-2009 von Dr. Kristen Gorman im Rahmen des Palmer Station Long Term Ecological Research Program gesammelt und aufbereitet.

Zunächst installieren und laden wir dazu das R-Paket palmerpenguins.

install.packages("palmerpenguins")

Anschließend laden wir den Datensatz, wobei wir elf Pinguine entfernen die unvollständige Messungen enthalten. Zusätzlich laden wir die Pakete ggplot2 zur Visualisierung und dplyr zum Filtern des Datensatzes.

library(palmerpenguins)
library(dplyr)
library(ggplot2)
theme_set(theme_minimal())
penguins <- na.omit(penguins)
head(penguins)

str(penguins)

tibble [333 × 8] (S3: tbl_df/tbl/data.frame)
 $ species          : Factor w/ 3 levels "Adelie","Chinstrap",..: 1 1 1 1 1 1 1 1 1 1 ...
 $ island           : Factor w/ 3 levels "Biscoe","Dream",..: 3 3 3 3 3 3 3 3 3 3 ...
 $ bill_length_mm   : num [1:333] 39.1 39.5 40.3 36.7 39.3 38.9 39.2 41.1 38.6 34.6 ...
 $ bill_depth_mm    : num [1:333] 18.7 17.4 18 19.3 20.6 17.8 19.6 17.6 21.2 21.1 ...
 $ flipper_length_mm: int [1:333] 181 186 195 193 190 181 195 182 191 198 ...
 $ body_mass_g      : int [1:333] 3750 3800 3250 3450 3650 3625 4675 3200 3800 4400 ...
 $ sex              : Factor w/ 2 levels "female","male": 2 1 1 1 2 1 2 1 2 2 ...
 $ year             : int [1:333] 2007 2007 2007 2007 2007 2007 2007 2007 2007 2007 ...
 - attr(*, "na.action")= 'omit' Named int [1:11] 4 9 10 11 12 48 179 219 257 269 ...
  ..- attr(*, "names")= chr [1:11] "4" "9" "10" "11" ...

Der Datensatz enthält Messungen zu 344 Penguinen der Spezies Adelie, Chinstrap und und Gentoo. Die 344 Pinguine wurden auf drei verschiedenen Inseln Biscoe, Dream und Torgersen gesichtet, und die erhobenen Variablen sind

Die Schnabellänge bill_length_mm in Millimetern
Die Schnabeldicke bill_depth_mm in Millimetern
Die Flossenlänge flipper_length_mm in Millimetern
Das Gewicht body_mass_g in Gramm
Das Geschlecht sex
Das Jahr year wann der Pinguin gesichtet und vermessen wurde

Abbildung 6.1: Schnabellänge und -dicke von Pinguinen, Grafik von Allison Horst

Abbildung 6.1 veranschaulicht die gemessenen Abschnitte.¹

Beispiel 6.1 (Schnabellänge von Adelie- und Chinstrap-Pinguinen) Wir nehmen an, dass im Rahmen der Messungen an der Palmer-Station Forscher:innen daran interessiert sind, ob sich die Schnabellänge von Adelie- und Gentoo-Pinguinen im Mittel unterscheiden.

Die Forscher:innen formulieren die folgende Fragestellung:

Unterscheidet sich durchschnittliche Schnabellänge von Adelie- und Gentoo-Pinguinen?

Prinzipiell könnte nun die Annahme \sigma_1 = \sigma_2 oder \sigma_1 \neq \sigma_2 getroffen werden.

Aufgabe 6.1 (Überprüfung der Annahme für den Zweistichproben-t-Test) Schätzen Sie \sigma_1 und \sigma_2 mit Hilfe von Gleichung 3.3 für die Gruppen der Adelie- und Gentoo-Pinguine und entscheiden Sie, ob Sie den Student’schen oder Welch’s t-test durchführen sollten.

Fay und Brittain (2022) betonen:

Our general recommendation is to not assume equal variances unless there is a reason to do so. (Fay und Brittain 2022, 139)

Es ist daher sinnvoller, Welch’s t-test durchzuführen.

Aufgabe 6.2 (Welch’s t-test) Führen Sie Welch’s t-test für das Merkmal Schnabellänge für die zwei Gruppen der Adelie- und Gentoo-Pinguine durch. Nutzen Sie dazu die Funktion t.test oder Gleichung 4.1 und verwenden das Signifikanzniveau \alpha = 0.05.

Die Lösung zu Arbeitsauftrag 5 zeigt, dass die Nullhypothese H_0:\Delta = 0 zum Signifikanzniveau \alpha = 0.05 verworfen werden kann.

Beachten Sie, dass wir hier im Gegensatz zum ersten Anwendungsbeispiel die Originaldaten zur Verfügung haben. Dadurch ist die Berechnung mit Hilfe der t.test Funktion leichter. Wir haben in Arbeitsauftrag 1 jedoch gesehen, dass wir mittels Gleichung 3.1 auch nur auf Basis der Gruppenmittelwerte und Standardabweichungen den Test manuell durchführen können.

Aufgabe 6.3 (Quiz) Verwenden Sie in der t.test Funktion das Argument var.equal = TRUE, so wird Student’s t-test für zwei unverbundene Stichproben auf Basis von Gleichung 3.1 berechnet. Berechnen Sie den p-Wert unter Verwendung dieser Annahme. Welche Konsequenz ergibt sich?

Die Testentscheidung ändert sich.
Der Wert der Teststatistik ändert sich, aber die Testentscheidung bleibt dieselbe.
Die Testentscheidung bleibt dieselbe, Wert der Teststatistik ändert sich.

7 Zusammenfassung

In diesem Kapitel haben Sie gelernt wie man mit Hilfe von R den t-Test für zwei unverbundene Stichproben berechnen kann. Beachten Sie, dass das erste Anwendungsbeispiel nur die Mittelwerte und Stichprobenmittel verwendet und ohne die Originaldaten der Studie auskommt. Die Berechnungen werden dadurch komplizierter als im zweiten Anwendungsbeispiel, wo die t.test Funktion den Großteil der Arbeit übernimmt.

Lösungen der Aufgaben

Lösung zu Aufgabe 5.1 anzeigen

Mit Hilfe der beiden Tipps oben erhalten wir durch Einsetzen in Gleichung 3.1:

T <- (hatDelta - Delta_0) / sqrt(hatSigma_p_Squared * (1 / n_1 + 1 / n_2))
T

[1] 1.201795

Zurück zu Aufgabe 5.1

Lösung zu Aufgabe 5.2 anzeigen

Den kritischen Wert T_{krit} erhalten wir wie folgt:

T_krit <- qt(0.975, df = n_1+n_2-2)
T_krit

[1] 1.974185

Ein Vergleich zeigt:

T >= T_krit

[1] FALSE

Da |T_t(\Delta_0) < T_{krit}, kann die Nullhypothese H_0:\Delta = \Delta_0 zu einem zweiseitigen Signifikanzniveau von \alpha=0.05 nicht verworfen werden.

Zurück zu Aufgabe 5.2

Lösung zu Aufgabe 5.3 anzeigen

Mit Hilfe von Gleichung 3.4 ergibt sich:

2 * pt(-abs(T), df = n_1 + n_2 - 2)

[1] 0.2311342

Es gilt offensichtlich nicht p< \alpha = 0.05.

Zurück zu Aufgabe 5.3

Lösung zu Aufgabe 6.1 anzeigen

Mit Hilfe von Gleichung 3.3 ergibt sich:

library(dplyr)
adelie <- penguins %>% filter(species == "Adelie")
gentoo <- penguins %>% filter(species == "Gentoo")

sd(adelie$bill_length_mm)

[1] 2.662597

sd(gentoo$bill_length_mm)

[1] 3.106116

Die Schätzungen weichen leicht voneinander ab. Da Unsicherheit darüber herrscht, ob \sigma_1 = \sigma_2 gilt, ist es besser, \sigma_1 \neq \sigma_2 anzunehmen.

Zurück zu Aufgabe 6.1

Lösung zu Aufgabe 6.2 anzeigen

Mit Hilfe der t.test Funktion ergibt sich:

t.test(adelie$bill_length_mm, 
       gentoo$bill_length_mm, 
       conf.level = 0.95)


    Welch Two Sample t-test

data:  adelie$bill_length_mm and gentoo$bill_length_mm
t = -24.286, df = 233.51, p-value < 2.2e-16
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -9.453448 -8.034741
sample estimates:
mean of x mean of y 
 38.82397  47.56807

Zurück zu Aufgabe 6.2

Lösung zu Aufgabe 6.3 anzeigen

t.test(adelie$bill_length_mm, gentoo$bill_length_mm, conf.level = 0.95, var.equal = TRUE)


    Two Sample t-test

data:  adelie$bill_length_mm and gentoo$bill_length_mm
t = -24.669, df = 263, p-value < 2.2e-16
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -9.442035 -8.046154
sample estimates:
mean of x mean of y 
 38.82397  47.56807

Da die Teststatistik T den kritischen Wert überschreitet und immer noch p<\alpha=0.05 gilt, würde man H_0:\Delta = 0 selbst unter Annahme von Homoskedastizität verwerfen.

Aussage B ist richtig.

Zurück zu Aufgabe 6.3

Lizenz
Diese Lerneinheit “Statistische Hypothesentests” wurde von Riko Kelter, Alexander Schurr und Susanne Spies unter Mithilfe von Annika Hirth an der Universität Siegen entwickelt. Es ist lizenziert unter der CC-BY-SA 4.0 Lizenz und ist verfügbar auf ORCA.nrw.

Literatur

Fay, Michael P., und Erica H. Brittain. 2022. Statistical Hypothesis Testing in Context: Reproducibility, Inference, and Science. New York: Cambridge University Press. https://doi.org/10.1017/9781108528825.

Gorman, Kristen B., Tony D. Williams, und William R. Fraser. 2014. „Ecological Sexual Dimorphism and Environmental Variability within a Community of Antarctic Penguins (Genus Pygoscelis)“. PLOS ONE 9 (3): e90081. https://doi.org/10.1371/JOURNAL.PONE.0090081.

Fußnoten

Grafik von Allison Horst, frei verfügbar unter https://allisonhorst.github.io/palmerpenguins/articles/art.html↩︎