<- 181.1 - 179.8
hatDelta <- 0
Delta_0 <- hatDelta - Delta_0 numerator
Lernziele: Am Ende des Kapitels können Sie
- den t-Test für zwei unverbundene Stichproben in R anwenden
- Student’s und Welch’s t-Test unterscheiden
- die Ergebnisse interpretieren
1 Einführung
In einer Reihe von Kontexten liegt das Interesse darin, die verschiedenen Merkmalsausprägungen einer Stichprobe im Hinblick auf ihre zentrale Lage zwischen zwei oder mehreren Gruppen zu vergleichen. Parametrische Tests vergleichen in den meisten Fällen Populationsmittel, das heißt die Erwartungswerte. Nicht-parametrische Tests vergleichen stattdessen allgemeinere Lageunterschiede zwischen den zwei oder mehreren Gruppen und benötigen weniger Modellierungsannahmen.
In diesem Kapitel widmen wir uns dem t-Test für unverbundene Stichproben. Der t-Test gliedert sich in vier wichtige Varianten:
Der Einstichproben-t-Test (engl. one-sample t-test) überprüft anhand des Mittelwerts einer Stichprobe, ob der Mittelwert der Grundgesamtheit sich von einem vorgegebenen Sollwert unterscheidet. Vorausgesetzt wird dabei, dass die beobachteten Daten einer normalverteilten Grundgesamtheit entstammen. Alternativ lässt man in der Praxis auch asymptotische Argumente zu, um bei hinreichend großer Fallzahl den zentralen Grenzwertsatz auszunutzen.
Der Zweistichproben-t-Test (engl. two-sample t-test) prüft anhand der Mittelwerte zweier unabhängiger Stichproben, wie sich die Mittelwerte zweier Populationen zueinander verhalten. Voraussetzung ist, dass die Daten der Stichproben einer normalverteilten Grundgesamtheit entstammen bzw. es genügend große Stichprobenumfänge gibt, so dass der zentrale Grenzwertsatz gilt. Der klassische (auch Student’sche) t-Test setzt dabei voraus, dass beide Stichproben aus Grundgesamtheiten mit gleicher Varianz stammen. Der sogenannte Welch-t-Test ist eine Variante, die die Gleichheit der Varianzen nicht voraussetzt.
Der t-Differenzentest (engl. paired t-test) überprüft mit den Differenzen der Messwerte von zwei Variablen, die an denselben Untersuchungseinheiten erfasst wurden, ob Mittelwertunterschiede bezüglich dieser beiden Variablen in der Grundgesamtheit existieren. Er setzt voraus, dass die Differenzen normalverteilt sind.
Der t-Test des Regressionskoeffizienten prüft in der linearen Regression unter der Annahme normalverteilter Residuen, ob ein Regressionskoeffizient null ist.
2 Der t-test für zwei unverbundene Stichproben
Der Gauß-Test für unverbundene Stichproben vergleicht ein stetiges Merkmal zwischen zwei Gruppen. Im Gauß-Test wird jedoch die Annahme getroffen, dass die Varianz \sigma^2 bekannt ist. Der t-test für zwei unverbundene Stichproben verwirft diese in der Praxis unrealistische Annahme und nimmt an, dass die Varianz ebenfalls unbekannt ist.
Der t-test für zwei unverbundene Stichproben nimmt an, dass die Daten (X_1,...,X_{n_1}) und (Y_1,...,Y_{n_2}) der ersten und zweiten Gruppe normalverteilt sind
X_i \stackrel{i.i.d.}\sim N(\mu_1,\sigma_1^2)\\ Y_i \stackrel{i.i.d.}\sim N(\mu_2,\sigma_2^2) und legt den Fokus auf die Differenz \Delta der Mittelwerte: \Delta := \mu_2-\mu_1 Geschätzt wird \Delta durch \hat{\Delta}:=\bar{X}-\bar{Y}, die Differenz der Stichprobenmittel beider Gruppen. Die zu testende Nullhypothese H_0 und ihre Alternative H_1 sind daher definiert als: H_0:\Delta = \Delta_0 \text{ und } H_1:\Delta \neq \Delta_0 In der Praxis ist der Fall \Delta_0 = 0 oft der relevante, da dann \mu_1=\mu_2 gilt. Um den obigen Test durchzuführen, können prinzipiell zwei verschiedene Annahmen gemacht werden.
Man nimmt an, die Varianzen bzw. Standardabweichungen beider Gruppen sind identisch
Man nimmt an, die Varianzen bzw. Standardabweichungen beider Gruppen unterscheiden sich
3 Student’s t-test - Gleiche Varianzen in beiden Gruppen
Unter der Annahme dass \sigma_1 = \sigma_2 gilt – dies nennt man auch Homoskedastizität – ist der auf folgender Teststatistik basierende Student’sche Zweistichproben-t-Test der uniformly most powerful unbiased (UMPU) Test:
T_t(\Delta_0) :=\frac{\hat{\Delta}-\Delta_0}{\sqrt{\hat{\sigma}_p^2 (\frac{1}{n_1}+\frac{1}{n_2})}} \tag{3.1} wobei \hat{\sigma}_p^2 der gepoolte Varianzschätzer ist, \hat{\sigma}_p^2 := \frac{1}{n-2}((n_1-1)\hat{\sigma}_1^2 +(n_2-1)\hat{\sigma}_2^2) \tag{3.2}
\hat{\sigma}_a^2 =\frac{1}{n_a-1}\sum_{i:z_i=1}(y_i -\bar{y}_a)^2 \tag{3.3} für a=1,2 und n=n_1+n_2. Unter Annahme der Nullhypothese H_0:\Delta = \Delta_0 ergibt sich das Resultat, dass T_t eine t-Verteilung mit n-2 Freiheitsgraden hat (Fay und Brittain 2022). Der kritische Wert T_{krit} des Tests zum Niveau \alpha entspricht dann dem (1-\frac{\alpha}{2})-Quantil der entsprechenden t-Verteilung. Die Nullhypothese H_0 wird abgelehnt, falls |T_t(\Delta_0)|\geq T_{krit} gilt.
Der zugehörige zweiseitige p-Wert des Tests ist gegeben durch:
p(\Delta_0):= 2 F_{t,n-2}(-|T_t(\Delta_0)|) \tag{3.4} wobei F_{t,df} die kumulative Verteilungsfunktion einer zentralen t-Verteilung mit df Freiheitsgraden ist. Das zugehörige 100(1-\alpha)\%-Konfidenzintervall ist gegeben durch
\hat{\Delta}\pm F_{n,n-2}^{-1}(1-\alpha/2)\sqrt{\hat{\sigma}_p^2 \left (\frac{1}{n_1}+\frac{1}{n_2}\right )}
4 Welch’s t-test - Unterschiedliche Varianzen in beiden Gruppen
Nimmt man hingegen an, dass \sigma_1 \neq \sigma_2 – dies bezeichnet man als Heteroskedastizität – dann erhält man das sogenannte Behrens-Fisher-Problem. In diesem Fall existiert kein uniformly most powerful unbiased Test. Modifiziert man jedoch die Teststatistik zu T_{BF}(\Delta_0):=\frac{\hat{\Delta}-\Delta_0}{\sqrt{\frac{\hat{\sigma}_1^2}{n_1}+\frac{\hat{\sigma}_2^2}{n_2}}} \tag{4.1} so hängt letztere nun zusätzlich von den Schätzern \hat{\sigma}_1^2 und \hat{\sigma}_1^2 ab. Es existieren verschiedene Methoden um nun mit Hilfe von T_{BF} einen statistischen Test durchzuführen, und es ergeben sich entsprechend verschiedene Konfidenzintervalle (Fay und Brittain 2022, Kap. 9.3). Eine weit verbreitete Methode ist die Methode nach Welch, bei der das Konfidenzintervall die Form
\hat{\Delta} \pm c_W \sqrt{\frac{\hat{\sigma}_1^2}{n_1}+\frac{\hat{\sigma}_2^2}{n_2}} hat, wobei c_W = F_{t,d_w}^{-1}(1-\alpha /2) ist, und die Freiheitsgrade d_{w} durch die sogenannte Welch-Satterthwaite-Approximation aus den Daten geschätzt werden. In der Praxis übernimmt die t.test
Funktion in R dies automatisch.
5 Anwendungsbeispiel
Kommen wir nun zu einem Anwendungsbeispiel:
Beispiel 5.1 (Körpergröße nach Regionen) Eine epidemiologische Studie erfast verschiedene Charakterisika der Bevölkerung. Unter anderem wird die Körpergröße erhoben, um aktuelle Referenzwerte für die medizinische Forschung zu gewährleisten. Der Studienleitung fällt bei der Erhebung der Körpergrößen auf, dass Männer in Süddeutschland etwas kleiner zu sein scheinen als Männer in Norddeutschland. An der Studie haben n_1 = 100 norddeutsche und n_2 = 70 süddeutsche Männer teilgenommen. Tabelle 5.1 enthält die mittleren Körpergrößen und empirischen Standardabweichungen der beiden Gruppen:
Mittelwert | Standardabweichung | Fallzahl | |
---|---|---|---|
Norddeutschland | 181.1 | 6.9 | 100 |
Süddeutschland | 179.8 | 7.0 | 70 |
Auf Basis der beobachteten Unterschiede stellt sich der Studienleitung die Frage:
Sind Männer aus Süddeutschland im Durchschnitt kleiner als Männer in Norddeutschland?
Widmen wir uns zunächst dem Aufstellen der zu testenden Hypothesen. Aus dem Anwendungsbeispiel lassen sich die beiden folgenden Hypothesen ableiten:
H_0: Die erwartete Körpergröße von nord- und süddeutschen Männern ist gleich.
H_1: Die erwartete Körpergröße von nord- und süddeutschen Männern unterscheidet sich.
Im Kontext des t-tests für zwei unverbundene Stichproben lassen sich H_0 und H_1 auch als H_0:\Delta = 0 und H_1:\Delta \neq 0 formulieren, was äquivalent zu H_0:\mu_1=\mu_2 und H_1:\mu_1 \neq \mu_2 ist.
Anmerkung (Achtung!). Als parametrischer Test macht der t-Test mehrere Annahmen. Die folgenden drei Punkte sollte man sich stets vor Augen halten, bevor man ihn anwendet:
Die gemessenen Werte des Merkmals müssen pro Individuum bzw. Beobachtung unabhängig voneinander sein.
Das Merkmal muss mindestens intervallskaliert sein.
Die Verteilung des Merkmals ist in beiden Gruppen normalverteilt oder die Stichprobengrößen pro Gruppe sind mindestens 30.
Aufgabe 5.1 (Berechnung der Teststatistik) Berechnen Sie den Wert der Teststatistik T_t(\Delta_0) für die obigen Studiendaten unter der Annahme, dass \sigma_1 = \sigma_2 gilt.
Aufgabe 5.2 (Testentscheidung) Vergleichen Sie den Wert der in Arbeitsauftrag 1 erhaltenen Teststatistik T_t(\Delta_0) mit dem kritischen Wert des zweiseitigen Tests zum Niveau \alpha = 0.05 und formulieren Sie eine Testentscheidung.
Aufgabe 5.3 (Berechnung des p-Werts) Berechnen Sie den zugehörigen p-Wert zum t-test für unverbundene Stichproben für die Studiendaten aus Tabelle 5.1.
6 Ein weiteres Anwendungsbeispiel
Wir verwenden nun einen Datensatz von Gorman, Williams, und Fraser (2014), der Daten zu drei verschiedenen antarktischen Pinguinarten enthält. Diese wurden 2007-2009 von Dr. Kristen Gorman im Rahmen des Palmer Station Long Term Ecological Research Program gesammelt und aufbereitet.
Zunächst installieren und laden wir dazu das R-Paket palmerpenguins
.
install.packages("palmerpenguins")
Anschließend laden wir den Datensatz, wobei wir elf Pinguine entfernen die unvollständige Messungen enthalten. Zusätzlich laden wir die Pakete ggplot2
zur Visualisierung und dplyr
zum Filtern des Datensatzes.
library(palmerpenguins)
library(dplyr)
library(ggplot2)
theme_set(theme_minimal())
<- na.omit(penguins)
penguins head(penguins)
str(penguins)
tibble [333 × 8] (S3: tbl_df/tbl/data.frame)
$ species : Factor w/ 3 levels "Adelie","Chinstrap",..: 1 1 1 1 1 1 1 1 1 1 ...
$ island : Factor w/ 3 levels "Biscoe","Dream",..: 3 3 3 3 3 3 3 3 3 3 ...
$ bill_length_mm : num [1:333] 39.1 39.5 40.3 36.7 39.3 38.9 39.2 41.1 38.6 34.6 ...
$ bill_depth_mm : num [1:333] 18.7 17.4 18 19.3 20.6 17.8 19.6 17.6 21.2 21.1 ...
$ flipper_length_mm: int [1:333] 181 186 195 193 190 181 195 182 191 198 ...
$ body_mass_g : int [1:333] 3750 3800 3250 3450 3650 3625 4675 3200 3800 4400 ...
$ sex : Factor w/ 2 levels "female","male": 2 1 1 1 2 1 2 1 2 2 ...
$ year : int [1:333] 2007 2007 2007 2007 2007 2007 2007 2007 2007 2007 ...
- attr(*, "na.action")= 'omit' Named int [1:11] 4 9 10 11 12 48 179 219 257 269 ...
..- attr(*, "names")= chr [1:11] "4" "9" "10" "11" ...
Der Datensatz enthält Messungen zu 344 Penguinen der Spezies Adelie, Chinstrap und und Gentoo. Die 344 Pinguine wurden auf drei verschiedenen Inseln Biscoe, Dream und Torgersen gesichtet, und die erhobenen Variablen sind
Die Schnabellänge
bill_length_mm
in MillimeternDie Schnabeldicke
bill_depth_mm
in MillimeternDie Flossenlänge
flipper_length_mm
in MillimeternDas Gewicht
body_mass_g
in GrammDas Geschlecht
sex
Das Jahr
year
wann der Pinguin gesichtet und vermessen wurde
Abbildung 6.1 veranschaulicht die gemessenen Abschnitte.1
Beispiel 6.1 (Schnabellänge von Adelie- und Chinstrap-Pinguinen) Wir nehmen an, dass im Rahmen der Messungen an der Palmer-Station Forscher:innen daran interessiert sind, ob sich die Schnabellänge von Adelie- und Gentoo-Pinguinen im Mittel unterscheiden.
Die Forscher:innen formulieren die folgende Fragestellung:
Unterscheidet sich durchschnittliche Schnabellänge von Adelie- und Gentoo-Pinguinen?
Prinzipiell könnte nun die Annahme \sigma_1 = \sigma_2 oder \sigma_1 \neq \sigma_2 getroffen werden.
Aufgabe 6.1 (Überprüfung der Annahme für den Zweistichproben-t-Test) Schätzen Sie \sigma_1 und \sigma_2 mit Hilfe von Gleichung 3.3 für die Gruppen der Adelie- und Gentoo-Pinguine und entscheiden Sie, ob Sie den Student’schen oder Welch’s t-test durchführen sollten.
Fay und Brittain (2022) betonen:
Our general recommendation is to not assume equal variances unless there is a reason to do so. (Fay und Brittain 2022, 139)
Es ist daher sinnvoller, Welch’s t-test durchzuführen.
Aufgabe 6.2 (Welch’s t-test) Führen Sie Welch’s t-test für das Merkmal Schnabellänge für die zwei Gruppen der Adelie- und Gentoo-Pinguine durch. Nutzen Sie dazu die Funktion t.test
oder Gleichung 4.1 und verwenden das Signifikanzniveau \alpha = 0.05.
Die Lösung zu Arbeitsauftrag 5 zeigt, dass die Nullhypothese H_0:\Delta = 0 zum Signifikanzniveau \alpha = 0.05 verworfen werden kann.
Beachten Sie, dass wir hier im Gegensatz zum ersten Anwendungsbeispiel die Originaldaten zur Verfügung haben. Dadurch ist die Berechnung mit Hilfe der t.test
Funktion leichter. Wir haben in Arbeitsauftrag 1 jedoch gesehen, dass wir mittels Gleichung 3.1 auch nur auf Basis der Gruppenmittelwerte und Standardabweichungen den Test manuell durchführen können.
Aufgabe 6.3 (Quiz) Verwenden Sie in der t.test
Funktion das Argument var.equal = TRUE
, so wird Student’s t-test für zwei unverbundene Stichproben auf Basis von Gleichung 3.1 berechnet. Berechnen Sie den p-Wert unter Verwendung dieser Annahme. Welche Konsequenz ergibt sich?
Die Testentscheidung ändert sich.
Der Wert der Teststatistik ändert sich, aber die Testentscheidung bleibt dieselbe.
Die Testentscheidung bleibt dieselbe, Wert der Teststatistik ändert sich.
7 Zusammenfassung
In diesem Kapitel haben Sie gelernt wie man mit Hilfe von R den t-Test für zwei unverbundene Stichproben berechnen kann. Beachten Sie, dass das erste Anwendungsbeispiel nur die Mittelwerte und Stichprobenmittel verwendet und ohne die Originaldaten der Studie auskommt. Die Berechnungen werden dadurch komplizierter als im zweiten Anwendungsbeispiel, wo die t.test
Funktion den Großteil der Arbeit übernimmt.
Lösungen der Aufgaben
Lizenz
Diese Lerneinheit “Statistische Hypothesentests” wurde von Riko Kelter, Alexander Schurr und Susanne Spies unter Mithilfe von Annika Hirth an der Universität Siegen entwickelt. Es ist lizenziert unter der CC-BY-SA 4.0 Lizenz und ist verfügbar auf ORCA.nrw.
Literatur
Fußnoten
Grafik von Allison Horst, frei verfügbar unter https://allisonhorst.github.io/palmerpenguins/articles/art.html↩︎