Der Einstichproben-t-Test

Zusammenfassung
Wir behandeln in diesem Kapitel den Einstichproben-t-Test. Der Hypothesentest ist unter den am häufigsten in der Praxis eingesetzten parametrischen Tests. Der Einstichproben-t-Test verallgemeinert den Gauß-Test für eine Stichprobe und setzt die Varianz ebenfalls als unbekannt voraus. Ein praktisches Beispiel veranschaulicht wie der t-Test in R angewendet wird.

Lernziele: Am Ende des Kapitels können Sie

  • den Einstichproben-t-Test anwenden
  • die Voraussetzungen des Tests benennen
  • konkrete Datenanalysen mit Hilfe von R durchführen

1 Einführung

In einer Reihe von Kontexten liegt das Interesse darin, die verschiedenen Merkmalsausprägungen einer Stichprobe im Hinblick auf ihre zentrale Lage zwischen zwei oder mehreren Gruppen zu vergleichen. Parametrische Tests vergleichen in den meisten Fällen Populationsmittel, das heißt die Erwartungswerte. Nicht-parametrische Tests vergleichen stattdessen allgemeinere Lageunterschiede zwischen den zwei oder mehreren Gruppen und benötigen weniger Modellierungsannahmen.

In diesem Kapitel widmen wir uns dem Einstichproben-t-Test. Der t-Test gliedert sich allgemein in vier wichtige Varianten:

  • Der Einstichproben-t-Test (engl. one-sample t-test) überprüft anhand des Mittelwerts einer Stichprobe, ob der Mittelwert der Grundgesamtheit sich von einem vorgegebenen Sollwert unterscheidet. Vorausgesetzt wird dabei, dass die beobachteten Daten einer normalverteilten Grundgesamtheit entstammen. Alternativ lässt man in der Praxis auch asymptotische Argumente zu, um bei hinreichend großer Fallzahl den zentralen Grenzwertsatz auszunutzen.

  • Der Zweistichproben-t-Test (engl. two-sample t-test) prüft anhand der Mittelwerte zweier unabhängiger Stichproben, wie sich die Mittelwerte zweier Populationen zueinander verhalten. Voraussetzung ist, dass die Daten der Stichproben einer normalverteilten Grundgesamtheit entstammen bzw. es genügend große Stichprobenumfänge gibt, so dass der zentrale Grenzwertsatz gilt. Der klassische (auch Student’sche) t-Test setzt dabei voraus, dass beide Stichproben aus Grundgesamtheiten mit gleicher Varianz stammen. Der sogenannte Welch-t-Test ist eine Variante, die die Gleichheit der Varianzen nicht voraussetzt.

  • Der t-Differenzentest (engl. paired t-test) überprüft mit den Differenzen der Messwerte von zwei Variablen, die an denselben Untersuchungseinheiten erfasst wurden, ob Mittelwertunterschiede bezüglich dieser beiden Variablen in der Grundgesamtheit existieren. Er setzt voraus, dass die Differenzen normalverteilt sind.

  • Der t-Test des Regressionskoeffizienten prüft in der linearen Regression unter der Annahme normalverteilter Residuen, ob ein Regressionskoeffizient null ist.

In diesem Kapitel behandeln wir zunächst den Einstichproben-t-Test.

2 Der Einstichproben-t-Test

Der Gauß-Test für eine Stichproben basiert auf einem normalverteilten Merkmal X \sim N(\mu,\sigma^2) und testet ob der Mittelwert \mu gleich, kleinergleich, oder größergleich einem festgewählten Referenzwert \mu_0 ist. Hierbei wird die Varianz \sigma^2 als bekannt vorausgesetzt, was in der Praxis oft unrealistisch ist. Der Einstichproben-t-Test verwirft diese in der Praxis unrealistische Annahme und nimmt an, dass die Varianz \sigma^2 ebenfalls unbekannt ist.

Folgende Hypothesenpaare sind in der Praxis relevant:

  1. H_0:\mu = \mu_0 versus H_1:\mu \neq \mu_0 (zweiseitiger Test)

  2. H_0:\mu \leq \mu_0 versus H_1:\mu > \mu_0 (rechtsseitiger Test)

  3. H_0:\mu \geq \mu_0 versus H_1:\mu < \mu_0 (linksseitiger Test)

Wir behandeln die Herleitung der Teststatistik zunächst für normalverteilte Daten, und anschließend allgemein.

3 Herleitung der Teststatistik für normalverteilte Beobachtungen

Der Einstichproben-t-Test nimmt in dieser Variante zunächst an, dass die Daten (X_1,...,X_{n}) normalverteilt sind

X_i \stackrel{i.i.d.}\sim N(\mu,\sigma^2) \tag{3.1}

Möchte man nun etwa die Nullhypothese H_0:\mu = \mu_0 versus H_1:\mu \neq \mu_0 testen, dann ist ähnlich wie bei der Herleitung der Teststatistik im Gausstest eine naheliegende Idee das Stichprobenmittel

\bar{X}=\sum_{i=1}^n X_i \tag{3.2} als Teststatistik zu verwenden. Da Summen normalverteilter Zufallsvariablen wieder normalverteilt sind, ist \bar{X} ebenfalls normalverteilt mit Mittelwert \mu und Standardabweichung \frac{\sigma}{\sqrt{n}}. Wäre nun \sigma^2 bekannt, so könnte man die Teststatistik Z:=\sqrt{n} \frac{\bar{X}-\mu_0}{\sigma} verwenden, welche unter H_0 standardnormalverteilt N(0,1) ist. Da \sigma jedoch unbekannt ist, bedient man sich einem Trick. Man schätzt \sigma einfach durch die empirische Standardabweichung

S_{X}:=\sqrt{\frac{\sum_{i=1}^n (X_i-\bar{X})^2}{n-1}} \tag{3.3} und verwendet dann die Teststatistik T:=\sqrt{n} \frac{\bar{X}-\mu_0}{S_X} \tag{3.4} Man kann zeigen, dass T unter der Verteilungsannahme in Gleichung 3.1 eine t_{n-1}-Verteilung mit n-1 Freiheitsgraden hat.

Einen Beweis der Aussage T \sim t_{n-1} findet man in gängigen Standardlehrwerken, etwa in Rüschendorf (2014) oder auf Seite 129 in Bijma u. a. (2017).

Man verwirft nun H_0:\mu=\mu_0 zum Signifikanzniveau \alpha_0, wenn |T| \geq t_{n-1,1-\alpha_0/2} ist, da ein zweiseitiger Test durchgeführt wird. Testet man hingegen links- beziehungsweise rechtsseitig, so verwirft man entsprechend wenn T>t_{n-1,1-\alpha_0} beziehungsweise T<t_{n-1,\alpha_0}. Hierbei bezeichnet t_{n-1,\alpha_0} das \alpha_0-Quantil der t_{n-1}-Verteilung.

xSeq <- seq(from = -5, to = 5, by = 0.001)
ySeq <- dt(xSeq, df = 30)
plot(xSeq, ySeq, ty = "l", lwd = 1.5, 
     main ="Dichte der t-Verteilung für verschiedene Freiheitsgrade", 
     xlab = "x", ylab = "f(x)")
lines(xSeq, dt(xSeq, df = 20), lwd = 1.5, col = "blue")
lines(xSeq, dt(xSeq, df = 15), lwd = 1.5, col = "red")
lines(xSeq, dt(xSeq, df = 10), lwd = 1.5, col = "orange")
lines(xSeq, dt(xSeq, df = 5), lwd = 1.5, col = "purple")
Abbildung 3.1: Dichte der t-Verteilung für verschiedene Freiheitsgrade

Abbildung 3.1 zeigt die Dichte der t-Verteilung für 30, 20, 15, 10 und 5 Freiheitsgrade.

4 Herleitung der Teststatistik für unabhängige und identisch verteilte Beobachtungen

Sind die Beobachtungen (X_1,...,X_n) nicht normalverteilt, sondern lediglich unabhängig und identisch verteilt mit Erwartungswert \mu \in \mathbb{R} und Standardabweichung \sigma >0, dann liegt es im obigen Falle nahe wieder das arithmetische Mittel in Gleichung 3.2 zu verwenden. Wegen des zentralen Grenzwertsatzes gilt, dass \bar{X} approximativ für hinreichend großes n \in \mathbb{N} normalverteilt ist mit Erwartungswert \mu und Standardabweichung \frac{\sigma}{\sqrt{n}}. Analog verwendet man dann S_X und T als Teststatistik, siehe Gleichung 3.3 und Gleichung 3.4.

Anmerkung (Achtung!). Sind die X_i für i=1,...,n lediglich unabhängig und identisch verteilt, so ist T lediglich annähernd t_{n-1}-verteilt für hinreichend großes n\in \mathbb{N}. Ist der Stichprobenumfang klein und es besteht Zweifel daran, ob die Daten normalverteilt sind, so kann eine Testentscheidung auf Basis der t_{n-1}-Verteilung möglicherweise das Testniveau \alpha_0 nicht mehr einhalten. Ebenfalls ist es möglich, dass die Güte bzw. Trennschärfe des Tests einbricht.

5 Anwendungsbeispiel

Kommen wir nun zu einem Anwendungsbeispiel:

Beispiel 5.1 (Anwendungsbeispiel - Chemotherapie bei Brustkrebs) Eine randomisierte kontrollierte klinische Studie umfasst n=50 Patient:innen. Die Studie untersucht die Reduktion des Tumorvolumens nach einer Chemotherapie und misst als primären Endpunkt die Reduktion in Kubikzentimeter (cm^3).

4.39 2.78 5.26 6.17 4.95 2.58 3.74 6.70 4.74 6.30
7.55 7.35 6.00 3.01 6.93 4.55 4.61 2.64 5.68 4.38
4.32 3.85 5.47 4.28 5.06 3.76 4.91 4.77 5.73 6.47
4.01 7.02 3.90 4.81 4.55 5.42 3.69 5.82 3.48 4.85
4.67 5.26 5.11 5.34 5.03 7.41 6.24 5.50 6.27 2.91

Auf Basis der beobachteten Daten stellt sich der Studienleitung die Frage:

Ist die Reduktion des Tumorvolumens im Durchschnitt größer als 3 cm^3?

Widmen wir uns zunächst dem Aufstellen der zu testenden Hypothesen. Aus dem Anwendungsbeispiel lassen sich die beiden folgenden Hypothesen ableiten:

  • H_0: Die Reduktion des Tumorvolumens ist im Durchschnitt kleiner oder gleich 3 cm^3

  • H_1: Die Reduktion des Tumorvolumens ist im Durchschnitt größer als 3 cm^3

Im Kontext des Einstichproben-t-Tests lassen sich H_0 und H_1 auch als H_0:\mu \leq \mu_0 und H_1:\mu > \mu_0 formulieren, wobei \mu_0 = 3cm^3 ist.

Anmerkung (Achtung!). Als parametrischer Test macht der Einstichproben-t-Test mehrere Annahmen. Die folgenden drei Punkte sollte man sich stets vor Augen halten, bevor man ihn anwendet:

  1. Die gemessenen Werte des Merkmals müssen pro Individuum bzw. Beobachtung unabhängig voneinander sein.

  2. Das Merkmal muss mindestens intervallskaliert sein.

  3. Die Verteilung des Merkmals ist in beiden Gruppen normalverteilt oder die Stichprobengrößen pro Gruppe sind mindestens 30.

Aufgabe 5.1 (Arbeitsauftrag 1 - Berechnung der Teststatistik) Berechnen Sie den Wert der Teststatistik T für die obigen Studiendaten. Verwenden Sie dazu die im Vektor chemotherapy gespeicherten Daten:

chemotherapy <- c(4.39, 2.78, 5.26, 6.17, 4.95, 2.58, 
                  3.74, 6.70, 4.74, 6.30, 7.55, 7.35, 
                  6.00, 3.01, 6.93, 4.55, 4.61, 2.64, 
                  5.68, 4.38, 4.32, 3.85, 5.47, 4.28, 
                  5.06, 3.76, 4.91, 4.77, 5.73, 6.47, 
                  4.01, 7.02, 3.90, 4.81, 4.55, 5.42, 
                  3.69, 5.82, 3.48, 4.85, 4.67, 5.26, 
                  5.11, 5.34, 5.03, 7.41, 6.24, 5.50, 
                  6.27, 2.91)

Zunächst benötigen Sie S_X aus Gleichung 3.3. Dies können Sie mit der Funktion sd berechnen:

S_X <- sd(chemotherapy)
S_X
[1] 1.265073

Anschließend müssen Sie \bar{X} und den Rest aus Gleichung 3.4 berechnen.

Aufgabe 5.2 (Arbeitsauftrag 2 - Testentscheidung) Vergleichen Sie den Wert der in Arbeitsauftrag 1 erhaltenen Teststatistik T mit dem kritischen Wert der Teststatistik zum Niveau \alpha = 0.05 und formulieren Sie eine Testentscheidung.

Aufgabe 5.3 (Arbeitsauftrag 3 - Berechnung des p-Werts) Berechnen Sie den zugehörigen p-Wert zum Einstichproben-t-Test für die Studiendaten aus dem Anwendungsbeispiel.

6 Der Einstichproben-t-Test in R

Die obigen händischen Berechnungen sind möglich, aber die Funktion t.test in R erleichtert die Anwendung deutlich. Wir können etwa wie folgt den obigen Test in einer Zeile durchführen:

t.test(chemotherapy, conf.level = 0.95, mu = 3, 
       alternative = "greater")

    One Sample t-test

data:  chemotherapy
t = 11.204, df = 49, p-value = 2.026e-15
alternative hypothesis: true mean is greater than 3
95 percent confidence interval:
 4.704451      Inf
sample estimates:
mean of x 
   5.0044 

Die Argumente conf.level legen das Konfidenzlevel fest, was 1 minus dem Testniveau entspricht. Will man also ein Testniveau von 5\% einhalten, so muss conf.level = 0.95 gewählt werden. Das Argument mu gibt den Wert von \mu_0 in Gleichung 3.4 an, und alternative = "greater" spezifiziert, dass wir den rechtsseitigen Test mit H_1:\mu >\mu_0 durchführen.

Aufgabe 6.1 (Arbeitsauftrag 4 - Einstichproben-t-Test in R) Nehmen Sie an, dass in der Studie zur Chemotherapie bei Brustkrebs \mu_0 = 5 anstatt \mu_0 = 3 gewählt worden ist. Welche Testentscheidung ergibt sich nun?

7 Zusammenfassung

In diesem Kapitel haben Sie den Einstichproben-t-Test kennengelernt. Dieser Hypothesentest ist unter den am häufigsten in der Praxis eingesetzten parametrischen Tests. Der Einstichproben-t-Test verallgemeinert den Gauß-Test für eine Stichprobe und setzt die Varianz ebenfalls als unbekannt voraus. Die Teststatistik wurde motiviert und die Voraussetzungen erläutert. Ein praktisches Beispiel hat veranschaulicht, wie der t-Test in R angewendet werden kann.

Lösungen der Aufgaben

Wir erhalten den Wert von T in Gleichung 3.4 wie folgt:

barX <- mean(chemotherapy)
S_X <- sd(chemotherapy)
sqrtn <- sqrt(50)
mu0 <- 3

Beachten Sie, dass \mu_0=3 und nicht gleich -3 ist, da die Studiendaten jeweils die Reduktion des Tumorvolumens nach Chemotherapie angeben.

T <- sqrtn * (barX - mu0) / S_X
T
[1] 11.20351

Zurück zu Aufgabe 5.1

Den kritischen Wert erhalten wir wie folgt:

qt(0.95, df = 50-1)
[1] 1.676551

Ein Vergleich zeigt, dass wir H_0:\mu \leq mu_0 verwerfen können, da T>1.676 ist.

Ausgehend von den Studienergebnissen bedeutet dies, dass die Reduktion des Tumorvolumens in der Grundpopulation (aller potentiellen Patient:innen die die Chemotherapie erhalten) im Durchschnitt größer als 3cm^3 ist.

Zurück zu Aufgabe 5.2

Der p-Wert ergibt sich zu:

pt(T, df = 50 - 1, lower.tail = FALSE)
[1] 2.025739e-15

Es gilt offensichtlich p< \alpha = 0.05, das Ergebnis ist statistisch signifikant.

Zurück zu Aufgabe 5.3

Wir erhalten:

t.test(chemotherapy, conf.level = 0.95, mu = 5, 
       alternative = "greater")

    One Sample t-test

data:  chemotherapy
t = 0.024594, df = 49, p-value = 0.4902
alternative hypothesis: true mean is greater than 5
95 percent confidence interval:
 4.704451      Inf
sample estimates:
mean of x 
   5.0044 

Die Nullhypothese kann damit nicht verworfen werden, da t=0.02< 1.676 und p=0.4902 > 0.05 = \alpha_0 ist.

Zurück zu Aufgabe 6.1

Lizenz
Diese Lerneinheit “Statistische Hypothesentests” wurde von Riko Kelter, Alexander Schurr und Susanne Spies unter Mithilfe von Annika Hirth an der Universität Siegen entwickelt. Es ist lizenziert unter der CC-BY-SA 4.0 Lizenz und ist verfügbar auf ORCA.nrw.

Literatur

Bijma, Fetsje, Marianne Jonker, A. W. van der Vaart, und Reinie. Erné. 2017. Introduction to Mathematical Statistics. Amsterdam: Amsterdam University Press.
Rüschendorf, Ludger. 2014. Mathematische Statistik. Springer.