Der t-Test für verbundene Stichproben

Zusammenfassung
Wir behandeln in diesem Kapitel den t-Test für zwei verbundene Stichproben. Der Hypothesentest ist unter den am häufigsten in der Praxis eingesetzten parametrischen Tests. Der t-Test für zwei verbundene Stichproben wird beispielsweise angewandt, wenn zwei Messungen derselben Individuen beziehungsweise Beobachtungseinheiten zu unterschiedlichen Zeitpunkten gemacht wurden und diese Messungen damit nicht mehr unabhängig voneinander sind. Es wird gezeigt, dass der t-Test für zwei verbundene Stichproben sich auf den Einstichproben-t-Test zurückführen lässt, die Teststatistik wird motiviert und erläutert. Ein praktisches Beispiel veranschaulicht wie der t-Test für zwei verbundene Stichproben in R angewendet wird.

Lernziele: Am Ende des Kapitels können Sie

  • den Einstichproben-t-Test anwenden
  • die Voraussetzungen des Tests benennen
  • konkrete Datenanalysen mit Hilfe von R durchführen

1 Einführung

In einer Reihe von Kontexten liegt das Interesse darin, die verschiedenen Merkmalsausprägungen einer Stichprobe im Hinblick auf ihre zentrale Lage zwischen zwei oder mehreren Gruppen zu vergleichen. Parametrische Tests vergleichen in den meisten Fällen Populationsmittel, das heißt die Erwartungswerte. Nicht-parametrische Tests vergleichen stattdessen allgemeinere Lageunterschiede zwischen den zwei oder mehreren Gruppen und benötigen weniger Modellierungsannahmen.

In diesem Kapitel widmen wir uns dem t-Test für verbundene Stichproben. Der t-Test gliedert sich allgemein in vier wichtige Varianten:

  • Der Einstichproben-t-Test (engl. one-sample t-test) überprüft anhand des Mittelwerts einer Stichprobe, ob der Mittelwert der Grundgesamtheit sich von einem vorgegebenen Sollwert unterscheidet. Vorausgesetzt wird dabei, dass die beobachteten Daten einer normalverteilten Grundgesamtheit entstammen. Alternativ lässt man in der Praxis auch asymptotische Argumente zu, um bei hinreichend großer Fallzahl den zentralen Grenzwertsatz auszunutzen.

  • Der Zweistichproben-t-Test (engl. two-sample t-test) prüft anhand der Mittelwerte zweier unabhängiger Stichproben, wie sich die Mittelwerte zweier Populationen zueinander verhalten. Voraussetzung ist, dass die Daten der Stichproben einer normalverteilten Grundgesamtheit entstammen bzw. es genügend große Stichprobenumfänge gibt, so dass der zentrale Grenzwertsatz gilt. Der klassische (auch Student’sche) t-Test setzt dabei voraus, dass beide Stichproben aus Grundgesamtheiten mit gleicher Varianz stammen. Der sogenannte Welch-t-Test ist eine Variante, die die Gleichheit der Varianzen nicht voraussetzt.

  • Der t-Differenzentest (engl. paired t-test) überprüft mit den Differenzen der Messwerte von zwei Variablen, die an denselben Untersuchungseinheiten erfasst wurden, ob Mittelwertunterschiede bezüglich dieser beiden Variablen in der Grundgesamtheit existieren. Er setzt voraus, dass die Differenzen normalverteilt sind.

  • Der t-Test des Regressionskoeffizienten prüft in der linearen Regression unter der Annahme normalverteilter Residuen, ob ein Regressionskoeffizient null ist.

In diesem Kapitel behandeln wir den t-Test für zwei verbundene Stichproben.

2 Der t-Test für zwei verbundene Stichproben

Der t-test für zwei verbundene Stichproben dient dazu, voneinander abhängige Stichproben in Bezug auf ihren Erwartungswert zu vergleichen. Ein Beispiel ist eine Studie, in der Patient:innen bei Einschluss in die Studie untersucht werden. Am Ende der Studie wird eine weitere Untersuchung durchgeführt und es entstehen zwei Stichproben, die nicht voneinander unabhängig sind. Das Ergebnis Y_i jeder Patient:in nach Durchführung der Studie ist offensichtlich davon abhängig, wie der Ausgangszustand X_i vor Durchführung der Studie war. Man nennt diese Messungen auch Baseline und Follow-up (Rauch u. a. 2019).

Verbundene bzw. abhängige Stichproben treten häufig in der Medizin, Soziologie und Biologie auf:

  • Eine Messung wird zu verschiedenen Zeitpunkten an derselben Untersuchungseinheit (Patient:innen, Labortiere, Messpunkte, Sensoren) wiederholt

  • Zwei Wirkstoffe werden an zwei Tieren aus demselben Wurf untersucht

  • Zwei Hautbereiche einer Patient:in werden mit zwei verschiedenen Wirkstoffen behandelt und anschließend verglichen

  • Eine psychologische Intervention untersucht die Rechtschreibleistung von Schüler:innen vor und nach einem Blockkurs zur Verbesserung der Rechtschreibleistung

3 Herleitung der Teststatistik

Sind die Messungen Baseline und Follow-up durch die Beobachtungen X_1,...,X_{n} und Y_1,...,Y_n gegeben, so bedient sich die Herleitung der Teststatistik für den t-test zweier verbundener Stichproben eines einfachen Tricks: Man bildet die Differenzen X_i - Y_i für i=1,...,n. Diese Differenzen interpretiert man nun als eine neue Stichprobe, die unabhängig und identisch verteilt ist. Jede Differenz gehört zu einer Beobachtungseinheit (Patient:in, Labortier, et cetera), sodass die Abhängigkeit nicht mehr vorhanden ist. Weiter hat die Gesamtpopulation der Beoachtungseinheiten auch nur eine Standardabweichung \sigma, welche unbekannt ist.

Mit Hilfe dieses Tricks führt man daher einfach den Einstichproben-t-Test durch, und testet H_0:\mu_1-\mu_2=0 \text{ versus }H_1:\mu_1-\mu_2 \neq 0 Es werden die Differenzen X_i - Y_i gebildet und die Hypothese H_0:\mu_1-\mu_2=0 ist äquivalent dazu, dass der Mittelwert der Differenzen D:=X-Y gleich 0 ist. Man testet also im Einstichproben-t-Test für den Referenzwert \mu_0 = 0.

Analog lassen sich auch rechts- und linksseitige Tests H_1:\mu_1-\mu_2 \leq 0 gegen H_1:\mu_1-\mu_2 >0 und H_0:\mu_1-\mu_2 <0 gegen H_1:\mu_1-\mu_2 \geq 0 durchführen.

Anmerkung (Achtung!). In der obigen Überlegung fließt ein, dass die Daten wiederum entweder normalverteilt oder der Stichprobenumfang hinreichend groß sein muss. Die Differenz zweier normalverteilter Zufallsvariablen ist wieder normalverteilt, sodass die Annahme des Einstichproben-t-Tests erfüllt ist. Sind die Messreihen X_1,...,X_{n} und Y_1,...,Y_n jedoch nur nicht normalverteilt, so ist die Summe der Differenzen D_i :=X_i-Y_i für großes n immer noch approximativ normalverteilt nach dem zentralen Grenzwertsatz.

Es gelten die folgenden Voraussetzungen für den t-test für verbundene Stichproben. 1. Die gepaarten Messungen des Merkmals für jeeds Individuum sind voneinander abhängig. Die Differenzen der Merkmalspaare müssen jedoch untereinander unabhängig sein. 2. Das Merkmal muss mindestens intervallskaliert sein. 3. Die Differenzen der Merkmalspaare sind normalverteilt oder die Fallzahl der gepaarten Stichprobe ist mindestens 30.

4 Anwendungsbeispiel

Beispiel 4.1 (Anwendungsbeispiel - Polyphenon E und Prostatakarzinom) Polyphenon E ist in grünem Tee enthalten und Forscher wollen untersuchen, ob Polyphenon E den prostataspezifischen Antigenwert (PSA) verringern kann. Dieser ist in der Urologie wichtig, da ein hoher PSA-Wert ein Indiz für einen Tumor ist. Dazu werden Patienten in der Studie bei Einschluss untersucht und der PSA-Wert gemessen. Anschließend wird jedem Patienten Polyphenon E verabreicht und nach einer festgelegten Zeit wieder der PSA-Wert gemessen. Die folgenden Daten ergeben sich bei Studieneinschluss:

4.59 19.22 1.11 14.30 6.85 12.30 13.19 5.92 8.26 8.06
2.66 10.47 5.38 2.74 7.58 4.24 6.87 12.33 12.60 1.67
3.01 6.27 9.83 9.02 2.01 -1.63 5.62 13.69 -2.20 4.51
8.30 4.72 8.74 11.85 9.24

Nach Verabreichung des Polyphenon E’s bei den Patienten ergibt sich beim Follow-up folgende Datenlage:

7.25 14.79 5.97 5.68 7.49 5.60 6.85 10.05 9.79 5.56
6.21 11.40 10.09 2.74 7.58 4.24 6.87 12.33 8.63 1.67
11.16 2.77 11.37 3.90 7.24 -3.50 8.16 15.03 -8.16 16.86
8.30 4.72 11.16 11.85 9.24

Auf Basis der beobachteten Daten stellt sich der Studienleitung die Frage:

Unterscheidet sich der durchschnittliche PSA-Wert zwischen Baseline und Follow-up?

Die folgenden beiden Hypothesen lassen sich ableiten:

  • H_0: Der erwartete PSA-Wert in der Interventionsgruppe ist Baseline genau so groß wie nach der Intervention.

  • H_1: Der erwartete PSA-Wert in der Interventionsgruppe unterscheidet sich zwischen Baseline und nach der Intervention und ist systematisch kleiner in der Interventionsgruppe.

Dies entspricht H_0:\mu_1-\mu_2 \leq 0 und H_1:\mu_1-\mu_2 > 0, wobei \mu_1 und \mu_2 die Erwartungswerte zu Baseline und Follow-up bezeichnen. Wir führen hier also einen einseitigen Test durch.

Die Studiendaten sind in den Objekten baseline und follow_up hinterlegt:

baseline <- c(4.59, 19.22, 1.11, 14.30, 6.85, 12.30, 
              13.19, 5.92, 8.26, 8.06, 2.66, 10.47, 
              5.38, 2.74 , 7.58, 4.24, 6.87, 12.33, 
              12.60, 1.67, 3.01, 6.27, 9.83 , 9.02, 
              2.01, -1.63, 5.62, 13.69, -2.20, 4.51, 
              8.30, 4.72, 8.74, 11.85, 9.24)
follow_up <- c(7.25, 14.79, 5.97, 5.68, 7.49, 5.60, 
               6.8, 10.05, 9.79, 5.56, 6.21, 11.40, 
               10.09, 2.74, 7.58, 4.24, 6.87, 12.33, 
               8.6, 1.67, 11.16, 2.77, 11.37, 3.90, 
               7.24, -3.50, 8.16, 15.03, -8.16, 16.86, 
               8.30, 4.72, 11.16, 11.85, 9.24)

Aufgabe 4.1 (Zweistichproben-t-Test in R) Verwenden Sie die Funktion t.test um einen t-Test zum Niveau \alpha_0=0.05 für zwei verbundene Stichproben für die Polyphenon E Studie zum PSA-Wert beim Prostatakarzinom durchzuführen.

Zunächst benötigen Sie die Differenzen X_i-Y_i:

diff <- baseline - follow_up
diff
 [1]  -2.66   4.43  -4.86   8.62  -0.64   6.70   6.39  -4.13  -1.53   2.50
[11]  -3.55  -0.93  -4.71   0.00   0.00   0.00   0.00   0.00   4.00   0.00
[21]  -8.15   3.50  -1.54   5.12  -5.23   1.87  -2.54  -1.34   5.96 -12.35
[31]   0.00   0.00  -2.42   0.00   0.00

Anschließend müssen Sie einen Einstichproben-t-Test durchführen.

Aufgabe 4.2 (Teststatistik des Zweistichproben-t-Tests in R) Um den Wert der Teststatistik in T:=\sqrt{n} \frac{\bar{X}-\mu_0}{S_X} zu erhalten, können Sie das Ergebnis der t.test Funktion auch in einem Objekt speichern:

result <- t.test(...)

Führen Sie den t-Test wie in Arbeitsauftrag 1 formuliert erneut durch, speichern Sie das Resultat und greifen anschließend mit

result$statistic

auf die Teststatistik zu. Welcher Wert ergibt sich?

5 Zusammenfassung

In diesem Kapitel haben Sie den t-Test für zwei verbundene Stichproben kennengelernt. Dieser Hypothesentest ist unter den am häufigsten in der Praxis eingesetzten parametrischen Tests. Der t-Test für zwei verbundene Stichproben wird beispielsweise angewandt, wenn zwei Messungen derselben Individuen beziehungsweise Beobachtungseinheiten zu unterschiedlichen Zeitpunkten gemacht wurden und diese Messungen damit nicht mehr unabhängig voneinander sind. Es wurde gezeigt, dass der t-Test für zwei verbundene Stichproben sich auf den Einstichproben-t-Test zurückführen lässt, die Teststatistik wurde motiviert und die Voraussetzungen erläutert. Ein praktisches Beispiel hat veranschaulicht, wie der t-Test für zwei verbundene Stichproben in R angewendet werden kann.

Lösungen der Aufgaben

Wir erhalten:

t.test(diff, conf.level = 0.95, mu = 0, 
       alternative = "greater")

    One Sample t-test

data:  diff
t = -0.29489, df = 34, p-value = 0.6151
alternative hypothesis: true mean is greater than 0
95 percent confidence interval:
 -1.44111      Inf
sample estimates:
mean of x 
   -0.214 

Die Nullhypothese kann damit nicht verworfen werden, da p=0.6151 > 0.05 = \alpha_0 ist. Beachten Sie, dass wir den einseitigen Test mit dem Arbument alternative = "greater" angeben, sodass H_0:\mu_1-\mu_2 \leq 0 und H_1:\mu_1-\mu_2 > 0 spezifiziert wird.

Zurück zu Aufgabe 4.1

Wir erhalten:

result <- t.test(diff, conf.level = 0.95, mu = 0, 
       alternative = "greater")
result$statistic
         t 
-0.2948862 

Zurück zu Aufgabe 4.2

Lizenz
Diese Lerneinheit “Statistische Hypothesentests” wurde von Riko Kelter, Alexander Schurr und Susanne Spies unter Mithilfe von Annika Hirth an der Universität Siegen entwickelt. Es ist lizenziert unter der CC-BY-SA 4.0 Lizenz und ist verfügbar auf ORCA.nrw.

Literatur

Rauch, Geraldine, Konrad Neumann, Ulrike Grittner, Carolin Herrmann, und Jochen Kruppa. 2019. Medizinische Statistik für Dummies. Weinheim: Wiley-VCH.