flowchart LR A[Voraussetzungen] --> B(Anwendungsbeispiel <br> 2x2 Kontingenztafel) B --> C[Anwendungsbeispiel <br> allgemeiner Fall] C --> D[Zusammenfassung]
Lernziele: Am Ende des Kapitels können Sie
- den Chi-Quadrat-Unabhängigkeitstest in R anwenden
- die Ergebnisse interpretieren
1 Einführung
Neben dem t-Test für unabhängige Stichproben ist der Chi-Quadrat-Unabhängigkeitstest nach Pearson einer der bekanntesten statistischen Tests überhaupt. In seiner simpelsten Form vergleicht er die Wahrscheinlichkeiten beziehungsweise Anteile für das Eintreten eines Ereignisses zwischen zwei unabhängigen Stichproben. Vorsicht ist bei der Einteilung von Chi-Quadrat-Tests geboten, es gibt verschiedene Varianten:
Der \chi^2-Verteilungstest testet, ob vorliegende Daten auf eine bestimmte Weise verteilt sind, also einer vorgegebenen Verteilung F folgen.
Der \chi^2-Unabhängigkeitstest überprüft, ob zwei Merkmale stochastisch unabhängig sind. Der \chi^2-Unabhängigkeitstest für Kontingenztafeln ist das in der Praxis populärste Beispiel, auf das wir uns in diesem Kapitel konzentrieren.
Der \chi^2-Homogenitätstest überprüft, ob ob zwei oder mehr Stichproben derselben Verteilung bzw. einer homogenen Grundgesamtheit entstammen.
Wir konzentrieren uns hier lediglich auf den \chi^2-Unabhängigkeitstest und dessen Anwendung in Kontingenztafeln.
Der Aufbau dieses Kapitels ist wie folgt:
Im nächsten Abschnitt starten wir mit den Voraussetzungen für den Test. Anschließend wird ein Anwendungsbeispiel im Fall der 2\times 2-Kontingenztafel zur Motivation genommen, welches der in der Praxis meist verwendete Fall ist. Anschließend wird der allgemeine Fall einer k\times l-dimensionalen Kontingenztafel aufbauend auf dem ersten Anwendungsbeispiel diskutiert. Neben der praktischen Durchführung des Tests in R dient der letzte Abschnitt zusätzlich dazu eine Zusammenfassung zu liefern.
2 Voraussetzungen
Zunächst ist es hilfreich, sich die Voraussetzungen des Tests klar zu machen:
Es soll die Wahrscheinlichkeit für das Eintreten eines Ereignisses zwischen zwei unabhängigen Stichproben verglichen werden
Die erwarteten Zellhäufigkeiten in der Kontingenztafel sind jeweils mindestens fünf
Die Verteilung des binären Merkmals ist fest gegeben und es werden keine zusätzlichen Verteilungsannahmen gemacht
Die dritte Voraussetzung ist hier besonders interessant, da der \chi^2-Unabhängigkeitstest keine weiteren Annahmen macht. Er ist somit eine Art Mischung aus einem parametrischen und einem nicht-parametrischen Test (Held, Rufibach, und Seifert 2013).
3 Der Chi-Quadrat-Unabhängigkeitstest für 2\times 2-Kontingenztafeln
Wir starten mit folgendem Anwendungsbeispiel:
Beispiel 3.1 (Antipsychotika in der Behandlung von Schizophrenie) Ziprosidon und Amisulprid sind zwei antipsychotische Wirtstoffe, welche in einer randomisierten klinischen Studie von Psychiatern untersucht werden sollen (Rauch u. a. 2019). Ziel der Studie ist es, die Wahrscheinlichkeit für das Ansprechen auf die Therapie zwischen beiden Medikamenten zu vergleichen. Eine Patient:in wird hierbei als Ansprecher bzw. Responder gezählt, sofern die Symptomatik innerhalb eines Jahres um einen vordefinierten Betrag zurückgeht. Die Fragestellung der Studie lautet somit:
Unterscheiden sich die Wahrscheinlichkeiten für ein Ansprechen auf die Therapie zwischen den beiden Medikamenten Ziprosidon und Amisulprid?
Widmen wir uns zunächst dem Aufstellen der zu testenden Hypothesen. Aus dem Anwendungsbeispiel lassen sich die beiden folgenden Hypothesen ableiten:
H_0: Die Wahrscheinlichkeit für ein Ansprechen auf die Therapie unter Ziprosidon und Amisulprid sind gleich
H_1: Die Wahrscheinlichkeiten für ein Ansprechen auf die Therapie unter Ziprosidon und Amisulprid unterscheiden sich
Anmerkung (Achtung!). Die Nullhypothese H_0 im \chi^2-Unabhängigkeitstest besagt nicht, dass das Ereignis in beiden Gruppen gleich häufig auftritt. Sie besagt lediglich, dass die Wahrscheinlichkeiten in den den beiden Gruppen zu Grunde liegenden Populationen identisch sind.
Formal können wir die Hypothesen umformulieren. Obwohl wir keine Verteilungsannahme für den Test machen, testen wir
H_0:p_1=p_2 \text { versus } H_1:p_1 \neq p_2
wobei p_1 und p_2 die wahren, unbekannten Erfolgswahrscheinlichkeiten in den beiden Populationen bezeichnen, die den zwei Gruppen zu Grunde liegen. Betrachten wir für ein besseres Verständnis die untere 2\times 2-Kontingenztafel.
Ansprechen | kein Ansprechen | \sum | |
---|---|---|---|
Gruppe 1 (Ziprosidon) | a | b | n_1=a+b |
Gruppe 2 (Amisulprid) | c | d | n_2=c+d |
\sum | a+c | b+d | n=n_1+n_2 |
In der Gruppe 1 (Ziprosidon) sprechen a Patient:innen auf die Therapie an. In Gruppe 2 (Amisulprid) sind es c Patient:innen. In Gruppe 1 sind insgesamt n_1=a+b Probanden, in Gruppe 2 n_2. Insgesamt nehmen n=n_1+n_2 Patient:innen an der Studie teil. Die Einträge a, b, c, d bezeichnen wir auch als beobachtete Häufigkeiten.
Gilt H_0:p_1=p_2, so tritt das Ereignis in beiden Grundpopulationen gleich häufig auf, also p_1=p_2=p für einen Wert p\in [0,1]. Ist H_0 also wahr, so kann die Wahrscheinlichkeit für ein Ansprechen auf die Therapie aus den zusammengelegten Stichproben beider Gruppen geschätzt werden. In der Gesamtstichprobe von n Patient:innen sprechen a+c Patient:innen auf eine Therapie an. Die unbekannte gemeinsame Wahrscheinlichkeit p können wir dann durch
\hat{p}=\frac{a+c}{a+b+c+d}
schätzen. Mit Hilfe dieses Ansatzes können wir nun die erwartete Anzahl von Respondern in jeder Gruppe unter Gültigkeit von H_0 berechnen.
In Gruppe 1 gibt es n_1 Patient:innen, die mit einer geschätzten Wahrscheinlichkeit von \hat{p} auf die Therapie ansprechen, sofern H_0 gilt. Damit ergeben sich \hat{a}=n_1\cdot \hat{p} Responder für Gruppe 1, falls H_0 wahr ist.
In Gruppe 2 gibt es n_2 Patient:innen, die mit einer geschätzten Wahrscheinlichkeit von \hat{p} auf die Therapie ansprechen, sofern H_0 gilt. Damit ergeben sich \hat{c}=n_2 \cdot \hat{p} Responder für Gruppe 1, falls H_0 wahr ist.
Analog erhält man durch die obige Überlegung \hat{b}=n_1 \cdot (1-\hat{p}) Nicht-Responder für Gruppe 1 und \hat{d}=n_2 \cdot (1-\hat{p}) Nicht-Responder für Gruppe 1 und 2, falls H_0 gilt. Die Idee des \chi^2-Unabhängigkeitstest ist nun die folgende.
Anmerkung (Idee des \chi^2-Unabhängigkeitstests für Kontingenztafeln). Wir wissen, dass unter Gültigkeit von H_0 die Häufigkeiten \hat{a}, \hat{b}, \hat{c} und \hat{d} in der 2\times 2-Kontingenztafel erwartet werden. Es liegt daher nahe, die tatsächlich beobachteten Häufigkeiten mit den unter H_0 erwarteten zu vergleichen. Weichen die tatsächlich beobachteten Häufigkeiten stark von den unter H_0 erwarteten ab, so weckt dies Skepsis in Bezug auf die Gültigkeit der Nullhypothese. Wir sollten diese dann verwerfen.
Die Teststatistik des \chi^2-Tests ergibt sich damit wie folgt:
T=\frac{(a-\hat{a})^2}{\hat{a}}+\frac{(b-\hat{b})^2}{\hat{b}}+\frac{(c-\hat{c})^2}{\hat{c}}+\frac{(d-\hat{d})^2}{\hat{d}}
Wir subtrahieren also von jeder beobachteten Häufigkeit der Kontingenztafel die unter H_0 erwartete Häufigkeit, quadrieren diese Differenz und teilen anschließend noch durch die unter H_0 erwartete Häufigkeit. Zuletzt bilden wir die Summe dieser Werte für jeden Eintrag der Kontingenztafel.
Ansprechen | kein Ansprechen | \sum | |
---|---|---|---|
Gruppe 1 (Ziprosidon) | 69 | 41 | 110 |
Gruppe 2 (Amisulprid) | 67 | 33 | 100 |
\sum | 136 | 74 | 210 |
Die obige Tabelle 3.2 zeigt die (fiktiven) Studiendaten. Wir wollen nun zunächst händisch den Wert der Teststatistik ausrechnen.
Aufgabe 3.1 (Berechnung der Teststatistik) Berechnen Sie den Wert der \chi^2-Teststatistik T für die obigen Studiendaten.
Man kann beweisen, dass die Teststatistik T im Falle einer 2\times 2-Kontingenztafel asymptotisch (also für hinreichend große Stichproben) \chi^2-verteilt ist mit einem Freiheitsgrad:
T \stackrel{a}{\sim}\chi_1^2
Die Testentscheidung lässt sich nun leicht mit Hilfe der Verteilungsfunktion der \chi_1^2-Verteilung berechnen:
<- pchisq(T, df = 1, lower.tail = FALSE)
p p
[1] 0.3173105
Wir verwenden hier das Argument lower.tail = FALSE
, da die Chiquadrat-Verteilung nur positive Werte annehmen kann, und wir H_0 verwerfen, falls T größer als T_{krit} ist, wobei T_{krit} der kritische Wert der \chi_1^2-Verteilung zum Testniveau \alpha ist. Legen wir das Testniveau \alpha=0.05 fest, so können wir die Nullhypothese nicht verwerfen.
Wir können daher nicht auf einen Unterschied in den Ansprechraten zwischen Ziprasidon und Amisulprid folgern.
In der Praxis nimmt einem die Funktion chisq.test
die obigen Berechnungen ab:
<- matrix(c(69, 41, 67, 33), nrow = 2, ncol = 2, byrow = TRUE)
M chisq.test(M, correct = FALSE)
Pearson's Chi-squared test
data: M
X-squared = 0.41904, df = 1, p-value = 0.5174
Hierzu muss lediglich die 2\times 2-Kontingenztafel als Matrix M
eingegeben werden. Beachten Sie, dass das Argument correct = FALSE
die standardmäßige Kontinuitätskorrektur von Yates’ ausgeschaltet wird. Letztere subtrahiert von jeder Differenz in der Teststatistik 0.5. Der Grund hierfür ist, dass die Binomialwahrscheinlichkeiten für jeden Zelleintrag nur diskret sind, die Teststatistik aber eine stetige \chi_1^2-Verteilung hat. Die Annahme, dass die diskreten Binomialwahrscheinlichkeiten in der Kontingenztafel durch die \chi_1^2-Verteilung approximiert werden können ist nicht ganz korrekt, und daher entsteht ein Fehlerterm. Dieser wird durch Yates’ Kontinuitätskorrektur vermindert. Standardmäßig ist diese Korrektur an, und sollte auch verwendet werden. Versuchen Sie doch einmal, die Korrektur anzuschalten und beobachten, wie sich das Ergebnis ändert.
Aufgabe 3.2 (Quiz) Wie verändert sich der p-Wert wenn man Yates’ Kontinuitätskorrektur anschaltet?
Der p-Wert bleibt unverändert
Der p-Wert wird größer
Der p-Wert wird kleiner
4 Der verallgemeinerte Chi-Quadrat-Unabhängigkeitstest für Kontingenztafeln
Befassen wir uns nun mit dem allgemeinen Fall einer l\times k Kontingenztafel. Im letzten Abschnitt haben wir gesehen, dass der \chi^2-Test in seiner einfachsten Form ein binäres Merkmal zwischen zwei Gruppen vergleicht. Im Anwendungsbeispiel entsprach dies dem Ansprechen auf die Therapie, und in solch einer Situation lassen sich die Studiendaten in einer 2\times 2-Kontingenztafel darstellen. Es gibt jedoch auch Situationen, in denen die erhobenen Studiendaten in einer l\times k Kontingenztafel angeordnet werden. Dies ist erforderlich, wenn zum Beispiel ein binäres Merkmal zwischen drei Gruppen verglichen werden soll. Es ergeben sich dann k=3 Zeilen und l=2 Spalten. Will man etwa ein kategorielles Merkmal mit vier möglichen Ausprägungen zwischen zwei Gruppen vergleichen, so ergeben sich k=2 Zeilen und l=4 Spalten.
Der verallgemeinerte \chi^2-Test ist insbesondere dann geeignet, wenn die Verteilung einer kategoriellen Variablen zwischen mehreren Gruppen untersucht werden soll. Wir erweitern im folgenden unser Anwendungsbeispiel aus dem letzten Abschnitt auf diese Situation.
Beispiel 4.1 (Vergleich von drei Antipsychotika in der Behandlung von Schizophrenie) Die Studienleitung der Antipsychotika-Studie entscheidet nach einiger Diskussion, noch ein drittes Antipsychotikum, Olanzapin, in die Studie als Vergleichsarm einzuschliessen.2 Zusätzlich möchte die Studienleistung nun ein differenzierteres Bild über das Ansprechen der Patient:innen auf die Therapie erhalten. Daher wird das Ansprechen nun auf einer dreistufigen Skala erfasst:
Kategorie 1 (K1): Die Symptomatik geht innerhalb des ersten Jahres nicht zurück oder verschlechtert sich sogar.
Kategorie 2 (K2): Die Symptomatik bleibt innerhalb des ersten Jahres stabil.
Kategorie 3 (K3): Die Symptomatik verbessert sich innerhalb eines Jahres.
Die Fragestellung der Studie lautet nun:
Sind die Wahrscheinlichkeiten, dass eine Patient:in zu Kategorie K1, K2 oder K3 gehört in den drei Behandlungsgruppen unterschiedlich?
Die obige Fragestellung erscheint zunächst deutlich komplexer als die im vorherigen Abschnitt. Dennoch lässt sich der \chi^2-Test hier anwenden. Die Null- und Alternativhypothese lauten wie folgt:
H_0: Die Wahrscheinlichkeiten, dass eine Patient:in zu Gruppe K1, K2 oder K3 gehört ist unabhängig von der Zugehörigkeit zu den drei Behandlungsgruppen
H_1: Die Wahrscheinlichkeiten, dass eine Patient:in zu Gruppe K1, K2 oder K3 gehört ist abhängig von der Zugehörigkeit zu den drei Behandlungsgruppen
In der Praxis ist das Ziel der Studie, die Nullhypothese zu verwerfen und nachzuweisen, dass die Zugehörigkeit zu einer der Gruppen K1, K2 oder K3 abhängig von der Behandlungsgruppe, also dem verabreichten Medikament ist.
Die zugehörige allgemeine l\times k Kontingenztafel ist Tabelle 4.1 dargestellt.
Ausprägung 1 | Ausprägung 2 | … | Ausprägung k | |
---|---|---|---|---|
Gruppe 1 | a_{11} | a_{12} | ... | a_{1k} |
Gruppe 2 | a_{21} | a_{22} | ... | a_{2k} |
... | ... | ... | ... | … |
Gruppe l | a_{l1} | a_{l2} | ... | a_{lk} |
Die \chi^2-Teststatistik lässt sich nun auf l Gruppen mit k Merkmalsausprägungen verallgemeinern:
T:= \sum_{i=1}^{l} \sum_{j=1}^{k} \frac{(n_{ij}-\hat{n}_{ij})^2}{\hat{n}_{ij}} \tag{4.1}
Hierbei bezeichnet n_{ij} die beobachtete Anzahl der Patient:innen in Gruppe i, i=1,...,l aus Kategorie j, j=1,...,k. Die unter Annahme der Nullhypothese geschätzte Anzahl \hat{n}_{ij} an Patient:innen aus Gruppe i und Kategorie k wird wieder davon subtrahiert, dieser Abstand quadriert und entsprechen durch \hat{n}_{ij} geteilt um zu normieren.
Anmerkung (Verteilung der \chi^2-Teststatistik T in allgemeinen l\times k-Kontingenztafeln). Die Teststatistik T im allgemeinen \chi^2-Test für l\times k-Kontingenztafeln folgt unter der Nullhypothese H_0 bei ausreichend großen erwarteten Häufigkeiten \hat{n}_{ij} annähernd einer \chi_{(k-1)(l-1)}^2-Verteilung mit (k-1)\cdot (l-1) Freiheitsgraden. Der kritische Wert entspricht dem (1-\alpha)-Quantil der \chi_{(k-1)(l-1)}^2-Verteilung. Die Nullhypothese wird zu einem zweiseitigen Signifikanzniveau \alpha abgelehnt, wenn T größer oder gleich dem kritischen Wert ist.
5 Anwendungsbeispiel
Die Studiendaten der neuen Studie die auch Olanzapin als Behandlung beinhaltet sind in Tabelle 5.1 dargestellt.
K1 | K2 | K3 | \sum | |
---|---|---|---|---|
Ziprasidon | 20 | 21 | 69 | 110 |
Amisulprid | 20 | 13 | 67 | 100 |
Olanzapin | 10 | 23 | 67 | 100 |
\sum | 50 | 57 | 203 | 310 |
Aufgabe 5.1 (Berechnung der Teststatistik) Berechnen Sie den Wert der \chi^2-Teststatistik T für die dreiarmige Studie zu Antipsychotika.
Aufgabe 5.2 (Testentscheidung) Vergleichen Sie den im letzten Arbeitsauftrag berechneten Wert T der \chi^2-Teststatistik mit dem entsprechenden kritischen Wert zum Signifikanzniveau \alpha=0.05. Welche Testentscheidung ergibt sich auf Basis der Teststatistik für die Studie zu Antipsychotika damit?
Aufgabe 5.3 (Quiz) Welchen Schluss sollten die Forscher aus dem Testergebnis ziehen?
Die Wahrscheinlichkeit, dass ein Patient zur Kategorie K1, K2 oder K3 gehört ist unabhängig von der Zugehörigkeit zur Antipsychotika-Gruppe.
Es kann keine Aussage darüber getroffen werden, ob die Wahrscheinlichkeit einer Patient:in zur Kategorie K1, K2 oder K3 zu gehören abhängig von der Zugehörigkeit zur Antipsychotika-Gruppe ist.
Die Wahrscheinlichkeit, dass ein Patient zur Kategorie K1, K2 oder K3 gehört ist abhängig von der Zugehörigkeit zur Antipsychotika-Gruppe.
6 Allgemeiner Chi-Quadrat-Unabhängigkeitstest in R
Abschließend wollen wir die obigen Schritte mit Hilfe der Funktion chisq.test
lösen.
<- matrix(c(20, 20, 10, 21, 13, 23, 69, 67, 67), nrow = 3, ncol = 3, byrow = FALSE)
M <- chisq.test(M)
result result
Pearson's Chi-squared test
data: M
X-squared = 6.5085, df = 4, p-value = 0.1643
Der obige Ausschnitt zeigt, dass die chisq.test
Funktion auf eine Nachkommastelle rundet. Es ist daher sinnvoller, das Testergebnis wie folgt auszugeben:
$statistic result
X-squared
6.508536
Das entspricht der oben manuell ausgerechneten Teststatistik T. Der zugehörige p-Wert ergibt sich als
$p.value result
[1] 0.1642533
Aufgabe 6.1 (Berechnung des p-Werts) Berechnen Sie auf Basis des Werts T=6.51 der \chi^2-Teststatistik in der Antipsychotika-Studie den zugehörigen p-Wert. Überprüfen Sie, dass dieser wirklich wie von der chisq.test
Funktion ausgegeben gleich 0.164 ist.
7 Zusammenfassung
In diesem Kapitel haben Sie gelernt, wie Sie den Chi-Quadrat-Test für Kontingenztafeln in R anwenden. Anhand zweier Beispiele haben Sie gesehen, wie der Test für den Fall einer 2\times 2 und einer l\times k Kontingenztafel anzuwenden ist. Mit Hilfe der chisq.test
Funktion in R können Sie leicht die Hypothese der Unabhängigkeit zwischen Spalten und Zeilen in einer Kontingenztafel testen, und so eine Vielzahl praktischer Fragestellungen durch statistisches Testen beantworten.
Lösungen der Aufgaben
Lizenz
Diese Lerneinheit “Statistische Hypothesentests” wurde von Riko Kelter, Alexander Schurr und Susanne Spies unter Mithilfe von Annika Hirth an der Universität Siegen entwickelt. Es ist lizenziert unter der CC-BY-SA 4.0 Lizenz und ist verfügbar auf ORCA.nrw.
Literatur
Fußnoten
Ob dieser Zusammenhang kausal ist, muss mit Hilfe eines geeigneten experimentellen Design sichergestellt werden. In der Praxis werden Probanden daher zufällig in die Gruppen randomisiert, um den Einfluss von Störgrößen zu unterbinden. Werden solche Maßnahmen nicht ergriffen kann es sein das Patient:innen in einem deutlich besseren Gesundheitszustand systematisch Ziprasidon als Medikament wählen, da dieses zum Beispiel weniger bekannte Nebenwirkungen hat. Selbst wenn dann Amisulprid wirksamer ist und mehr Patient:innen auf die Therapie ansprechen, wird der Test Ziprasidon bevorzugen, da die Patient:innen in dieser Gruppe systematisch in einem besseren Ausgangsgesundheitszustand waren.↩︎
Als Vergleichsarm bezeichnet man in einer klinischen Studie das randomisieren von Patient:innen in eine weitere Gruppe mit einem weiteren Therapeutikum, hier Olanzapin. Sieht der Aufbau einer klinischen Studie eine Behandlung der Studienteilnehmer:innen in verschiedenen Gruppen vor, so nennt man diese Gruppen auch Behandlungsarme. Bei einer zweiarmigen Studie werden die Teilnehmenden daher in genau 2 Gruppen randomisiert. Erhält eine dieser Gruppen innerhalb einer Studie ein Placebo, wird diese Gruppe auch „Placeboarm” genannt. Die Gruppen, die ein Vergleichsmedikament erhalten werden als Vergleichsarme bezeichnet.↩︎