<- c(3, 5, 12) X
Lernziele: Am Ende des Kapitels können Sie
- den Mann-Whitney-U-Test in R anwenden
- die Ergebnisse interpretieren
1 Einführung
Der Mann-Whitney-U-Test für zwei unverbundene Stichproben ist ein nichtparametrischer Hypothesentest. Im Gegensatz zum Gauß-Test oder t-Test stellt er nicht die Voraussetzung, dass die Daten normalverteilt sein müssen. Als nichtparametrischer Test macht der Mann-Whitney-U-Test lediglich die Annahme, dass die Daten mindestens ordinalskaliert sind. Der t-Test ist nur dann anwendbar, wenn letztere intervallskaliert sind. Liegen zwei unverbundene Stichproben vor, so kann der Mann-Whitney-U-Test genau wie der t-Test für zwei unverbundene Stichproben verwendet werden.
Anmerkung (Mann-Whitney-U-Test oder Wilcoxon-Rangsummentest). Der Mann-Whitney-U-Test hat in der Literatur eine Vielzahl an Namen. Dies ist dadurch begründet, dass die Erfindung des Tests nicht auf eine einzelne Person zurückgeführt werden kann und er unabhängig von verschiedenen Autoren vorgeschlagen wurde. Eine Bezeichnung nach D.R. Whitney und H.B. Mann ist Mann-Whitney-U-Test, wobei das U von der Bezeichnung der Teststatistik stammt. Eine weitere Bezeichnung ist Wilcoxon-Rangsummentest (nach R. Wilcox), und in R heißt die zugehörige Funktion wilcox.test
. Aufpassen sollte man wenn der Vorzeichenrangtest nach Wilcox genannt wird: Dieser ist das nichtparametrische Pendant zum t-Test für verbundene Stichproben, und kann nicht für zwei unverbundene Stichproben verwendet werden.
2 Anwendungsbeispiel
Wir motivieren den Mann-Whitney-U-Test mit folgendem Anwendungsbeispiel aus der Zahnmedizin:
Beispiel 2.1 (Anwendungsbeispiel - Osseointegration von Implantaten) In der Zahnmedizin wird der Erfolg eines Implantats anhand verschiedener Kenngrößen beurteilt. Ein relevantes Maß für die Güte der Osseointegration des Implantats in den Kiefer ist die Größe der Grenzfläche zwischen Knochen und Implantat, das sogenannte BIC (Bone to Implant Contact). Der Wert des BICs ist der Anteil des Kontakts des Implantats an der maximal möglichen Fläche in Prozent. Große Werte sprechen für eine gute Einheilung des Implantats.
Eine randomisierte Studie mit 8 Patienten pro Gruppe soll untersuchen, ob Implantat A oder B besser einheilt:
Unterscheiden sich die BIC-Werte von Patient:innen mit Implantat A oder B?
Die zugehörigen Studiendaten sind in Tabelle 2.1 dargestellt.
Patienten-ID | Implantat-Typ | BIC in Prozent |
---|---|---|
1 | Implantat A | 97 |
2 | Implantat A | 80 |
3 | Implantat A | 90 |
4 | Implantat A | 87 |
5 | Implantat A | 85 |
6 | Implantat A | 93 |
7 | Implantat A | 96 |
8 | Implantat A | 6 |
9 | Implantat B | 10 |
10 | Implantat B | 5 |
11 | Implantat B | 95 |
12 | Implantat B | 4 |
13 | Implantat B | 15 |
14 | Implantat B | 1 |
15 | Implantat B | 16 |
16 | Implantat B | 86 |
Aufgabe 2.1 (Quiz) Warum ist der t-Test für zwei unverbundene Stichproben nicht zur Beantwortung der Studienfrage geeignet?
3 Teststatistik
Bevor wir näher auf das Anwendungsbeispiel eingehen, motivieren wir zunächst die Teststatistik. Diese wird häufig mit U bezeichnet, und die Idee des U-Tests ist die Lage zweier Wahrscheinlichkeitsverteilungen zu vergleichen. Die Daten in beiden Gruppen X_1,...,X_m und Y_1,...,Y_n können zwei beliebigen Verteilungen F_X und F_Y folgen, über die nichts näher spezifiziert wird: X_i \stackrel{i.i.d}{\sim} F_X, Y_i \stackrel{i.i.d}{\sim} F_Y. Die Nullhypothese im U-Test sagt aus, dass es gleich wahrscheinlich ist, dass ein zufällig aus der einen Population ausgewählter Wert größer oder kleiner ist als ein zufällig ausgewählter Wert aus der anderen Population: H_0:P(X>Y)=P(X<Y) Die Nullhypothese impliziert die Gleichheit der Verteilungen F_X und F_Y, und die Alternativhypothese H_1 ist entsprechend definiert als: H_1:P(X>Y)\neq P(X<Y) Der Mann-Whitney-U-Test macht die folgenden Voraussetzungen:
Die Messungen des Merkmals (pro Individuum) müssen unabhängig voneinander sein.
Das Merkmal muss mindestens ordinalskaliert sein. Es gibt keine Annahmen über die Verteilung des Merkmals.
Die Gesamtstichprobe sollte nicht zu viele gleiche Werte, das heißt zu viele Bindungen, enthalten. Als Faustregel bei ordinalen Merkmalen sollten mindestens fünf verschiedene Ausprägungen des Merkmals vorliegen (Rauch u. a. 2019).
Unter diesen Annahmen ist der Mann-Whitney-U-Test exakt und konsistent. Im Kontext des Anwendungsbeispiels können wir die Hypothesen wie folgt übersetzen:
H_0: Die Wahrscheinlichkeitsverteilung der BIC-Werte für Implantat A ist dieselbe wie für Implantat B.
H_1: Die Wahrscheinlichkeitsverteilung der BIC-Werte für Implantat A unterscheidet sich von der für Implantat B.
Die Teststatistik des U-Tests basiert auf Rängen und ist wie folgt definiert: U:= \sum_{i=1}^m \sum_{j=1}^n S(x_i,y_j) \tag{3.1}
wobei S(x_i,y_j)=1, falls y_j < x_i, S(x_i,y_j)=0.5, falls y_j = x_i und S(x_i,y_j)=0 sonst. Die Statistik U durchläuft also alle Paare (x_i,y_j) für i=1,...,m, j=1,…,n und stellt einen Indikator dafür dar, ob der Rang von x_i größer als der von y_j ist. Intuitiv folgt daraus, dass große Werte von U dafür sprechen, dass die Wahrscheinlichkeit P(X>Y) größer als P(X<Y) ist. Die Gleichheit von P(X>Y) und P(X<Y) wird gerade in H_0 postuliert, sodass große Werte von U dafür sprechen, H_0 zu verwerfen.
Umgekehrt stellen kleine Werte von U in Indiz dafür dar, dass P(X<Y) größer als P(X>Y) ist, und legen eine Ablehnung von H_0 aus denselben Gründen nahe.
Die Verteilung von U lässt sich durch eine kombinatorische Rekursionsformel bestimmen (Fay und Brittain 2022). In der Praxis ist es jedoch oft hilfreich, dass für hinreichend große Stichprobenumfänge m und n ein Zusammenhang zur Normalverteilung existiert:
U \approx N\left ( \frac{mn}{2}, \frac{nm(n+m+1)}{12}\right ) \tag{3.2}
Dieser gilt für m>3, n>3 und m+n>19, und die entsprechenden kritischen Werte ergeben sich dann aus den Quantilen der Normalverteilung (Fay und Brittain 2022). Dies sind jedoch Faustregeln und keine harten Kriterien. Letztlich kann man nie exakt sagen, ab welchen Fallzahlen die Normalapproximation zuverlässig ist.
Es sei an dieser Stelle noch erwähnt, dass der Mann-Whitney-U-Test auch für das einseitige Testproblem H_0:P(X>Y)\geq P(X<Y) \text{ versus } H_1:P(X>Y)<P(X<Y) oder mit umgekehrtem Ungleichheitszeichen formuliert werden kann, sodass einseitige Tests durchgefüht werden können.
4 Der Mann-Whitney-U-Test in R
Wir kehren nun zum Anwendungsbeispiel zurück und wenden den Mann-Whitney-U-Test in R an.
Aufgabe 4.1 (Quiz) Eine Voraussetzung des Mann-Whitney-U-Tests ist, dass nicht zuviele Bindungen existieren. Ist diese Voraussetzung für die Studiendaten aus Tabelle 2.1 erfüllt?
Aufgabe 4.2 (Arbeitsauftrag - Vorbereiten der Studiendaten) Den Mann-Whitney-U-Test kann man in R mit Hilfe der Funktion wilcox.test
durchführen. Hierzu benötigt die Funktion zwei Vektoren X
und Y
mit den Daten aus beiden unverbundenen Stichproben. Verwenden Sie die Studiendaten zur Osseointegration aus Tabelle 2.1 und legen Sie zwei Vektoren X
und Y
an, die diese beinhalten.
Aufgabe 4.3 (Arbeitsauftrag - Durchführen des Mann-Whitney-U-Tests) Den Mann-Whitney-U-Test kann man in R mit Hilfe der Funktion wilcox.test
durchführen. Verwenden Sie die beiden Vektoren X
und Y
aus Arbeitsauftrag 1 und führen Sie den Test zum Signifikanzniveau \alpha=0.05 durch.
Aufgabe 4.4 (Quiz) Welche Testentscheidung folgt für die Studiendaten zur Osseointegration auf Basis des Ergebnisses in Arbeitsauftrag 2?
Die Lösung zu Arbeitsauftrag 2 zeigt, dass ein exakter p-Wert berechnet wird. Das bedeutet, die Funktion wilcox.test
verwendet Gleichung 3.1 als Teststatistik und nutzt die durch kombinatorische Überlegungen berechenbare Verteilung von U. Alternativ lässt sich auch Gleichung 3.2 verwenden.
Aufgabe 4.5 (Quiz) Sind die Kriterien erfüllt, um Gleichung 3.2 hier zu verwenden und einen approximativen p-Wert zu berechnen?
5 Interpretation und Besonderheiten
Das Anwendungsbeispiel zeigt, dass sich die Wahrscheinlichkeitsverteilungen in beiden Implantatgruppen statistisch signifikant unterscheiden. In der Praxis können sich Verteilungen jedoch durch eine Vielzahl an Parametern unterscheiden. Beispiele sind die Erwartungswerte der Verteilungen, deren Schiefe oder Lage. Abbildung 5.1 zeigt drei mögliche Unterschiede zwischen zwei Verteilungen.
Von praktischem Interesse ist oft eine Verschiebung beider Verteilungen in der Lage bei sonst identischen Parametern. Dies lässt dann den Schluss zu, dass zum Beispiel die BIC-Werte in der einen Implantatgruppe tendenziell größer als in der anderen sind. Eine derartige Interpretation liefert den im Kontext gewünschten Schluss, dass der Implantattyp dem anderen hinsichtlich der Osseointegration tendenziell überlegen ist.
Unter der Annahme, dass F_X und F_Y stetig sind und sich nur durch eine Verschiebung \delta voneinander unterscheiden,
F_X(x)=F_Y(x-\delta)
lässt sich die Nullhypothese im Mann-Whitney-U-Test durch H_0: \delta = 0 ersetzen. Die Ablehnung dieser kann dann interpretiert werden als eine Lageverschiebung zwischen beiden Wahrscheinlichkeitsverteilungen (Held, Rufibach, und Seifert 2013).
Anmerkung (Achtung!). Unter dieser Annahme lässt der Mann-Whitney-U-Test zwar eine in Anwendungen sehr praktische und intuitive Interpretation zu, sofern H_0 abgelehnt werden kann, jedoch sind die Zusatzannahmen sehr restriktiv! Sind nämlich die Verteilungen F_X und F_Y bis auf eine Verschiebung \delta identisch, so müssen die Varianzen \sigma_X^2 und \sigma_Y^2 in beiden Gruppen auch gleich sein. Dies ist eine sehr starke Annahme, die etwa im parametrischen Welch’s t-Test für zwei unverbundene Stichproben nicht gemacht wird. Möchte man also eine so starke Schlussfolgerung mittels des Mann-Whitney-U-Test treffen, so macht man implizit sehr restriktive Annahmen, und ein Vorteil des nichtparametrischen Ansatzes geht verloren (Fay und Brittain 2022).
Aufgabe 5.1 (Arbeitsauftrag - Interpretation des Testergebnisses) Eine mögliche Alternative ist, keine Zusatzannahmen zu machen und schlicht die BIC-Werte in beiden Gruppen zu vergleichen. Welche Tendenz lässt sich mit deskriptiven Verfahren erkennen, wenn man die Implantatgruppe A und B vergleicht?
6 Zusammenfassung
In diesem Kapitel haben Sie den Mann-Whitney-U-Test-Test für zwei unverbundene Stichproben kennengelernt, welcher eine nichtparametrische Alternative zum t-Test für zwei unverbundene Stichproben darstellt. Die Idee hinter dem Test, dessen Durchführung in R anhand eines Anwendungsbeispiels aus der Zahnmedizin und die Vor- und Nachteile sowie Voraussetzungen des Tests wurden detailliert erläutert.
Lösungen der Aufgaben
Lizenz
Diese Lerneinheit “Statistische Hypothesentests” wurde von Riko Kelter, Alexander Schurr und Susanne Spies unter Mithilfe von Annika Hirth an der Universität Siegen entwickelt. Es ist lizenziert unter der CC-BY-SA 4.0 Lizenz und ist verfügbar auf ORCA.nrw.