Der Mann-Whitney-U-Test für zwei unverbundene Stichproben

Zusammenfassung
Wir behandeln in diesem Kapitel den Mann-Whitney-U-Test-Test für zwei unverbundene Stichproben, welcher eine nichtparametrische Alternative zum t-Test für zwei unverbundene Stichproben darstellt. Wir erläutern die Idee hinter dem Test, zeigen die Durchführung in R anhand eines Anwendungsbeispiels und diskutieren Vor- und Nachteile sowie die Voraussetzungen des Tests.

Lernziele: Am Ende des Kapitels können Sie

  • den Mann-Whitney-U-Test in R anwenden
  • die Ergebnisse interpretieren

1 Einführung

Der Mann-Whitney-U-Test für zwei unverbundene Stichproben ist ein nichtparametrischer Hypothesentest. Im Gegensatz zum Gauß-Test oder t-Test stellt er nicht die Voraussetzung, dass die Daten normalverteilt sein müssen. Als nichtparametrischer Test macht der Mann-Whitney-U-Test lediglich die Annahme, dass die Daten mindestens ordinalskaliert sind. Der t-Test ist nur dann anwendbar, wenn letztere intervallskaliert sind. Liegen zwei unverbundene Stichproben vor, so kann der Mann-Whitney-U-Test genau wie der t-Test für zwei unverbundene Stichproben verwendet werden.

Nichtparametrische Tests verfolgen stets den Ansatz, nicht die Daten selbst sondern deren Ränge zur Entscheidungsfindung zu benutzen. Die Teststatistik ist daher stets unabhängig von der konkreten Verteilung der Daten.

Anmerkung (Mann-Whitney-U-Test oder Wilcoxon-Rangsummentest). Der Mann-Whitney-U-Test hat in der Literatur eine Vielzahl an Namen. Dies ist dadurch begründet, dass die Erfindung des Tests nicht auf eine einzelne Person zurückgeführt werden kann und er unabhängig von verschiedenen Autoren vorgeschlagen wurde. Eine Bezeichnung nach D.R. Whitney und H.B. Mann ist Mann-Whitney-U-Test, wobei das U von der Bezeichnung der Teststatistik stammt. Eine weitere Bezeichnung ist Wilcoxon-Rangsummentest (nach R. Wilcox), und in R heißt die zugehörige Funktion wilcox.test. Aufpassen sollte man wenn der Vorzeichenrangtest nach Wilcox genannt wird: Dieser ist das nichtparametrische Pendant zum t-Test für verbundene Stichproben, und kann nicht für zwei unverbundene Stichproben verwendet werden.

2 Anwendungsbeispiel

Wir motivieren den Mann-Whitney-U-Test mit folgendem Anwendungsbeispiel aus der Zahnmedizin:

Beispiel 2.1 (Anwendungsbeispiel - Osseointegration von Implantaten) In der Zahnmedizin wird der Erfolg eines Implantats anhand verschiedener Kenngrößen beurteilt. Ein relevantes Maß für die Güte der Osseointegration des Implantats in den Kiefer ist die Größe der Grenzfläche zwischen Knochen und Implantat, das sogenannte BIC (Bone to Implant Contact). Der Wert des BICs ist der Anteil des Kontakts des Implantats an der maximal möglichen Fläche in Prozent. Große Werte sprechen für eine gute Einheilung des Implantats.

Eine randomisierte Studie mit 8 Patienten pro Gruppe soll untersuchen, ob Implantat A oder B besser einheilt:

Unterscheiden sich die BIC-Werte von Patient:innen mit Implantat A oder B?

Die zugehörigen Studiendaten sind in Tabelle 2.1 dargestellt.

Tabelle 2.1: Studiendaten zur Osseointegration von Implantaten in der Zahnmedizin
Patienten-ID Implantat-Typ BIC in Prozent
1 Implantat A 97
2 Implantat A 80
3 Implantat A 90
4 Implantat A 87
5 Implantat A 85
6 Implantat A 93
7 Implantat A 96
8 Implantat A 6
9 Implantat B 10
10 Implantat B 5
11 Implantat B 95
12 Implantat B 4
13 Implantat B 15
14 Implantat B 1
15 Implantat B 16
16 Implantat B 86

Aufgabe 2.1 (Quiz) Warum ist der t-Test für zwei unverbundene Stichproben nicht zur Beantwortung der Studienfrage geeignet?

3 Teststatistik

Bevor wir näher auf das Anwendungsbeispiel eingehen, motivieren wir zunächst die Teststatistik. Diese wird häufig mit U bezeichnet, und die Idee des U-Tests ist die Lage zweier Wahrscheinlichkeitsverteilungen zu vergleichen. Die Daten in beiden Gruppen X_1,...,X_m und Y_1,...,Y_n können zwei beliebigen Verteilungen F_X und F_Y folgen, über die nichts näher spezifiziert wird: X_i \stackrel{i.i.d}{\sim} F_X, Y_i \stackrel{i.i.d}{\sim} F_Y. Die Nullhypothese im U-Test sagt aus, dass es gleich wahrscheinlich ist, dass ein zufällig aus der einen Population ausgewählter Wert größer oder kleiner ist als ein zufällig ausgewählter Wert aus der anderen Population: H_0:P(X>Y)=P(X<Y) Die Nullhypothese impliziert die Gleichheit der Verteilungen F_X und F_Y, und die Alternativhypothese H_1 ist entsprechend definiert als: H_1:P(X>Y)\neq P(X<Y) Der Mann-Whitney-U-Test macht die folgenden Voraussetzungen:

  • Die Messungen des Merkmals (pro Individuum) müssen unabhängig voneinander sein.

  • Das Merkmal muss mindestens ordinalskaliert sein. Es gibt keine Annahmen über die Verteilung des Merkmals.

  • Die Gesamtstichprobe sollte nicht zu viele gleiche Werte, das heißt zu viele Bindungen, enthalten. Als Faustregel bei ordinalen Merkmalen sollten mindestens fünf verschiedene Ausprägungen des Merkmals vorliegen (Rauch u. a. 2019).

Von einer Bindung spricht man im Zusammenhang mit Rängen dann, wenn in der Gesamtstichprobe mehrmals derselbe Wert auftritt. Es können dann nicht mehr eindeutig Ränge gebildet werden, und in der Praxis werden dann durchschnittliche Ränge gebildet. Kommt etwa der Wert x in der Gesamtstichprobe doppelt vor, etwa an fünfter und sechster Stelle, so erhalten beide Werte den Rang (5+6)/2=5.5.

Unter diesen Annahmen ist der Mann-Whitney-U-Test exakt und konsistent. Im Kontext des Anwendungsbeispiels können wir die Hypothesen wie folgt übersetzen:

  • H_0: Die Wahrscheinlichkeitsverteilung der BIC-Werte für Implantat A ist dieselbe wie für Implantat B.

  • H_1: Die Wahrscheinlichkeitsverteilung der BIC-Werte für Implantat A unterscheidet sich von der für Implantat B.

Die Teststatistik des U-Tests basiert auf Rängen und ist wie folgt definiert: U:= \sum_{i=1}^m \sum_{j=1}^n S(x_i,y_j) \tag{3.1}

wobei S(x_i,y_j)=1, falls y_j < x_i, S(x_i,y_j)=0.5, falls y_j = x_i und S(x_i,y_j)=0 sonst. Die Statistik U durchläuft also alle Paare (x_i,y_j) für i=1,...,m, j=1,…,n und stellt einen Indikator dafür dar, ob der Rang von x_i größer als der von y_j ist. Intuitiv folgt daraus, dass große Werte von U dafür sprechen, dass die Wahrscheinlichkeit P(X>Y) größer als P(X<Y) ist. Die Gleichheit von P(X>Y) und P(X<Y) wird gerade in H_0 postuliert, sodass große Werte von U dafür sprechen, H_0 zu verwerfen.

Umgekehrt stellen kleine Werte von U in Indiz dafür dar, dass P(X<Y) größer als P(X>Y) ist, und legen eine Ablehnung von H_0 aus denselben Gründen nahe.

Die Verteilung von U lässt sich durch eine kombinatorische Rekursionsformel bestimmen (Fay und Brittain 2022). In der Praxis ist es jedoch oft hilfreich, dass für hinreichend große Stichprobenumfänge m und n ein Zusammenhang zur Normalverteilung existiert:

U \approx N\left ( \frac{mn}{2}, \frac{nm(n+m+1)}{12}\right ) \tag{3.2}

Dieser gilt für m>3, n>3 und m+n>19, und die entsprechenden kritischen Werte ergeben sich dann aus den Quantilen der Normalverteilung (Fay und Brittain 2022). Dies sind jedoch Faustregeln und keine harten Kriterien. Letztlich kann man nie exakt sagen, ab welchen Fallzahlen die Normalapproximation zuverlässig ist.

Es sei an dieser Stelle noch erwähnt, dass der Mann-Whitney-U-Test auch für das einseitige Testproblem H_0:P(X>Y)\geq P(X<Y) \text{ versus } H_1:P(X>Y)<P(X<Y) oder mit umgekehrtem Ungleichheitszeichen formuliert werden kann, sodass einseitige Tests durchgefüht werden können.

4 Der Mann-Whitney-U-Test in R

Wir kehren nun zum Anwendungsbeispiel zurück und wenden den Mann-Whitney-U-Test in R an.

Aufgabe 4.1 (Quiz) Eine Voraussetzung des Mann-Whitney-U-Tests ist, dass nicht zuviele Bindungen existieren. Ist diese Voraussetzung für die Studiendaten aus Tabelle 2.1 erfüllt?

Aufgabe 4.2 (Arbeitsauftrag - Vorbereiten der Studiendaten) Den Mann-Whitney-U-Test kann man in R mit Hilfe der Funktion wilcox.test durchführen. Hierzu benötigt die Funktion zwei Vektoren X und Y mit den Daten aus beiden unverbundenen Stichproben. Verwenden Sie die Studiendaten zur Osseointegration aus Tabelle 2.1 und legen Sie zwei Vektoren X und Y an, die diese beinhalten.

Wenn Sie die drei Werte 3, 5 und 12 in einem Vektor X anlegen wollen, ist dies mittels des Befehls

X <- c(3, 5, 12)

möglich.

Aufgabe 4.3 (Arbeitsauftrag - Durchführen des Mann-Whitney-U-Tests) Den Mann-Whitney-U-Test kann man in R mit Hilfe der Funktion wilcox.test durchführen. Verwenden Sie die beiden Vektoren X und Y aus Arbeitsauftrag 1 und führen Sie den Test zum Signifikanzniveau \alpha=0.05 durch.

Die Funktion wilcox.test hat die folgende Struktur:

wilcox.test(x = ..., y = ..., conf.level = ...)

wobei das Argument conf.level das Konfidenzniveau bezeichnet. Dieses ist gegeben durch 1-\alpha.

Aufgabe 4.4 (Quiz) Welche Testentscheidung folgt für die Studiendaten zur Osseointegration auf Basis des Ergebnisses in Arbeitsauftrag 2?

Die Lösung zu Arbeitsauftrag 2 zeigt, dass ein exakter p-Wert berechnet wird. Das bedeutet, die Funktion wilcox.test verwendet Gleichung 3.1 als Teststatistik und nutzt die durch kombinatorische Überlegungen berechenbare Verteilung von U. Alternativ lässt sich auch Gleichung 3.2 verwenden.

Aufgabe 4.5 (Quiz) Sind die Kriterien erfüllt, um Gleichung 3.2 hier zu verwenden und einen approximativen p-Wert zu berechnen?

5 Interpretation und Besonderheiten

Das Anwendungsbeispiel zeigt, dass sich die Wahrscheinlichkeitsverteilungen in beiden Implantatgruppen statistisch signifikant unterscheiden. In der Praxis können sich Verteilungen jedoch durch eine Vielzahl an Parametern unterscheiden. Beispiele sind die Erwartungswerte der Verteilungen, deren Schiefe oder Lage. Abbildung 5.1 zeigt drei mögliche Unterschiede zwischen zwei Verteilungen.

Von praktischem Interesse ist oft eine Verschiebung beider Verteilungen in der Lage bei sonst identischen Parametern. Dies lässt dann den Schluss zu, dass zum Beispiel die BIC-Werte in der einen Implantatgruppe tendenziell größer als in der anderen sind. Eine derartige Interpretation liefert den im Kontext gewünschten Schluss, dass der Implantattyp dem anderen hinsichtlich der Osseointegration tendenziell überlegen ist.

(a) Varianz
(b) Schiefe
(c) Lage
Abbildung 5.1: Mögliche Unterschiede zwischen zwei Verteilungen

Unter der Annahme, dass F_X und F_Y stetig sind und sich nur durch eine Verschiebung \delta voneinander unterscheiden,

F_X(x)=F_Y(x-\delta)

lässt sich die Nullhypothese im Mann-Whitney-U-Test durch H_0: \delta = 0 ersetzen. Die Ablehnung dieser kann dann interpretiert werden als eine Lageverschiebung zwischen beiden Wahrscheinlichkeitsverteilungen (Held, Rufibach, und Seifert 2013).

Anmerkung (Achtung!). Unter dieser Annahme lässt der Mann-Whitney-U-Test zwar eine in Anwendungen sehr praktische und intuitive Interpretation zu, sofern H_0 abgelehnt werden kann, jedoch sind die Zusatzannahmen sehr restriktiv! Sind nämlich die Verteilungen F_X und F_Y bis auf eine Verschiebung \delta identisch, so müssen die Varianzen \sigma_X^2 und \sigma_Y^2 in beiden Gruppen auch gleich sein. Dies ist eine sehr starke Annahme, die etwa im parametrischen Welch’s t-Test für zwei unverbundene Stichproben nicht gemacht wird. Möchte man also eine so starke Schlussfolgerung mittels des Mann-Whitney-U-Test treffen, so macht man implizit sehr restriktive Annahmen, und ein Vorteil des nichtparametrischen Ansatzes geht verloren (Fay und Brittain 2022).

Aufgabe 5.1 (Arbeitsauftrag - Interpretation des Testergebnisses) Eine mögliche Alternative ist, keine Zusatzannahmen zu machen und schlicht die BIC-Werte in beiden Gruppen zu vergleichen. Welche Tendenz lässt sich mit deskriptiven Verfahren erkennen, wenn man die Implantatgruppe A und B vergleicht?

Sie können die Funktion summary verwenden, um einen Datensatz deskriptiv beschreiben zu lassen.

6 Zusammenfassung

In diesem Kapitel haben Sie den Mann-Whitney-U-Test-Test für zwei unverbundene Stichproben kennengelernt, welcher eine nichtparametrische Alternative zum t-Test für zwei unverbundene Stichproben darstellt. Die Idee hinter dem Test, dessen Durchführung in R anhand eines Anwendungsbeispiels aus der Zahnmedizin und die Vor- und Nachteile sowie Voraussetzungen des Tests wurden detailliert erläutert.

Lösungen der Aufgaben

Das BIC ist offensichtlich nicht normalverteilt, da es Werte zwischen 0 und 100 Prozent annehmen kann. Die parametrischen Annahmen des t-Tests sind damit verletzt.

Zurück zu Aufgabe 2.1

Ja. Sortiert man die BIC-Werte aufsteigend und notiert sich die zugehörigen Ränge von 1 bis 16, so treten keine Bindungen auf, da alle BIC-Werte sich unterscheiden. Käme ein BIC-Wert doppelt vor, so würde eine Bindung entstehen.

Zurück zu Aufgabe 4.1

X <- c(97, 80, 90, 87, 85, 93, 96, 6)
Y <- c(10, 5, 95, 4, 15, 11, 16, 86)

Zurück zu Aufgabe 4.2

wilcox.test(x = X, y = Y, conf.level = 0.95)

    Wilcoxon rank sum exact test

data:  X and Y
W = 51, p-value = 0.04988
alternative hypothesis: true location shift is not equal to 0

Zurück zu Aufgabe 4.3

Die Nullhypothese kann zum Signifikanzniveau \alpha = 0.05 verworfen werden. Die Verteilungen der BIC-Werte beider Implantatgruppen unterscheiden sich damit signifikant.

Zurück zu Aufgabe 4.4

Nein, es gilt zwar m=8>3 und n=8>3, aber m+n=16<19. Ein approximativer p-Wert, den man mittels

wilcox.test(x = X, y = Y, conf.level = 0.95, exact = FALSE)

    Wilcoxon rank sum test with continuity correction

data:  X and Y
W = 51, p-value = 0.05203
alternative hypothesis: true location shift is not equal to 0

berechnen kann, wäre also nicht zuverlässig, da die Stichprobenumfänge zu klein sind. Die Normalapproximation ist also nicht geeignet. Beachten Sie, dass das Testergebnis auf Basis von Gleichung 3.2 nicht mehr statistisch signifikant ist. Wird Gleichung 3.2 benutzt, so verwendet die Funktion wilcox.test automatisch eine Kontinuitätskorrektur, da die wahre Verteilung von U diskret, aber die Normalverteilung stetig ist.

Zurück zu Aufgabe 4.5

summary(X)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
   6.00   83.75   88.50   79.25   93.75   97.00 
summary(Y)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
   4.00    8.75   13.00   30.25   33.50   95.00 

Die deskriptive Auswertung zeigt, dass die BIC-Werte in Implantatgruppe A tendenziell größer sind als in Implantatgruppe B und daher aus zahnmedizinscher Sicht Gruppe A zu bevorzugen ist. Beachten Sie hierbei, dass das signifikante Testergebnis des Mann-Whitney-U-Tests einen Unterschied zwischen beiden Verteilungen postuliert. Ob sich die Verteilungen in der Lage unterscheiden, können Sie jedoch nicht schlussfolgern.

Zurück zu Aufgabe 5.1

Lizenz
Diese Lerneinheit “Statistische Hypothesentests” wurde von Riko Kelter, Alexander Schurr und Susanne Spies unter Mithilfe von Annika Hirth an der Universität Siegen entwickelt. Es ist lizenziert unter der CC-BY-SA 4.0 Lizenz und ist verfügbar auf ORCA.nrw.

Literatur

Fay, Michael P., und Erica H. Brittain. 2022. Statistical Hypothesis Testing in Context: Reproducibility, Inference, and Science. New York: Cambridge University Press. https://doi.org/10.1017/9781108528825.
Held, L., K. Rufibach, und B. Seifert. 2013. Medizinische Statistik - Konzepte, Methoden, Anwendungen. Berlin: Pearson Studium.
Rauch, Geraldine, Konrad Neumann, Ulrike Grittner, Carolin Herrmann, und Jochen Kruppa. 2019. Medizinische Statistik für Dummies. Weinheim: Wiley-VCH.