Lernziele: Am Ende des Kapitels können Sie
- erklären, was ein p-Wert ist und wozu er verwendet wird
- was sich hinter dem Begriff statistischer Signifikanz verbirgt
- wie statistische Signifikanz und praktische Relevanz von Testergebnissen miteinander zusammenhängen
- wie statistische Analysen mit beiden Begriffen zusammenhängen und man Ergebnisse mittels statistischer Signifikanz und p-Werten korrekt interpretiert
1 Einführung
Die Analyse und Interpretation statistischer Auswertungen ist von großer Bedeutung in einer Vielzahl von Wissenschaften, aber auch in der Wirtschaft, Industrie, der politischen Entscheidungsfindung und auch dem Privatleben.
Haben Sie beispielsweise einmal ein Antibiotikum gegen eine Infektion eingenommen, so wurde dieses nur als Arzneimittel zugelassen, weil es bestimmten statistischen Anforderungen in den Zulassungsstudien gerecht geworden ist. Wissenschaftliche Errungenschaften stehen ebenso auf dem Prüfstand durch statistische Analysen (z.B. die Entdeckung des Higgs-Bosons in der Physik), und politische Debatten über beispielsweise das Rentensystem müssen zwangsläufig die aktuelle Datenlage und die daraus zu ziehenden Schlüsse berücksichtigen. In Ihrem Privatleben spielen statistische Signifikanz und p-Werte ebenfalls eine wichtige Rolle bei vielen Dingen, mit denen man alltäglich in Berührung kommt, ohne dass man es vermutet. Die Prämie einer KFZ-Versicherung wird beispielsweise mit Hilfe von statistischen Modellen berechnet, welche auf der Auswertung und Analyse großer Mengen von Unfalldaten beruhen. Ist Ihr Wohnsitz in einer Stadt in der die Anzahl der Unfälle signifikant erhöht ist, zahlen Sie (meist unwissend) einen entsprechenden Risikozuschlag. Dasselbe gilt im Kontext privater Krankenversicherungen, die Risikozuschläge etwa für Versicherungsnehmer mit Vorerkrankungen (z.B. Asthma, Übergewicht) oder bestimmten Risikofaktoren (z.B. das Ausüben eines Risikosports) nehmen. Ob die Lebenshaltungskosten dieses Jahr signifikant im Vergleich zum Vorjahr gestiegen oder gefallen sind, führt auch direkt zu dem Konzept, welches wir hier behandeln wollen.
1.1 Einführendes Beispiel
Wir wollen eine neue Therapie gegen Depressionen mit einer schon existierenden Therapie vergleichen. Die alte Therapie ist nur in der Hälfte der Fälle erfolgreich. Sei \theta die Erfolgswahrscheinlichkeit der neuen Therapie. Wir interessieren uns dafür, ob die neue Therapie besser ist als die alte und wählen daher als Alternativhypothese H_1: \theta > 0.5
Die Nullhypothese ist dann H_0: \theta\leq 0.5
Wenn wir H_0 verwerfen können, schlussfolgern wir, dass die neue Therapie besser als die alte ist. Dabei können wir zwei Fehler begehen:
H_0 wird nicht verworfen | H_0 wird verworfen | |
---|---|---|
H_0 wahr | korrekte Entscheidung | Fehler 1. Art |
H_0 falsch | Fehler 2. Art | korrekte Entscheidung |
Wir wissen nicht, ob H_0 in Wirklichkeit gilt oder nicht. In der Praxis möchte man den Fehler 1. Art kontrollieren und gibt eine obere Schranke \alpha_0 vor, mit der ein solcher Fehler auftreten darf, z.B. \alpha_0=5\%=0.05.
2 Statistische Tests, Niveau und Gütefunktion
Um uns dem Thema statistischer Signifikanz und p-Werten formal anzunähern, benötigen wir zunächst einige Definitionen.
Definition 2.1 (Statistischer Test) Ein statistischer Test zu einer gegebenen Nullhypothese H_0 besteht aus einer Menge M von möglichen Werten für die Beobachtung X, und einer Menge K\subseteq M, der sogenannten kritischen Region. Zu einer gegebenen Realisation x von X verwerfen wir H_0, falls x in K liegt; wir verwerfen H_0 nicht, falls x nicht in K liegt.
In der Praxis verwendet man nahezu immer nicht die Originalbeobachtungen x, sondern eine sogenannte Teststatistik T, welche eine Funktion der Originalbeobachtungen ist. Dann gibt es eine kritische Region K_T, und man verwirft H_0, falls T(x) in K_T liegt.
Das einführende Beispiel von oben beschreibt eine Testsituation mit
H_0: \theta\leq 0.5 ,\hspace{1cm} H_1: \theta > 0.5
Nun erhalten 100 Patienten die neue Therapie. Sei X die Zufallsvariable, die die Anzahl der Patienten, bei welchen die neue Therapie erfolgreich ist, modelliert. X ist dabei binomialverteilt, also X\sim Bin(100, \theta). Wir wählen T(X)=X als Teststatistik und die kritische Region der Form K=\{c, c+1, \dots, 100\} wobei wir noch den Wert c bestimmen müssen. Dabei soll c so gewählt werden, dass wir der Gültigkeit der Nullhypothese misstrauen und sie verwerfen, falls T(x)\geq c. Ist also die Teststatistik groß, verwerfen wir H_0, sonst nicht. Dies macht auch anschaulich Sinn, denn wir verwerfen dann H_0 exakt dann, wenn wir in der Studie viele Erfolge bei der neuen Therapie beobachten. Da H_0 aussagt, dass die Erfolgswahrscheinlichkeit kleiner als 50% ist, ist es sinnvoll, H_0 bei großer Teststatistik T(x) zu verwerfen.
Wenn bei einem Test von H_0: \theta \in \Theta_0 gegen H_1: \theta \in \Theta_1 der wahre Wert \theta in \Theta_0 liegt, ist die Nullhypothese wahr, vergleiche Tabelle 1.1, Zeile 1. Wenn in diesem Fall x\in K liegt, begehen wir einen Fehler 1. Art. Bei einem guten Test sollte deshalb die Wahrscheinlichkeit \mathbb{P}_{\theta}(X \in K) für \theta \in \Theta_0 klein sein. Andererseits sollte \mathbb{P}_{\theta}(X\in K) für \theta \in \Theta_1 groß sein. Dies führt zum Begriff der Gütefunktion:
Definition 2.2 (Gütefunktion eines statistischen Tests) Die Gütefunktion \pi eines statistischen Tests mit Nullhypothese H_0:\theta \in \Theta_0 und kritischer Region K ist definiert als \theta \mapsto \pi(\theta;K)=P_{\theta}(X \in K)
Abbildung 2.1 lässt sich intuitiv so erklären: Die Güte \mathbb{P}_{\theta}(X\in K), also die Wahrscheinlichkeit, dass die beobachteten Daten in der kritischen Region K liegen, steigt mit zunehmender Wahrscheinlichkeit \theta. Ist also die wahre Erfolgswahrscheinlichkeit \theta der Therapie größer, so steigt die Wahrscheinlichkeit \mathbb{P}_{\theta}(X\in K), und damit die Wahrscheinlichkeit H_0:\theta \leq 0.5 zu verwerfen.
Um die Fehlerwahrscheinlichkeit für einen Fehler 1. Art zu quantifizieren, führt man das Niveau eines Tests wie folgt ein:
Definition 2.3 (Niveau eines statistischen Tests) Das Niveau eines statistischen Tests mit kritischer Region K und Gütefunktion \pi(\cdot\ ;K) ist definiert als \alpha := \sup\limits_{\theta \in \Theta_0} \pi(\theta;K) Ein Test hat das Signifikanzniveau oder Niveau \alpha_0, falls \alpha \leq \alpha_0.
Die Asymmetrie zwischen H_0 und H_1 wird nun formalisiert, indem man sich zunächst auf den Fehler 1. Art konzentriert. Dazu fordert man, dass diese Fehlerwahrscheinlichkeit auf eine vorgegebene Schranke \alpha_0 beschränkt wird.
Anmerkung (Konvention 1). Sei ein festes \alpha_0 vorgegeben. Wir verwenden dann ausschließlich Tests mit Signifikanzniveau \alpha_0. Mit anderen Worten erlauben wir nur die Verwendung von Tests, deren Gütefunktion \pi(\cdot\ ;K) unter der Nullhypothese H_0 maximal den Wert \alpha_0 annimmt: \sup\limits_{\theta \in \Theta_0} \pi(\theta;K) \leq \alpha_0
Die Vorgehensweise in der Praxis ist damit wie folgt:
- Zuerst geben wir ein \alpha_0 \in (0,1) vor.
- Wir bestimmen dann das Niveau \alpha des vorliegenden Tests.
- Dieser ist geeignet, falls er \alpha\leq \alpha_0 erfüllt.
Aufgabe 2.1 (Quiz) Überlegen Sie sich einen Moment, wieso es nicht hilft \alpha_0 einfach sehr klein zu wählen. Könnte man dadurch nicht die Wahrscheinlichkeit für einen Fehler 1. Art nahezu vollständig eliminieren?
2.1 Zurück zum einführenden Beispiel
Im Beispiel von eben haben wir für die Teststatistik T(X)=X sinnvollerweise eine kritische Region der Form K=\{c_{\alpha_0}, c_{\alpha_0}+1, \dots, 100\} gewählt. Der Wert c_{\alpha_0} muss so gewählt werden, dass das Niveau des Tests höchstens \alpha_0 ist. Das Niveau ist gegeben durch \alpha= \sup\limits_{\theta\leq 0.5} \mathbb{P}_{\theta}(X\geq c_{\alpha_0})=\mathbb{P}_{0.5}(X\geq c_{\alpha_0})
Nun wählen wir \alpha_0 = 0.05. Für c_{0.05} = 58 ist das Niveau \alpha= \mathbb{P}_{0.5}(X\geq 58) = 0.067 > \alpha_0 Abbildung 2.2 zeigt die zugehörige Gütefunktion:
Abbildung 2.2 zeigt mit Hilfe des roten Punkts, dass das Niveau \alpha_0=0.05 (gestrichtelte horizontale Linie) nicht durch den Test gehalten wird, da \mathbb{P}_{0.5}(X\geq 58) = 0.067. Für c_{0.05} \leq 58 hat der Test daher nicht das Niveau 0.05 und ist somit nicht geeignet.
Wenn wir stattdessen c_{0.05} = 59 wählen, dann ist das Niveau des Tests \alpha= \mathbb{P}_{0.5}(X\geq 59) = 0.044 \leq \alpha_0 Abbildung 2.3 zeigt dies durch den blauen Punkt, der nun unterhalb der horizontalen Linie liegt, welche das Testniveau \alpha_0=0.05 markiert.
Wenn wir also die kritische Region etwas verkleinern – von K=\{58,...,100\} auf K=\{59,...100\}, so erhalten wir einen Test zum Niveau \alpha_0=0.05.
Wenn nun die Anzahl der beobachteten Erfolge x in der Studie zur neuen Therapie einen Wert in K=\{59,...100\} annimmt, können wir H_0 verwerfen. Falls nicht, können wir keinen Schluss ziehen.
H_0 nicht zu verwerfen bedeutet, dass das Beobachten der Daten unter H_0 nicht unwahrscheinlich genug ist um die Gültigkeit von H_0 in Frage zu stellen. Daraus können wir aber nicht schließen, dass H_0 gilt, da die Wahrscheinlichkeit die Daten zu beobachten unter H_1 größer als unter H_0 sein kann.
3 Statistische Signifikanz und p-Werte
Kommen wir nun zum Konzept der statistischen Signifikanz und p-Werten. Haben wir ein Niveau \alpha_0 für einen Test festgelegt, und wird die Nullhypothese H_0 nach Beobachtung der Daten verworfen, so sagen wir, dass das Ergebnis statistisch signifikant zum Niveau \alpha_0 ist. Wie ist ein statistisch signifikantes Ergebnis nun zu interpretieren?
- Ein statistisch signifikantes Testergebnis bedeutet, dass unter der Annahme dass die Nullhypothese H_0 gilt, die Beobachtung der Daten unwahrscheinlich ist. Dies legt nahe, H_0 zu verwerfen, da das Auftreten der Daten unwahrscheinlich ist, wenn H_0 wahr wäre.
- Ein statistisch signifikantes Testergebnis bedeutet außerdem, dass die Wahrscheinlichkeit die Daten zu beobachten, wenn H_0 wahr ist, durch das Niveau \alpha_0 beschränkt ist. Die Wahrscheinlichkeit, einen Fehler 1. Art zu begehen wenn man H_0 bei einem statistisch signifikanten Testergebnis zum Niveau \alpha_0 verwirft, ist also durch \alpha_0 (z.B. 5\%) beschränkt.
Die beiden obigen Punkte veranschaulichen gut, weshalb wir das Niveau eines Tests – welches zunächst etwas kompliziert erscheint – eingeführt haben. Das Niveau erlaubt uns, den Fehler 1. Art zu beschränken, und eine Aussage darüber zu treffen, wie unwahrscheinlich die Beobachtung von Daten unter Gültigkeit von H_0 ist.
3.1 Der p-Wert
Bisher haben wir Testentscheidungen mit Hilfe einer Teststatistik und der kritischen Region begründet. Hierzu wurde das Niveau eingeführt, und wenn H_0 bei Verwendung eines Tests zum Niveau \alpha_0 verworfen wird, so sagen wir, dass Ergebnis ist statistisch signifikant (zum Niveau \alpha_0). Abbildung 2.2 und Abbildung 2.3 zeigen beispielsweise als horizontale Linien jeweils das Niveau \alpha_0=0.05 eingezeichnet.
Der p-Wert ist eine in der Praxis jedoch häufiger verwendete Alternative, und liefert noch mehr Informationen. Formal ist er jedoch sehr abstrakt wie folgt definiert:
Definition 3.1 (p-Wert) Für eine Menge von Tests vom Niveau \alpha für jedes \alpha\in (0,1) ist der p-Wert der kleinste Wert von \alpha, für den der zugehörige Test die Nullhypothese verwirft.
Es macht daher Sinn, eine Intuition zu dieser sehr formalen Definition zu entwickeln. Wir schauen uns dafür den Zusammenhang zwischen kritischer Region und p-Wert an. Im einführenden Beispiel war K von der Form K=\{x: T(x)\geq d_{\alpha_0}\} Dabei ist d_{\alpha_0} die kleinste Zahl, sodass ein Test mit kritischer Region dieser Form das Niveau \alpha_0 hat. Anders ausgedrückt ist die kritische Region gerade die Menge aller Beobachtungen x, für die die Teststatistik T(x) größer als eine vom Niveau \alpha_0 abhängige Zahl d_{\alpha_0} ist.
Bei einem solchen Test, der die Nullhypothese für große Werte der Teststatistik T und beobachteten Wert t von T verwirft, ist der p-Wert definiert als \sup\limits_{\theta \in \Theta_0} \mathbb{P}_{\theta}(T(X)\geq T(x)) Dies bedeutet, dass wir die Wahrscheinlichkeit P_{\theta}(T(X)\geq T(x)) – also die Wahrscheinlichkeit, dass unsere Teststatistik T(X) größere Werte annimmt als die auf Basis der beobachteten Daten x erhaltene Teststatistik T(x) – für alle Wahrscheinlichkeiten aus H_0, also alle \theta \leq 0.5, maximieren. Doch wie sieht dies in unserem konkreten einführenden Beispiel aus?
Nehmen wir dazu an, wir beobachten x=59 Erfolge unter den n=100 Patient:innen. Dann ergibt sich der p-Wert wie folgt: \sup\limits_{\theta\leq 0.5} \mathbb{P}_{\theta}(X\geq 59)=\mathbb{P}_{0.5}(X\geq 59)=0.044 Grafisch sieht das so aus wie in Abbildung 3.1, wo die Dichte der Teststatistik T abgebildet ist. Die rote Fläche ist gerade die Wahrscheinlichkeit, unter Annahme von \theta=0.5 Werte der Teststatistik T(X) zu erhalten, die größer oder gleich T(x)=59 sind. Die Wahrscheinlichkeit in der roten Fläche beträgt daher gerade 0.044, was dem p-Wert entspricht.
Was wäre, wenn wir stattdessen x=64 Erfolge beobachtet hätten?
Abbildung 3.2 zeigt, dass der p-Wert nun deutlich kleiner ist, was sich durch \sup\limits_{\theta\leq 0.5} \mathbb{P}_{\theta}(X\geq 64)=\mathbb{P}_{0.5}(X\geq 64)= 0.003 nachrechnen lässt.
- Beobachten wir also x=59 Erfolge, ist die Wahrscheinlichkeit unter Annahme von \theta=0.5 genau 59 oder mehr Erfolge zu beoachten 0.044, also 4.4\%.
- Beobachten wir also x=64 Erfolge, ist die Wahrscheinlichkeit unter Annahme von \theta=0.5 genau 64 oder mehr Erfolge zu beoachten 0.003, also nur noch 0.3\%.
Das entscheidende ist nun, dass beide Wahrscheinlichkeiten kleiner als das Testnivau \alpha_0=0.05 sind, aber die zweite Wahrscheinlichkeit ist wesentlich kleiner.
Anmerkung. Dies bedeutet, dass der p-Wert angibt, wie unwahrscheinlich die Beobachtung der Ergebnisse oder noch extremerer Ergebnisse unter H_0 ist. Anders ausgedrückt, quantifiziert der p-Wert (unabhängig von der statistischen Signifikanz) wie unwahrscheinlich das Auftreten der Daten oder noch extremerer Daten unter Annahme der Nullhypothese ist. Ist diese Wahrscheinlichkeit klein, sollten wir die Nullhypothese verwerfen.
In der Praxis geht man daher wie folgt vor:
- Man legt ein Signifikanzniveau \alpha_0 fest, oft \alpha_0=0.05.
- Man erhebt die Daten und berechnet das Testergebnis sowie den zugehörigen p-Wert p. Dies geschieht in der Regel durch Software automatisch.
- Man überprüft, ob p<\alpha_0 gilt. Ist dies der Fall, so ist das Testergebnis statistisch signifikant zum Niveau \alpha_0 und die Nullhypothese wird verworfen. Je kleiner der p-Wert ist, desto stärker ist die Evidenz gegen die Nullhypothese. Ist p\geq \alpha_0, so ist das Testergebnis nicht statistisch signifikant zum Niveau \alpha_0 und die Nullhypothese wird nicht verworfen. In diesem Fall kann keine Aussage über die Gültigkeit von H_0 oder H_1 getroffen werden.
4 Statistische Signifikanz und praktische Relevanz
Statistische Signifikanz wird in vielen Anwendungsbereichen leider fälschlicherweise immer noch mit praktischer Relevanz von Testergebnissen gleichgesetzt. Dies ist jedoch nicht zulässig.
- Ein statistisch signifikantes Testergebnis kann praktisch relevant sein. Dies wird in der Praxis oft durch Maße für die Effektstärke (z.B. Cohen’s d) gemessen. Eine hohe Effektstärke spricht dann für eine praktische oder wissenschaftliche Relevanz des Testergebnisses.
- Ein statistisch signifikantes Testergebnis kann praktisch nicht relevant sein. Dies tritt häufig auf, wenn die Stichprobenzahl sehr groß ist, aber die zugrunde liegende Effektstärke sehr klein ist. Obwohl ein Ergebnis dann statistisch signifikant ist, hat es für die Praxis nahezu keine Bedeutung.
- Ein statistisch nicht signifikantes Testergebnis kann praktisch relevant sein. Das bedeutet, dass eine große Effektstärke in der Stichprobe gemessen wurde. Da jedoch keine statistische Signifikanz vorliegt, kann man in diesem Fall nicht ausschließen, dass eine solch große Effektstärke unter Gültigkeit der Nullhypothese H_0 hinreichend unwahrscheinlich ist. Obwohl der Effekt dann praktisch relevant ist, darf man H_0 nicht verwerfen und kann keine Schlussfolgerung für die zugrunde liegende Population (z.B. alle Patient:innen mit einer bestimmten Krankheit) ziehen.
- Ein statistisch nicht signifikantes Testergebnis kann praktisch nicht relevant sein. Hier liegt weder eine hinreichend große Effektstärke in der Stichprobe vor, noch können die Ergebnisse aufgrund mangelnder statistischer Signifikanz auf die zu Grunde liegende Gesamtpopulation verallgemeinert werden.
Historisch wurde das Signifikanzniveau eingeführt, um festzustellen ob eine tiefergehende Untersuchung des beobachteten Phänomens sinnvoll ist oder nicht (Howie 2002). Um mit Hilfe des Ergebnisses eines statistischen Hypothesentest in einer Stichprobe auf die zu Grunde liegende Population zu schliessen bemerkten bereits die frühen Pioniere der Statistik, dass Replikationen der beobachteten Testergebnis auf Basis weiterer Erhebungen essentiell sind (Fisher 1925). Weitere Informationen finden Sie zum Beispiel in Rauch u. a. (2019) oder Kelter (2020).
5 Anwendungsbeispiel
Beispiel 5.1 (Klinische Studie zu Antibiotika) Wir nehmen an, dass ein neues Antibiotikum entwickelt wurde und nun in einer klinischen Studie erstmals an Probanden getestet werden soll. Da vergleichbare Antibiotika bei etwa 70\% der Patient:innen zu einer deutlichen Besserung der Symptome führen, muss ein geeigneter Binomialtest durchgeführt werden, um die Hypothesen
H_0:\theta \leq \theta_0 \text{ versus } H_1:\theta > \theta_0 zu testen. Anschaulich gesprochen wollen wir überprüfen, ob das neue Antibiotikum mit einer bestimmten Mindestwahrscheinlichkeit als wirksam eingestuft werden kann.
Da das Pharmaunternehmen sich bewusst ist, dass Testergebnisse auch falsch-positiv ausfallen können, soll die Wahrscheinlichkeit für einen Fehler 1. Art auf 5% begrenzt werden.
Aufgabe 5.1
Welcher Wert muss für \theta_0 gewählt werden?
Welches Signifikanzniveau \alpha_0 ist auf Basis der obigen Angaben zu wählen?
Aufgabe 5.2 In einer 100 Patient:innen umfassenden Stichprobe wurden 79 Behandlungserfolge mit dem neuen Antibiotikum verzeichnet. Berechnen Sie mit Hilfe der Funktion binom.test
den zugehörigen p-Wert zum Signifikanzniveau \alpha_0 = 0.05.
Aufgabe 5.3 Wie können Sie die Testergebnisse der Studie interpretieren? Beurteilen Sie das Ergebnis hinsichtlich der statistischen Signifikanz.
Aufgabe 5.4 Wie lässt sich das Testergebnis hinsichtlich der klinischen Wirksamkeit des neuen Antibiotikums beurteilen? Besteht ein Zusammenhang zur statistischen Signifikanz?
Lösungen der Aufgaben
Lizenz
Diese Lerneinheit “Statistische Hypothesentests” wurde von Riko Kelter, Alexander Schurr und Susanne Spies unter Mithilfe von Annika Hirth an der Universität Siegen entwickelt. Es ist lizenziert unter der CC-BY-SA 4.0 Lizenz und ist verfügbar auf ORCA.nrw.