Statistische Signifikanz und p-Werte

Zusammenfassung
Wir behandeln in diesem Kapitel das Thema statistische Signifikanz von Hypothesentests und p-Werte. In der Auswertung von wissenschaftlichen Studien sind diese Begriffe von zentraler Bedeutung und sorgen nach wie vor oft für Missverständnisse. Ein solides Verständnis vom Konzept statistischer Signifikanz und p-Werten ist daher unerlässlich, um statistische Ergebnisse korrekt interpretieren zu können.

Lernziele: Am Ende des Kapitels können Sie

  • erklären, was ein p-Wert ist und wozu er verwendet wird
  • was sich hinter dem Begriff statistischer Signifikanz verbirgt
  • wie statistische Signifikanz und praktische Relevanz von Testergebnissen miteinander zusammenhängen
  • wie statistische Analysen mit beiden Begriffen zusammenhängen und man Ergebnisse mittels statistischer Signifikanz und p-Werten korrekt interpretiert

1 Einführung

Die Analyse und Interpretation statistischer Auswertungen ist von großer Bedeutung in einer Vielzahl von Wissenschaften, aber auch in der Wirtschaft, Industrie, der politischen Entscheidungsfindung und auch dem Privatleben.

Haben Sie beispielsweise einmal ein Antibiotikum gegen eine Infektion eingenommen, so wurde dieses nur als Arzneimittel zugelassen, weil es bestimmten statistischen Anforderungen in den Zulassungsstudien gerecht geworden ist. Wissenschaftliche Errungenschaften stehen ebenso auf dem Prüfstand durch statistische Analysen (z.B. die Entdeckung des Higgs-Bosons in der Physik), und politische Debatten über beispielsweise das Rentensystem müssen zwangsläufig die aktuelle Datenlage und die daraus zu ziehenden Schlüsse berücksichtigen. In Ihrem Privatleben spielen statistische Signifikanz und p-Werte ebenfalls eine wichtige Rolle bei vielen Dingen, mit denen man alltäglich in Berührung kommt, ohne dass man es vermutet. Die Prämie einer KFZ-Versicherung wird beispielsweise mit Hilfe von statistischen Modellen berechnet, welche auf der Auswertung und Analyse großer Mengen von Unfalldaten beruhen. Ist Ihr Wohnsitz in einer Stadt in der die Anzahl der Unfälle signifikant erhöht ist, zahlen Sie (meist unwissend) einen entsprechenden Risikozuschlag. Dasselbe gilt im Kontext privater Krankenversicherungen, die Risikozuschläge etwa für Versicherungsnehmer mit Vorerkrankungen (z.B. Asthma, Übergewicht) oder bestimmten Risikofaktoren (z.B. das Ausüben eines Risikosports) nehmen. Ob die Lebenshaltungskosten dieses Jahr signifikant im Vergleich zum Vorjahr gestiegen oder gefallen sind, führt auch direkt zu dem Konzept, welches wir hier behandeln wollen.

1.1 Einführendes Beispiel

Wir wollen eine neue Therapie gegen Depressionen mit einer schon existierenden Therapie vergleichen. Die alte Therapie ist nur in der Hälfte der Fälle erfolgreich. Sei \theta die Erfolgswahrscheinlichkeit der neuen Therapie. Wir interessieren uns dafür, ob die neue Therapie besser ist als die alte und wählen daher als Alternativhypothese H_1: \theta > 0.5

Die Nullhypothese ist dann H_0: \theta\leq 0.5

Wenn wir H_0 verwerfen können, schlussfolgern wir, dass die neue Therapie besser als die alte ist. Dabei können wir zwei Fehler begehen:

Tabelle 1.1: Statistische Hypothesentests und Fehler 1. und 2. Art
H_0 wird nicht verworfen H_0 wird verworfen
H_0 wahr korrekte Entscheidung Fehler 1. Art
H_0 falsch Fehler 2. Art korrekte Entscheidung

Wir wissen nicht, ob H_0 in Wirklichkeit gilt oder nicht. In der Praxis möchte man den Fehler 1. Art kontrollieren und gibt eine obere Schranke \alpha_0 vor, mit der ein solcher Fehler auftreten darf, z.B. \alpha_0=5\%=0.05.

2 Statistische Tests, Niveau und Gütefunktion

Um uns dem Thema statistischer Signifikanz und p-Werten formal anzunähern, benötigen wir zunächst einige Definitionen.

Definition 2.1 (Statistischer Test) Ein statistischer Test zu einer gegebenen Nullhypothese H_0 besteht aus einer Menge M von möglichen Werten für die Beobachtung X, und einer Menge K\subseteq M, der sogenannten kritischen Region. Zu einer gegebenen Realisation x von X verwerfen wir H_0, falls x in K liegt; wir verwerfen H_0 nicht, falls x nicht in K liegt.

In der Praxis verwendet man nahezu immer nicht die Originalbeobachtungen x, sondern eine sogenannte Teststatistik T, welche eine Funktion der Originalbeobachtungen ist. Dann gibt es eine kritische Region K_T, und man verwirft H_0, falls T(x) in K_T liegt.

Das einführende Beispiel von oben beschreibt eine Testsituation mit

H_0: \theta\leq 0.5 ,\hspace{1cm} H_1: \theta > 0.5

Nun erhalten 100 Patienten die neue Therapie. Sei X die Zufallsvariable, die die Anzahl der Patienten, bei welchen die neue Therapie erfolgreich ist, modelliert. X ist dabei binomialverteilt, also X\sim Bin(100, \theta). Wir wählen T(X)=X als Teststatistik und die kritische Region der Form K=\{c, c+1, \dots, 100\} wobei wir noch den Wert c bestimmen müssen. Dabei soll c so gewählt werden, dass wir der Gültigkeit der Nullhypothese misstrauen und sie verwerfen, falls T(x)\geq c. Ist also die Teststatistik groß, verwerfen wir H_0, sonst nicht. Dies macht auch anschaulich Sinn, denn wir verwerfen dann H_0 exakt dann, wenn wir in der Studie viele Erfolge bei der neuen Therapie beobachten. Da H_0 aussagt, dass die Erfolgswahrscheinlichkeit kleiner als 50% ist, ist es sinnvoll, H_0 bei großer Teststatistik T(x) zu verwerfen.

Wenn bei einem Test von H_0: \theta \in \Theta_0 gegen H_1: \theta \in \Theta_1 der wahre Wert \theta in \Theta_0 liegt, ist die Nullhypothese wahr, vergleiche Tabelle 1.1, Zeile 1. Wenn in diesem Fall x\in K liegt, begehen wir einen Fehler 1. Art. Bei einem guten Test sollte deshalb die Wahrscheinlichkeit \mathbb{P}_{\theta}(X \in K) für \theta \in \Theta_0 klein sein. Andererseits sollte \mathbb{P}_{\theta}(X\in K) für \theta \in \Theta_1 groß sein. Dies führt zum Begriff der Gütefunktion:

Definition 2.2 (Gütefunktion eines statistischen Tests) Die Gütefunktion \pi eines statistischen Tests mit Nullhypothese H_0:\theta \in \Theta_0 und kritischer Region K ist definiert als \theta \mapsto \pi(\theta;K)=P_{\theta}(X \in K)

Abbildung 2.1: Gütefunktion des Binomialtests für X=59

Abbildung 2.1 lässt sich intuitiv so erklären: Die Güte \mathbb{P}_{\theta}(X\in K), also die Wahrscheinlichkeit, dass die beobachteten Daten in der kritischen Region K liegen, steigt mit zunehmender Wahrscheinlichkeit \theta. Ist also die wahre Erfolgswahrscheinlichkeit \theta der Therapie größer, so steigt die Wahrscheinlichkeit \mathbb{P}_{\theta}(X\in K), und damit die Wahrscheinlichkeit H_0:\theta \leq 0.5 zu verwerfen.

Um die Fehlerwahrscheinlichkeit für einen Fehler 1. Art zu quantifizieren, führt man das Niveau eines Tests wie folgt ein:

Definition 2.3 (Niveau eines statistischen Tests) Das Niveau eines statistischen Tests mit kritischer Region K und Gütefunktion \pi(\cdot\ ;K) ist definiert als \alpha := \sup\limits_{\theta \in \Theta_0} \pi(\theta;K) Ein Test hat das Signifikanzniveau oder Niveau \alpha_0, falls \alpha \leq \alpha_0.

Die Asymmetrie zwischen H_0 und H_1 wird nun formalisiert, indem man sich zunächst auf den Fehler 1. Art konzentriert. Dazu fordert man, dass diese Fehlerwahrscheinlichkeit auf eine vorgegebene Schranke \alpha_0 beschränkt wird.

Anmerkung (Konvention 1). Sei ein festes \alpha_0 vorgegeben. Wir verwenden dann ausschließlich Tests mit Signifikanzniveau \alpha_0. Mit anderen Worten erlauben wir nur die Verwendung von Tests, deren Gütefunktion \pi(\cdot\ ;K) unter der Nullhypothese H_0 maximal den Wert \alpha_0 annimmt: \sup\limits_{\theta \in \Theta_0} \pi(\theta;K) \leq \alpha_0

Die Vorgehensweise in der Praxis ist damit wie folgt:

  • Zuerst geben wir ein \alpha_0 \in (0,1) vor.
  • Wir bestimmen dann das Niveau \alpha des vorliegenden Tests.
  • Dieser ist geeignet, falls er \alpha\leq \alpha_0 erfüllt.

In der Praxis wird sehr häufig das Signifikanzniveau \alpha_0 = 0.05 gewählt. Dies hat hauptsächlich historische Gründe und keine mathematischen. Kritisch ist hier insbesondere, dass unter dieser Annahme die Wahrscheinlichkeit für ein falsch-positives Resultat bei mehrfachem Testen sehr groß werden kann (Ioannidis 2005). In den letzten Jahren gab es daher gehäuft Kritik an dem hier vorgestellten frequentistischen Ansatz, Hypothesen zu testen (Halsey 2019), siehe auch Benjamin u. a. (2018). Alternativen bieten unter anderem sogenannte Bayesianische Hypothesentests Kelter (2020).

Aufgabe 2.1 (Quiz) Überlegen Sie sich einen Moment, wieso es nicht hilft \alpha_0 einfach sehr klein zu wählen. Könnte man dadurch nicht die Wahrscheinlichkeit für einen Fehler 1. Art nahezu vollständig eliminieren?

2.1 Zurück zum einführenden Beispiel

Im Beispiel von eben haben wir für die Teststatistik T(X)=X sinnvollerweise eine kritische Region der Form K=\{c_{\alpha_0}, c_{\alpha_0}+1, \dots, 100\} gewählt. Der Wert c_{\alpha_0} muss so gewählt werden, dass das Niveau des Tests höchstens \alpha_0 ist. Das Niveau ist gegeben durch \alpha= \sup\limits_{\theta\leq 0.5} \mathbb{P}_{\theta}(X\geq c_{\alpha_0})=\mathbb{P}_{0.5}(X\geq c_{\alpha_0})

Das Supremum wird in \theta=0.5 erreicht, da \mathbb{P}_{\theta} als Funktion von \theta monoton wächst.

Nun wählen wir \alpha_0 = 0.05. Für c_{0.05} = 58 ist das Niveau \alpha= \mathbb{P}_{0.5}(X\geq 58) = 0.067 > \alpha_0 Abbildung 2.2 zeigt die zugehörige Gütefunktion:

Abbildung 2.2: Gütefunktion des Binomialtests für X=58

Abbildung 2.2 zeigt mit Hilfe des roten Punkts, dass das Niveau \alpha_0=0.05 (gestrichtelte horizontale Linie) nicht durch den Test gehalten wird, da \mathbb{P}_{0.5}(X\geq 58) = 0.067. Für c_{0.05} \leq 58 hat der Test daher nicht das Niveau 0.05 und ist somit nicht geeignet.

Wenn wir stattdessen c_{0.05} = 59 wählen, dann ist das Niveau des Tests \alpha= \mathbb{P}_{0.5}(X\geq 59) = 0.044 \leq \alpha_0 Abbildung 2.3 zeigt dies durch den blauen Punkt, der nun unterhalb der horizontalen Linie liegt, welche das Testniveau \alpha_0=0.05 markiert.

Abbildung 2.3: Gütefunktion des Binomialtests für X=59

Wenn wir also die kritische Region etwas verkleinern – von K=\{58,...,100\} auf K=\{59,...100\}, so erhalten wir einen Test zum Niveau \alpha_0=0.05.

Wenn nun die Anzahl der beobachteten Erfolge x in der Studie zur neuen Therapie einen Wert in K=\{59,...100\} annimmt, können wir H_0 verwerfen. Falls nicht, können wir keinen Schluss ziehen.

H_0 nicht zu verwerfen bedeutet, dass das Beobachten der Daten unter H_0 nicht unwahrscheinlich genug ist um die Gültigkeit von H_0 in Frage zu stellen. Daraus können wir aber nicht schließen, dass H_0 gilt, da die Wahrscheinlichkeit die Daten zu beobachten unter H_1 größer als unter H_0 sein kann.

3 Statistische Signifikanz und p-Werte

Kommen wir nun zum Konzept der statistischen Signifikanz und p-Werten. Haben wir ein Niveau \alpha_0 für einen Test festgelegt, und wird die Nullhypothese H_0 nach Beobachtung der Daten verworfen, so sagen wir, dass das Ergebnis statistisch signifikant zum Niveau \alpha_0 ist. Wie ist ein statistisch signifikantes Ergebnis nun zu interpretieren?

  • Ein statistisch signifikantes Testergebnis bedeutet, dass unter der Annahme dass die Nullhypothese H_0 gilt, die Beobachtung der Daten unwahrscheinlich ist. Dies legt nahe, H_0 zu verwerfen, da das Auftreten der Daten unwahrscheinlich ist, wenn H_0 wahr wäre.
  • Ein statistisch signifikantes Testergebnis bedeutet außerdem, dass die Wahrscheinlichkeit die Daten zu beobachten, wenn H_0 wahr ist, durch das Niveau \alpha_0 beschränkt ist. Die Wahrscheinlichkeit, einen Fehler 1. Art zu begehen wenn man H_0 bei einem statistisch signifikanten Testergebnis zum Niveau \alpha_0 verwirft, ist also durch \alpha_0 (z.B. 5\%) beschränkt.

Die beiden obigen Punkte veranschaulichen gut, weshalb wir das Niveau eines Tests – welches zunächst etwas kompliziert erscheint – eingeführt haben. Das Niveau erlaubt uns, den Fehler 1. Art zu beschränken, und eine Aussage darüber zu treffen, wie unwahrscheinlich die Beobachtung von Daten unter Gültigkeit von H_0 ist.

3.1 Der p-Wert

Bisher haben wir Testentscheidungen mit Hilfe einer Teststatistik und der kritischen Region begründet. Hierzu wurde das Niveau eingeführt, und wenn H_0 bei Verwendung eines Tests zum Niveau \alpha_0 verworfen wird, so sagen wir, dass Ergebnis ist statistisch signifikant (zum Niveau \alpha_0). Abbildung 2.2 und Abbildung 2.3 zeigen beispielsweise als horizontale Linien jeweils das Niveau \alpha_0=0.05 eingezeichnet.

Der p-Wert ist eine in der Praxis jedoch häufiger verwendete Alternative, und liefert noch mehr Informationen. Formal ist er jedoch sehr abstrakt wie folgt definiert:

Definition 3.1 (p-Wert) Für eine Menge von Tests vom Niveau \alpha für jedes \alpha\in (0,1) ist der p-Wert der kleinste Wert von \alpha, für den der zugehörige Test die Nullhypothese verwirft.

Es macht daher Sinn, eine Intuition zu dieser sehr formalen Definition zu entwickeln. Wir schauen uns dafür den Zusammenhang zwischen kritischer Region und p-Wert an. Im einführenden Beispiel war K von der Form K=\{x: T(x)\geq d_{\alpha_0}\} Dabei ist d_{\alpha_0} die kleinste Zahl, sodass ein Test mit kritischer Region dieser Form das Niveau \alpha_0 hat. Anders ausgedrückt ist die kritische Region gerade die Menge aller Beobachtungen x, für die die Teststatistik T(x) größer als eine vom Niveau \alpha_0 abhängige Zahl d_{\alpha_0} ist.

Bei der Wahl von d_{\alpha_0} wird häufig gleichzeitig die Gütefunktion in \Theta_1 maximiert, weshalb sich dieses Vorgehen aus der Konvention ergibt. Dann ist für alle t\in \mathbb{R} \sup\limits_{\theta \in \Theta_0} \mathbb{P}_{\theta}(T\geq t)\leq \alpha_0 \Longleftrightarrow t\geq d_{\alpha_0}

Bei einem solchen Test, der die Nullhypothese für große Werte der Teststatistik T und beobachteten Wert t von T verwirft, ist der p-Wert definiert als \sup\limits_{\theta \in \Theta_0} \mathbb{P}_{\theta}(T(X)\geq T(x)) Dies bedeutet, dass wir die Wahrscheinlichkeit P_{\theta}(T(X)\geq T(x)) – also die Wahrscheinlichkeit, dass unsere Teststatistik T(X) größere Werte annimmt als die auf Basis der beobachteten Daten x erhaltene Teststatistik T(x) – für alle Wahrscheinlichkeiten aus H_0, also alle \theta \leq 0.5, maximieren. Doch wie sieht dies in unserem konkreten einführenden Beispiel aus?

Nehmen wir dazu an, wir beobachten x=59 Erfolge unter den n=100 Patient:innen. Dann ergibt sich der p-Wert wie folgt: \sup\limits_{\theta\leq 0.5} \mathbb{P}_{\theta}(X\geq 59)=\mathbb{P}_{0.5}(X\geq 59)=0.044 Grafisch sieht das so aus wie in Abbildung 3.1, wo die Dichte der Teststatistik T abgebildet ist. Die rote Fläche ist gerade die Wahrscheinlichkeit, unter Annahme von \theta=0.5 Werte der Teststatistik T(X) zu erhalten, die größer oder gleich T(x)=59 sind. Die Wahrscheinlichkeit in der roten Fläche beträgt daher gerade 0.044, was dem p-Wert entspricht.

Abbildung 3.1: Visualisierung des p-Wertes im einseitigen Binomialtest

Was wäre, wenn wir stattdessen x=64 Erfolge beobachtet hätten?

Abbildung 3.2: Visualisierung des p-Wertes im einseitigen Binomialtest

Abbildung 3.2 zeigt, dass der p-Wert nun deutlich kleiner ist, was sich durch \sup\limits_{\theta\leq 0.5} \mathbb{P}_{\theta}(X\geq 64)=\mathbb{P}_{0.5}(X\geq 64)= 0.003 nachrechnen lässt.

  • Beobachten wir also x=59 Erfolge, ist die Wahrscheinlichkeit unter Annahme von \theta=0.5 genau 59 oder mehr Erfolge zu beoachten 0.044, also 4.4\%.
  • Beobachten wir also x=64 Erfolge, ist die Wahrscheinlichkeit unter Annahme von \theta=0.5 genau 64 oder mehr Erfolge zu beoachten 0.003, also nur noch 0.3\%.

Das entscheidende ist nun, dass beide Wahrscheinlichkeiten kleiner als das Testnivau \alpha_0=0.05 sind, aber die zweite Wahrscheinlichkeit ist wesentlich kleiner.

Anmerkung. Dies bedeutet, dass der p-Wert angibt, wie unwahrscheinlich die Beobachtung der Ergebnisse oder noch extremerer Ergebnisse unter H_0 ist. Anders ausgedrückt, quantifiziert der p-Wert (unabhängig von der statistischen Signifikanz) wie unwahrscheinlich das Auftreten der Daten oder noch extremerer Daten unter Annahme der Nullhypothese ist. Ist diese Wahrscheinlichkeit klein, sollten wir die Nullhypothese verwerfen.

In der Praxis geht man daher wie folgt vor:

  • Man legt ein Signifikanzniveau \alpha_0 fest, oft \alpha_0=0.05.
  • Man erhebt die Daten und berechnet das Testergebnis sowie den zugehörigen p-Wert p. Dies geschieht in der Regel durch Software automatisch.
  • Man überprüft, ob p<\alpha_0 gilt. Ist dies der Fall, so ist das Testergebnis statistisch signifikant zum Niveau \alpha_0 und die Nullhypothese wird verworfen. Je kleiner der p-Wert ist, desto stärker ist die Evidenz gegen die Nullhypothese. Ist p\geq \alpha_0, so ist das Testergebnis nicht statistisch signifikant zum Niveau \alpha_0 und die Nullhypothese wird nicht verworfen. In diesem Fall kann keine Aussage über die Gültigkeit von H_0 oder H_1 getroffen werden.

4 Statistische Signifikanz und praktische Relevanz

Statistische Signifikanz wird in vielen Anwendungsbereichen leider fälschlicherweise immer noch mit praktischer Relevanz von Testergebnissen gleichgesetzt. Dies ist jedoch nicht zulässig.

  • Ein statistisch signifikantes Testergebnis kann praktisch relevant sein. Dies wird in der Praxis oft durch Maße für die Effektstärke (z.B. Cohen’s d) gemessen. Eine hohe Effektstärke spricht dann für eine praktische oder wissenschaftliche Relevanz des Testergebnisses.
  • Ein statistisch signifikantes Testergebnis kann praktisch nicht relevant sein. Dies tritt häufig auf, wenn die Stichprobenzahl sehr groß ist, aber die zugrunde liegende Effektstärke sehr klein ist. Obwohl ein Ergebnis dann statistisch signifikant ist, hat es für die Praxis nahezu keine Bedeutung.
  • Ein statistisch nicht signifikantes Testergebnis kann praktisch relevant sein. Das bedeutet, dass eine große Effektstärke in der Stichprobe gemessen wurde. Da jedoch keine statistische Signifikanz vorliegt, kann man in diesem Fall nicht ausschließen, dass eine solch große Effektstärke unter Gültigkeit der Nullhypothese H_0 hinreichend unwahrscheinlich ist. Obwohl der Effekt dann praktisch relevant ist, darf man H_0 nicht verwerfen und kann keine Schlussfolgerung für die zugrunde liegende Population (z.B. alle Patient:innen mit einer bestimmten Krankheit) ziehen.
  • Ein statistisch nicht signifikantes Testergebnis kann praktisch nicht relevant sein. Hier liegt weder eine hinreichend große Effektstärke in der Stichprobe vor, noch können die Ergebnisse aufgrund mangelnder statistischer Signifikanz auf die zu Grunde liegende Gesamtpopulation verallgemeinert werden.

Historisch wurde das Signifikanzniveau eingeführt, um festzustellen ob eine tiefergehende Untersuchung des beobachteten Phänomens sinnvoll ist oder nicht (Howie 2002). Um mit Hilfe des Ergebnisses eines statistischen Hypothesentest in einer Stichprobe auf die zu Grunde liegende Population zu schliessen bemerkten bereits die frühen Pioniere der Statistik, dass Replikationen der beobachteten Testergebnis auf Basis weiterer Erhebungen essentiell sind (Fisher 1925). Weitere Informationen finden Sie zum Beispiel in Rauch u. a. (2019) oder Kelter (2020).

5 Anwendungsbeispiel

Beispiel 5.1 (Klinische Studie zu Antibiotika) Wir nehmen an, dass ein neues Antibiotikum entwickelt wurde und nun in einer klinischen Studie erstmals an Probanden getestet werden soll. Da vergleichbare Antibiotika bei etwa 70\% der Patient:innen zu einer deutlichen Besserung der Symptome führen, muss ein geeigneter Binomialtest durchgeführt werden, um die Hypothesen

H_0:\theta \leq \theta_0 \text{ versus } H_1:\theta > \theta_0 zu testen. Anschaulich gesprochen wollen wir überprüfen, ob das neue Antibiotikum mit einer bestimmten Mindestwahrscheinlichkeit als wirksam eingestuft werden kann.

Da das Pharmaunternehmen sich bewusst ist, dass Testergebnisse auch falsch-positiv ausfallen können, soll die Wahrscheinlichkeit für einen Fehler 1. Art auf 5% begrenzt werden.

Aufgabe 5.1  

  1. Welcher Wert muss für \theta_0 gewählt werden?

  2. Welches Signifikanzniveau \alpha_0 ist auf Basis der obigen Angaben zu wählen?

Aufgabe 5.2 In einer 100 Patient:innen umfassenden Stichprobe wurden 79 Behandlungserfolge mit dem neuen Antibiotikum verzeichnet. Berechnen Sie mit Hilfe der Funktion binom.test den zugehörigen p-Wert zum Signifikanzniveau \alpha_0 = 0.05.

Aufgabe 5.3 Wie können Sie die Testergebnisse der Studie interpretieren? Beurteilen Sie das Ergebnis hinsichtlich der statistischen Signifikanz.

Aufgabe 5.4 Wie lässt sich das Testergebnis hinsichtlich der klinischen Wirksamkeit des neuen Antibiotikums beurteilen? Besteht ein Zusammenhang zur statistischen Signifikanz?

Lösungen der Aufgaben

Würde man \alpha_0 sehr klein wählen, wäre tatsächlich die Wahrscheinlichkeit P_{\theta}(X \in K) für \theta \in \Theta_0 klein. Man würde also den Fehler 1. Art nahezu unmöglich machen. Leider würde dadurch jedoch auch die Wahrscheinlichkeit für einen Fehler 2. Art P_{\theta}(X \notin K)=1-\pi(\theta;K) für \theta \in \Theta_1 sehr groß werden. Anders ausgedrückt: Verwirft man H_0 nur für sehr extreme Werte, so verwirft man H_0 auch nur noch sehr selten, falls H_1 wirklich wahr ist.

Zurück zu Aufgabe 2.1

  1. Da vergleichbare Antibiotika mit etwa 70% Wahrscheinlichkeit wirken, sollte \theta_0=0.70 gewählt werden. Dann muss das neue Antibiotikum mindestens genau so gut oder besser wirken.

  2. Das Signifikanzniveau muss als \alpha_0=0.05 gewählt werden, um den Fehler 1. Art auf maximal 5% zu beschränken.

Zurück zu Aufgabe 5.1

result <- binom.test(x = 79, 
           n = 100, 
           p=0.7, 
           alternative = c("greater"), 
           conf.level = 0.95)
result

    Exact binomial test

data:  79 and 100
number of successes = 79, number of trials = 100, p-value = 0.02883
alternative hypothesis: true probability of success is greater than 0.7
95 percent confidence interval:
 0.7118651 1.0000000
sample estimates:
probability of success 
                  0.79 

Zurück zu Aufgabe 5.2

Der zugehörige p-Wert ergibt sich für x=79 als p=0.02883. Da das Signifikanzniveau als \alpha_0=0.05 gewählt wurde, gilt p<\alpha_0, das Ergebnis ist daher statistisch signifikant zum Niveau \alpha_0.

Zurück zu Aufgabe 5.3

Das Testergebnis ist statistisch signifikant zum Niveau \alpha_0. Dies bedeutet jedoch nicht, dass das Ergebnis auch klinisch relevant bzw. wissenschaftlich von Bedeutung ist. Auch kleine vorliegende Effektstärken können statistisch signifikante Ergebnisse erzeugen, wenn nur die Stichprobe groß genug ist. In diesem Fall führte das Antibiotikum bei 79 von 100 Patient:innen zu einer Besserung der Symptome. Die Wirksamkeit kann damit also mit 79\% eingeschätzt werden.

Anmerkung: Die Unsicherheit in Bezug auf diese Punktschätzung liefert das von der Funktion binom.test berechnete 95%-Konfidenzintervall

result$conf.int[1]
[1] 0.7118651

welches als untere Grenze der Wirksamkeit etwa 71% angibt.

Zurück zu Aufgabe 5.4

Lizenz
Diese Lerneinheit “Statistische Hypothesentests” wurde von Riko Kelter, Alexander Schurr und Susanne Spies unter Mithilfe von Annika Hirth an der Universität Siegen entwickelt. Es ist lizenziert unter der CC-BY-SA 4.0 Lizenz und ist verfügbar auf ORCA.nrw.

Literatur

Benjamin, Daniel J., J. O. Berger, Magnus Johannesson, Brian A. Nosek, Eric-Jan Wagenmakers, Richard Berk, Kenneth A. Bollen, u. a. 2018. Redefine statistical significance. Nature Human Behaviour 2 (1): 6–10. https://doi.org/10.1038/s41562-017-0189-z.
Fisher, Ronald A. 1925. Statistical Methods for Research Workers. Herausgegeben von Oliver and Boyd. Edinburgh: Oliver; Boyd, Hafner Publishing Company.
Halsey, Lewis G. 2019. The reign of the p-value is over: what alternative analyses could we employ to fill the power vacuum? Biology Letters 15 (5): 20190174. https://doi.org/10.1098/rsbl.2019.0174.
Howie, David. 2002. Interpreting Probability : Controversies and Developments in the Early Twentieth Century. Cambridge: Cambridge University Press.
Ioannidis, John P. A. 2005. Contradicted and initially stronger effects in highly cited clinical research. Journal of the American Medical Association 294 (2): 218–28. https://doi.org/10.1001/jama.294.2.218.
Kelter, Riko. 2020. Bayesian alternatives to null hypothesis significance testing in biomedical research: a non-technical introduction to Bayesian inference with JASP. BMC Medical Research Methodology 20 (142). https://doi.org/10.1186/s12874-020-00980-6.
Rauch, Geraldine, Konrad Neumann, Ulrike Grittner, Carolin Herrmann, und Jochen Kruppa. 2019. Medizinische Statistik für Dummies. Weinheim: Wiley-VCH.
Wagenmakers, Eric-Jan, Richard D. Morey, und Michael D. Lee. 2016. Bayesian Benefits for the Pragmatic Researcher. Current Directions in Psychological Science 25 (3): 169–76. https://doi.org/10.1177/0963721416643289.