Der Binomialtest

Einleitung

Stellen Sie sich vor, Sie arbeiten in einer Firma, die für ihre Produktion auf die Zulieferung von Schrauben angewiesen ist. Ihre Aufgabe ist es sicherzustellen, dass der Anteil der defekten Schrauben in der Lieferung nicht zu hoch ist. Mit Ihrem Zulieferer haben Sie einen Vertrag abgeschlossen, dass der Anteil der defekten Schrauben höchstens 10% beträgt. Sie haben heute eine Lieferung von Schrauben erhalten und sollen überprüfen, ob die Vertragsbestimmungen eingehalten wurden, das heißt, ob der Anteil der defekten Schrauben höchstens 10% beträgt. Natürlich können Sie nicht alle Schrauben überprüfen und entscheiden sich daher dazu eine Stichprobe von 20 Schrauben zu untersuchen. Hält der Zulieferer, was er verspricht?

Die obige Situation ist ein typisches Beispiel für eine Entscheidung unter Unsicherheit. Bei dieser Entscheidung können wir zwei verschiedene Fehler machen.

Fehler erster Art
Wir behaupten, dass der Zulieferer gegen den Vertrag verstößt, obwohl der Anteil der defekten Schrauben kleiner oder gleich 10% ist.
Fehler zweiter Art
Wir behaupten, dass der Zulieferer den Vertrag einhält, obwohl der Anteil der defekten Schrauben größer als 10% ist.

Ein einfacher statistischer Test

Im Folgenden wollen wir diese Fehler quantifizieren. Zu dem Zweck übersetzen wir die Problemstellung in mathematische Begriffe. Wir bezeichnen die Anzahl der defekten Schrauben in unserer Stichprobe mit \(x\) und fassen \(x\) als Realisierung einer Zufallsvariable \(X\) auf. Zur Vereinfachung nehmen wir jetzt an, dass die \(20\) Schrauben mit Zurücklegen aus der Lieferung gezogen wurden. Dies ist sicher eine unrealistische Annahme, aber bei einer sehr großen Lieferung macht es praktisch keinen Unterschied, ob man mit oder ohne Zurücklegen zieht. Da die einzelnen Ziehungen unabhängig voneinander erfolgen, hat \(X\) eine Binomialverteilung mit den Parametern \(n=20\) und \(\theta\), wobei \(\theta\) die unbekannte Defektquote in der Lieferung ist.

Wir wollen nun die Hypothese \(\theta \leq 0.1\) gegen die Alternative \(\theta>0.1\) testen. Ein statistischer Test \(\phi\) weist der Anzahl der defekten Schrauben in unserer Stichprobe eine Entscheidung (\(0\) oder \(1\)) zu. Das Ergebnis \(\phi(x)=1\) soll bedeuten, dass der Test die Hypothese ablehnt, während \(\phi(x)=0\) bedeutet, dass der Test die Hypothese beibehält. Ein statistischer Test ist also ein Verfahren, das anhand der vorliegenden Daten eine Entscheidung trifft. Wir können jetzt die Wahrscheinlichkeit der beiden möglichen Fehler berechnen. Ist \(\theta\leq 0.1\), so begehen wir einen Fehler erster Art, wenn wir die Hypothese verwerfen. Die entsprechende Fehlerwahrscheinlichkeit ist \[ P_\theta(\phi(X) =1), \; \theta\leq 0.1. \] Durch die Schreibweise \(P_\theta\) bringen wir zum Ausdruck, dass die Verteilung der Zufallsvariablen \(X\) von dem unbekannten Parameter \(\theta\) abhängt. Umgekehrt begehen wir einen Fehler 2. Art, wenn \(\theta>0.1\), wir die Hypothese aber nicht verwerfen. Die entsprechende Fehlerwahrscheinlichkeit ist \[ P_\theta(\phi(X) =0), \; \theta>0.1. \]

Zurück zu unserem Beispiel: Falls die Defektquote wie behauptet höchstens \(10\%\) beträgt, erwarten wir in unserer Stichprobe von \(20\) Schrauben maximal zwei defekte. Damit liegt die Idee nahe, die Hypothese zu verwerfen, wenn wir in der Stichprobe drei oder mehr defekte Schrauben finden, und sie sonst beizubehalten. Unser Test sieht also wie folgt aus: \[ \phi(x) =\left\{ \begin{array}{ll} 1, & x\geq 3 \\ 0, & x\leq 2. \end{array} \right. \] Die Zahl \(3\) nennt man auch den kritischen Wert des Tests. Wir könnten auch einen beliebigen anderen kritischen Wert \(k\) nehmen, und die Hypothese verwerfen, wenn \(x\geq k\) ist.

Mithilfe der Anwendung auf dieser Seite wollen wir den Einfluss des kritischen Wertes und der tatsächlichen Defektquote auf die Fehlerwahrscheinlichkeiten untersuchen, indem wir das Ziehen einer Stichprobe und den anschließenden Test mehrfach simulieren. Die Anwendung zieht dazu jeweils zufällig \(n=20\) Schrauben aus einer Lieferung mit einer vorgegeben Defektquote \(\theta\) und trifft dann eine Testentscheidung mit dem angegebenen kritischen Wert \(k\). Dieser Vorgang wird \(N\)-fach wiederholt; am Ende zählt die Anwendung die Anzahl der Fälle, in denen die Hypothese verworfen beziehungsweise beibehalten wird.

Beobachtungsaufträge:
  1. Lassen Sie die tatsächliche Defektquote auf dem voreingestellten Wert von \(\theta=0.10\) und wählen Sie den kritischen Wert \(k=3\). Führen Sie mehrere Male Simulationen mit \(N=100\) Lieferungen durch und notieren Sie jedesmal, wie oft die Hypothese verworfen wird. Was beobachten Sie?
  2. Experimentieren Sie jetzt mit dem kritischen Wert \(k\), während Sie die tatsächliche Defektquote auf dem voreingestellten Wert von \(\theta=0.1\) lassen. Führen Sie zu verschiedenen kritischen Werten \(k\in \{3,4,\ldots\} \) mehrere Male Simulationen mit \(N=100\) Lieferungen durch. Was beobachten Sie? Können Sie den kritischen Wert so einstellen, dass die Hypothese möglichst wenig fälschlicherweise verworfen wird?
  3. Experimentieren Sie nun mit der tatsächlichen Defektquote \(\theta\), und wählen Sie dabei Werte \(0.1 < \theta \leq 1\), sodass die Hypothese nicht gilt. Behalten Sie ihren kritischen Wert, den Sie beim Experimentieren im vorherigen Teil gefunden haben, bei. Simulieren Sie jeweils \(N=100\) Lieferungen und beobachten Sie, wie oft die Hypothese fälschlicherweise beibehalten wird. Was beobachten Sie?
  4. Was schlussfolgern Sie aus Ihren Beobachtungen?

Sie können zunächst beobachten, dass die Anzahl der Lieferungen, bei denen die Hypothese verworfen wird, vom Zufall abhängt und entsprechend bei jeder Simulation eine andere ist. Die Wahrscheinlichkeit, die Hypothese zu verwerfen und entsprechend einen Fehler 1. Art zu begehen, kann man berechnen — sie beträgt \(P_{0.1}(X\geq 3)\approx 0.32\). Entsprechend erwarten Sie bei \(N=100\) Lieferungen, dass die Hypothese \(32\) Mal verworfen wird. Die wirkliche Anzahl wird um diesen Erwartungswert schwanken, und meist zwischen \(23\) und \(41\) liegen. In jedem Fall ist die Wahrscheinlichkeit eines Fehlers erster Art bei diesem naiven Verfahren überraschend hoch.

Sie sollten zunächst beobachten, dass der Fehler erster Art seltener eintritt, wenn Sie den kritischen Wert erhöhen. Die entsprechenden Wahrscheinlichkeiten können Sie der folgenden Tabelle entnehmen:

\(k\) 3 4 5 6 7
\(P_{0.1}(X\geq k)\) 0.321 0.133 0.043 0.011 0.002

Wenn Sie etwa den kritischen Wert \(k=5\) wählen, erwarten Sie bei \(N=100\) Lieferungen \(4.3\) Mal die Hypothese fälschlicherweise zu verwerfen — die wahre Anzahl wird auch hier vom Zufall abhängen und meist zwischen \(1\) und \(8\) liegen. Die geringere Wahrscheinlichkeit eines Fehlers erster Art gibt es leider nicht geschenkt — Sie erkaufen diese mit einer deutlich höheren Wahrscheinlichkeit eines Fehlers zweiter Art.

Sie sollten beobachten, dass der Fehler zweiter Art, also das fälschliche Beibehalten der Hypothese sehr oft vorkommt, wenn die wahre Defektquote nur wenig größer als \(0.1\) ist. Die Wahrscheinlichkeit eines Fehlers zweiter Art nimmt ab, wenn die tatsächliche Defektquote größer wird.

Sie sollten schlussfolgern, dass sich der Fehler erster Art und der Fehler zweiter Art durch die Wahl eines Testverfahrens nicht gleichzeitig beliebig gut vermeiden lassen. Daher konzentriert man sich zunächst auf den Fehler erster Art und legt eine Obergrenze für die entsprechende Fehlerwahrscheinlichkeit fest.

Der Binomialtest

Wie wir im vorigen Abschnitt gesehen haben, können wir unseren kritischen Wert nicht so einstellen, dass wir sowohl die Wahrscheinlichkeit eines Fehlers erster Art als auch die Wahrscheinlichkeit eines Fehlers zweiter Art gleichzeitig minimieren. Es ist daher üblich, dass wir uns auf den Fehler erster Art konzentrieren und versuchen, die entsprechende Fehlerwahrscheinlichkeit zu kontrollieren. Dafür definieren wir das Niveau eines statistischen Tests: Wir sagen der Test hält das Niveau \(\alpha\), wenn die Wahrscheinlichkeit für einen Fehler erster Art kleiner oder gleich \(\alpha\) ist. Wir geben also eine obere Schranke (nämlich das Niveau) für die Wahrscheinlichkeit vor, einen Fehler erster Art zu begehen, und suchen dazu einen passenden kritischen Wert \(k_\alpha\), sodass für alle \(\theta\leq 0.1\) \[ P_\theta(X\geq k_\alpha)\leq \alpha. \] Die Wahrscheinlichkeit \(P_\theta(X\geq k)\) ist eine monoton wachsende Funktion von \(\theta\) — je größer die Defektquote, desto wahrscheinlicher ist es, viele defekte Schrauben in der Stichprobe zu finden. Daher hält der Test das Niveau \(\alpha\) genau dann, wenn \[ P_{0.1}(X\geq k_\alpha)\leq \alpha. \] Der kritische Wert sollte allerdings nicht zu groß sein, damit wir die Hypothese leichter verwerfen, falls die Alternative zutrifft. Daher wählen wir das kleinste \(k_\alpha\), das die obige Ungleichung erfüllt. Unter der Hypothese, dass \(\theta=0.1\), hat \(X\) eine \(\mathrm{Bin}(20,0.1)\)-Verteilung, daher der Name Binomialtest. Wir finden den kritischen Wert \(k_\alpha\) mithilfe einer Wertetabelle der Binomialverteilung:

\(k\) 0 1 2 3 4 5 6 ≥7
\(P(X=k)\) 0.122 0.270 0.285 0.190 0.090 0.032 0.009 0.002

Oft verwendet man Tests zum Niveau \(\alpha=0.05\); hierfür findet man in der obigen Tabelle den kritischen Wert \(k_{0.05}=5\). Wenn man den Fehler erster Art noch stärker vermeiden will, wird man eventuell das Niveau \(\alpha=0.01\) nehmen. Der zugehörige kritische Wert ist \(k_{0.01}=7\).

Beobachtungsaufträge:
  1. Betrachten Sie jetzt den Binomialtest zum Niveau \(\alpha=0.05\). Führen Sie \(N=100\) Simulationen durch unter der Hypothese, dass die tatsächliche Defektquote \(\theta=0.1\) beträgt. Was beobachten Sie? Wie groß ist die relative Häufigkeit des Fehlers erster Art und wie unterscheidet sich diese vom naiven Test (mit kritischem Wert \(k=3\)), den wir im vorherigen Abschnitt vorgestellt haben.
  2. Untersuchen Sie jetzt das Verhalten des Binomialtests zum Niveau \(\alpha=0.05\) bei verschiedenen Alternativen, beispielsweise \(\theta\in \{0.2,0.3,\ldots, 0.9\}\). Wie groß ist jeweils die relative Häufigkeit eines Fehlers zweiter Art und wie hängt diese von der tatsächlichen Defektquote \(\theta\) ab?
  3. Untersuchen Sie jetzt das Verhalten des naiven Tests, den wir im vorigen Abschnitt beobachtet hatten, unter verschiedenen Alternativen. Inwieweit weicht die relative Häufigkeit des Fehlers zweiter Art von der des Binomialtests zum Niveau \(\alpha=0.05\) ab?

Sie sollten beobachten, dass die relative Häufigkeit des Fehlers erster Art sehr gering ausfällt, nämlich typischerweise nahe bei \(5\%\) liegt, und damit deutlich kleiner ist als beim naiven Test (\(k=3\)). Auch beim Binomialtest hängt die Häufigkeit des Fehlers erster Art vom Zufall ab; bei \(N=100\) Simulationen wird sie meist zwischen \(1\) und \(8\) liegen.

Die Wahrscheinlichkeit eines Fehlers zweiter Art sinkt mit zunehmendem \(\theta\). Intuitiv kann man das so verstehen, dass eine Abweichung von der Hypothese umso leichter entdeckt wird, je größer die wahre Defektwahrscheinlichkeit ist. In der untenstehenden Tabelle finden Sie die entsprechenden Fehlerwahrscheinlichkeiten für einige \(\theta\)-Werte.

\(\theta\) 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
\(P_{\theta}(X\leq 4)\) 0.63 0.24 0.05 0.01 0.00 0.00 0.00 0.00 0.00

Der Tabelle können Sie entnehmen, dass bei \(\theta=0.3\) die Wahrscheinlichkeit eines Fehlers zweiter Art \(24\%\) beträgt. In diesem Fall ist also die wahre Defektquote \(30\%\), und dennoch wird die Hypothese mit einer Wahrscheinlichkeit von \(24\%\) nicht verworfen. Wie oft der Fehler zweiter Art bei \(N=100\) Lieferungen vorkommt, hängt wieder vom Zufall ab. Wir erwarten \(24\) Fehlentscheidungen, d.h. fälschliches Beibehalten der Hypothese, aber in der Praxis wird diese Zahl meist zwischen 16 und 32 liegen.

Ebenso wie beim Binomialtest nimmt die Wahrscheinlichkeit eines Fehlers zweiter Art mit zunehmendem \(\theta\) ab, und entsprechend auch die relative Häufigkeit dieses Fehlers. Die Fehlerwahrscheinlichkeiten können Sie der folgenden Tabelle entnehmen:

\(\theta\) 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
\(P_{\theta}(X\leq 2)\) 0.21 0.04 0.00 0.00 0.00 0.00 0.00 0.00 0.00

Ein Fehler zweiter Art tritt also beim naiven Test (mit kritischem Wert \(k=3\)) wesentlich seltener auf beim Binomialtest. Diese geringere Wahrscheinlichkeit eines Fehlers zweiter Art erkaufen wir uns allerdings durch eine höhere Wahrscheinlichkeit eines Fehlers erster Art. Auch hier ist die Häufigkeit eines Fehlers zweiter Art bei \(N=100\) Lieferungen vom Zufall abhängig. Ist beispielsweise \(\theta=0.2\), so erwarten wir \(21\) Mal die Hypothese fälschlicherweise nicht zu verwerfen; in der Praxis wird diese Anzahl zwischen \(14\) und \(29\) liegen