Ziehen mit vs. ohne Zurücklegen

Beim wiederholten Ziehen aus einer Urne mit zwei Sorten ununterscheidbarer Kugeln (z.B. weiße und schwarze) gibt es zwei Fälle: Ziehen mit Zurücklegen und Ziehen ohne Zurücklegen. Je nach Art der Ziehung ist eine andere Verteilung geeignet, um die Wahrscheinlichkeit für das Ziehen von \(k\) weißen Kugeln in \(n\) Ziehungen zu berechnen. Wird mit Zurücklegen gezogen, ist dies die Binomialverteilung \(\text{Bin}(n,p)\), wobei \(p\) die Wahrscheinlichkeit ist, in einer einzelnen Ziehung eine weiße Kugel zu ziehen; diese entspricht dem relativen Anteil der weißen Kugeln in der Urne. Wird ohne Zurücklegen gezogen, ist die hypergeometrische Verteilung \(\text{Hyp}(N,K,n)\) geeignet, wobei \(N\) die Gesamtanzahl der Kugeln in der Urne und \(K\) die Anzahl der weißen Kugeln in der Urne ist.

Bei festem \(n\) und sehr großer Anzahl \(N\) von Kugeln in der Urne macht es anschaulich kaum einen Unterschied, ob man mit oder ohne Zurücklegen zieht, weil die Wahrscheinlichkeit, eine Kugel zweimal zu ziehen, sehr klein ist. Tatsächlich nähert sich das Modell ohne Zurücklegen für eine große Gesamtanzahl \(N\) von Kugeln dem Modell mit Zurücklegen an, sofern das von \(N\) abhängende Mischungsverhältnis \(K_N/N\) der hypergeometrischen Verteilung gegen die Erfolgswahrscheinlichkeit \(p\) der Binomialverteilung konvergiert: Unter der Voraussetzung \(\lim\limits_{N\to\infty}K_N/N=p\in(0,1)\) gilt für jedes \(n\in\mathbb{N}\) und jedes \(k\in\{0,\ldots,n\}\) \[\lim_{N\to\infty}\text{Hyp}(N,K_N,n)(\{k\})=\text{Bin}(n,p)(\{k\}).\]

Die Konvergenz der hypergeometrischen Verteilung gegen die Binomialverteilung kann bewiesen werden, indem die Zähldichte der hypergeometrischen Verteilung so umgeformt wird, dass unter der Voraussetzung \(\lim\limits_{N\to\infty}K_N/N=p\) die Konvergenz gegen die Zähldichte der Binomialverteilung erkennbar wird: Für jedes \(k\in\{0,\ldots,n\}\) gilt \begin{align*} \text{Hyp}(N,K_N,n)(\{k\}) &=\dbinom{K_N}{k}\dbinom{N-K_N}{n-k}\dbinom{N}{n}^{-1}\\ &=\frac{K_N!}{k!(K_N-k)!}\cdot\frac{(N-K_N)!}{(n-k)!(N-K_N-n+k)!}\cdot\frac{n!(N-n)!}{N!}\\ &=\dbinom{n}{k}\cdot\frac{K_N(K_N-1)\cdot\ldots\cdot(K_N-k+1)\cdot(N-K_N)\cdot\ldots\cdot(N-K_N-n+k+1)}{N(N-1)\cdot\ldots\cdot(N-n+1)}\\ &=\dbinom{n}{k}\cdot\frac{K_N}{N}\cdot\frac{K_N-1}{N-1}\cdot\ldots\cdot\frac{K_N-k+1}{N-k+1}\cdot\frac{N-K_N}{N-k}\cdot\ldots\cdot\frac{N-K_N-n+k+1}{N-n+1}\\ &=\dbinom{n}{k}\cdot\frac{K_N}{N}\cdot\frac{K_N-1}{N-1}\cdot\ldots\cdot\frac{K_N-k+1}{N-k+1}\cdot\left(1-\frac{K_N-k}{N-k}\right)\cdot\ldots\cdot\left(1-\frac{K_N-k}{N-n+1}\right)\\ &\xrightarrow{N\to\infty}\dbinom{n}{k}p^k(1-p)^{n-k}\\ &=\text{Bin}(n,p)(\{k\}). \end{align*}

Wird nun für festes \(N\) und festes \(K\) direkt \(p=K/N\) gesetzt, dann gilt für jedes \(k\in\{0,\ldots,n\}\) zumindest die Näherung \[\text{Hyp}(N,K,n)(\{k\})\approx\text{Bin}(n,p)(\{k\})=\text{Bin}(n,K/N)(\{k\}).\] Wie gut diese Näherung ist, wird von den Parametern \(N\), \(K\) und \(n\) abhängen. In den folgenden interaktiven Grafiken ist diese Approximation visualisert. Die linke Grafik zeigt in blau die Zähldichte der hypergeometrischen Verteilung mit Parametern \(N\), \(K\) und \(n=50\) und in rot die Zähldichte der Binomialverteilung mit Parametern \(n=50\) und \(p=K/N\). Die rechte Grafik zeigt die Differenz zwischen den beiden Zähldichten, also die Genauigkeit dieser Approximation.

Verändern Sie die Werte von \(N\) und \(K\) über die Schieberegler oder die Eingabefelder.

Zum Nachdenken

Beschreiben Sie mithilfe der interaktiven Grafik die Veränderung der Zähldichten und des Approximationsfehlers, wenn Sie

Wann wird die Approximation am besten?

Wird bei festem \(K\) der Wert von \(N\) vergrößert, verringert sich die maximale Betragsdifferenz zwischen den Zähldichten und der Approximationsfehler wird kleiner. Da zugleich auch das Mischungsverhältnis \(K/N\) kleiner wird, wird der Modus bei beiden Verteilungen kleiner. Wird bei festem \(N\) der Wert von \(K\) verändert, ist der Approximationsfehler bei mittleren Werten von \(K\) am kleinsten, während er für Werte entweder nahe bei \(0\) oder nahe bei \(N\) zunimmt.

Ist das Mischungsverhältnis \(K/N\) konstant, bleibt der Modus beider Verteilungen unverändert und der Approximationsfehler verringert sich mit steigenden Werten von \(N\) bzw. \(K\). Das verdeutlicht die Aussage, dass die hypergeometrische Verteilung \(\text{Hyp}(N,K,n)\) für große Werte von \(N\) durch die Binomialverteilung \(\text{Bin}(n,K/N)\) approximiert werden kann.