Verteilung von Schätzern

Beschreibende Statistik hat ihre Grenzen, weil sie sich nur auf den gegebenen Datensatz bezieht und keine darüber hinausgehende Aussagen machen kann. Im Allgemeinen wollen wir Aussagen machen, die über die gegebene Stichprobe hinausgehen, also etwa über den Mittelwert und die Varianz einer neuen Stichprobe oder in der gesamten Population aller Schokoladentafeln, die eine große schweizerische Schokoladenfabrik in diesem Jahr produziert. Um solche Aussagen treffen zu können, müssen wir zunächst ein statistisches Modell für die Daten entwickeln. In diesem konkreten Fall könnte das Modell darin bestehen, dass das Gewicht einer zufällig gezogenen Tafel Schokolade normalverteilt mit Parametern \(\mu\) und \(\sigma^2\) ist. Die Parameterwerte sind uns dabei nicht bekannt. Dieses spezielle Modell könnte man dadurch motivieren, dass beim Produktionsprozess viele kleine Variationen das Gewicht einer Schokoladentafel bestimmen, sodass der Zentrale Grenzwertsatz eine Normalverteilung plausibel macht.

Wir stellen fest, dass die geschätzten Parameterwerte selber wieder Realisierungen von Zufallsvariablen sind, in diesem Fall der beiden Zufallsvariablen \[ \bar{X}=\frac{1}{n}\sum_{i=1}^n X_i, \quad s_X^2=\frac{1}{n-1} \sum_{i=1}^n (X_i-\bar{X})^2. \] Bei jeder Stichprobe erhalten wir einen anderen Wert, der durch den Zufall der Stichprobenziehung bestimmt wird. Entsprechend hat jeder Schätzer eine Verteilung, die uns Auskunft über seine Genauigkeit gibt, insbesondere über den langfristigen mittleren quadratischen Schätzfehler. Im Prinzip kann man die Verteilung eines Schätzers theoretisch berechnen, wobei das meist nur näherungsweise möglich ist. (Die beiden Schätzer in diesem Beispiel bilden eine Ausnahme: deren Verteilung kann man exakt angeben.) Alternativ kann man die Verteilung durch eine Simulation bestimmen. Dazu wiederholen wir den kompletten Vorgang der Stichprobenziehung und der anschließenden Berechnung der Schätzer \(N\)-fach und erstellen dann Histogramme der Schätzwerte \(\bar{X}_1,\ldots,\bar{X}_N\) und \(s_1^2,\ldots,s_N^2\). Wenn \(N\) sehr groß gewählt wird [üblich ist mindestens \(N=1000\)], so bildet das Histogramm eine sehr gute Näherung an die Dichtefunktion der Schätzer.

Beobachtungsaufträge
  1. Wählen Sie selber Parameterwerte \(\mu\) und \(\sigma^2\) sowie eine Stichprobengröße \(n\) und simulieren Sie den Vorgang der Stichprobenziehung \(N=1000\) mal. Was fällt Ihnen auf, wenn Sie die Stichprobengröße \(n\) variieren, konkret etwa um den Faktor 4 erhöhen oder verkleinern?
  2. Wählen Sie Parameter \(\mu\) und \(\sigma^2\) sowie eine kleine Stichprobengröße – maximal \(n=10\). Ziehen Sie jetzt \(N=1000\) Mal eine Stichprobe und vergleichen Sie den Maximum-Likelihood-Schätzer für die Varianz \[ \hat{\sigma}^2_\text{ML}:=\frac{1}{n}\sum_{i=1}^n (x_i-\bar{x})^2 \] mit der Stichprobenvarianz. Was fällt Ihnen auf, vor allem im Hinblick auf die Lage des Histogramms zum wahren Parameter \(\sigma^2\)

Je größer die Stichprobe ist, umso genauer können wir die unbekannten Parameter schätzen. Die Varianz der Schätzer ist umgekehrt proportional zu \(\sqrt{n}\), d.h. bei einer viermal so großen Stichprobe halbiert sich die Varianz. Im Histogramm der \(N=1000\) Schätzwerte erkennen Sie diesen Effekt daran, dass die Schätzwerte bei zunehmender Stichprobengröße stets näher beim wahren Wert liegen.

Im Gegensatz zur Stichprobenvarianz ist der Maximum-Likelihood-Schätzer verzerrt. Konkret gilt \[ E(\hat{\sigma}^2_\text{ML})=\frac{n-1}{n} \sigma^2, \] d.h. der Maximum-Likelihood-Schätzer unterschätzt die wahre Varianz um den Faktor \(\frac{n-1}{n}\). Bei großen Stichproben merkt man diesen Effekt kaum, weil \(\frac{n-1}{n} \rightarrow 1\) für \(n\rightarrow \infty\). Bei \(n=10\) hingegen ist der Effekt deutlich — hier unterschätzt der ML-Schätzer die wahre Varianz um \(10\%\). Im Histogramm kann man dies daran erkennen, dass das arithmetische Mittel der Schätzwerte kleiner ist als \(\sigma^2\).

Arithmetisches Mittel
Median
Stichprobenvarianz
ML-Schätzer für \(\sigma^2\)