Gütekriterien für Punktschätzer

Schätztheorie

Zusammenfassung
In diesem Kapitel behandeln wir mathematische Kriterien, mit denen die Qualität von Punktschätzern beurteilt werden kann. Wir untersuchen diese Eigenschaften eines Schätzers theoretisch und visualisieren sie mithilfe von Simulationen in R.

Lernziele: Am Ende des Kapitels können Sie

  • Qualitätskriterien für Punktschätzer benennen und deren anschauliche Bedeutung erklären.
  • den Bias eines Schätzers in einfachen Fällen berechnen und ihn damit auf Erwartungstreue untersuchen.
  • den MSE eines Schätzers in einfachen Fällen berechnen und daran seine Effizienz im Vergleich mit anderen Schätzern beurteilen.
  • die asymptotische Erwartungstreue und Konsistenz einer Folge von Schätzern anhand von simulierten Stichproben untersuchen.
  • erwartungstreue und konsistente Schätzer für Erwartungswert und Varianz angeben.

Hinweis: Die mit einem gekennzeichneten Aufgaben können Sie durch schriftliches Rechnen lösen. Die mit gekennzeichneten Aufgaben setzen Grundkenntnisse der Programmierung mit der statistischen Software R voraus. Sie können R hier installieren, falls Sie R nicht auf Ihrem Rechner installiert haben. Zusätzlich empfiehlt sich die Installation einer integrierten Entwicklungsumgebung (IDE), wie zum Beispiel RStudio. Alternativ zur Installation können Sie die Web-Version webR direkt im Browser verwenden.

1 Einführung

An eine Schätzfunktion T sind zunächst keine weiteren Bedingungen gestellt. Jede Funktion der Stichprobe (x_1,\ldots,x_n) bzw. des Zufallsvektors (X_1,\ldots,X_n) ist eine mögliche Schätzfunktion bzw. ein möglicher Schätzer für \gamma(\theta). Somit können wir sehr leicht und ohne große mathematische Überlegungen mögliche Schätzer aufschreiben, von denen viele jedoch praktisch ungeeignet sind.

Da X_1,\ldots,X_n Zufallsvariablen sind, ist auch der Schätzer \widehat{\gamma} eine Zufallsvariable.

Wenn wir beispielsweise den unbekannten Erwartungswert \gamma(\theta)=\textsf{E}_\theta(X_1) schätzen wollen, so ist \widehat{\gamma}_1=T(X_1,\ldots,X_n)=42 ein möglicher Schätzer. Da er deterministisch ist, wissen wir stets, welchen Schätzwert wir erhalten werden. Wenn X_1 aber nicht gerade den Erwartungswert 42 besitzt, wird der Schätzwert nie der richtige sein. Außerdem ignoriert \widehat{\gamma}_1 die Informationen über \gamma(\theta), die in der Stichprobe (x_1,\ldots,x_n) enthalten sind. Egal welches \theta die Verteilung der Daten und damit den Erwartungswert also tatsächlich bestimmt, dieser Schätzer ist für das Schätzproblem eher ungeeignet.

Ein weiterer Schätzer für \textsf{E}_\theta(X_1) ist \widehat{\gamma}_2=T(X_1,\ldots,X_n)=X_1. Dieser bezieht nun Informationen aus der Stichprobe mit ein und ergibt im Mittel genau \textsf{E}_\theta(\widehat{\gamma}_2)=\textsf{E}_\theta(X_1)=\gamma(\theta). Da jedoch alle Beobachtungen außer der ersten ignoriert werden, unterliegen die Schätzwerte derselben Streuung um \gamma(\theta) wie die Beobachtungen von X_1 selbst. Insbesondere lässt sich die Genauigkeit der Schätzung nicht durch eine Vergrößerung des Stichprobenumfangs n verbessern. Auch \widehat{\gamma}_2 ist daher kein besonders guter Schätzer.

Im letzten Kapitel haben wir zwei Verfahren zur Konstruktion von Schätzern kennengelernt: die Maximum-Likelihood-Methode und die Momentenmethode. In diesem Kapitel entwickeln wir Kriterien, mit denen sich beurteilen lässt, wie gut oder schlecht ein Schätzer, den wir beispielsweise mit einem dieser Verfahren berechnet haben, für die Praxis tatsächlich ist. Überhaupt müssen wir uns überlegen, was einen “guten” Schätzer von einem “schlechten” Schätzer unterscheiden soll. Welche Qualitätskriterien soll ein Schätzer erfüllen, damit wir ihn in einer gegebenen Situation als “gut” bewerten?

Aufgabe 1

Sie müssen aus vorliegenden Daten einen für Ihre Auswertung wichtigen, aber unbekannten Parameter schätzen. Dazu stehen Ihnen mehrere Schätzer zur Auswahl. Welche qualitativen Eigenschaften würden Sie von einem Schätzer verlangen, um ihn für Ihre Auswertung einzusetzen?

Statt von Qualitätskriterien sprechen wir im Folgenden auch von Gütekriterien. Für die Statistik sind dabei die folgenden theoretischen Eigenschaften eines Schätzers von Interesse.

  • Erwartungstreue: Wie stark weichen die Schätzwerte im Mittel vom zu schätzenden Wert ab? Ein erwartungstreuer Schätzer unterliegt keinem systematischen Fehler und schätzt \gamma(\theta) im Mittel immer richtig, egal was der wahre Parameter \theta ist.
  • Effizienz: Wie stark streuen die Schätzwerte um den zu schätzenden Wert? Von zwei Schätzern ist derjenige effizienter, der weniger um \gamma(\theta) streut, egal was der wahre Parameter \theta ist.
  • Konsistenz: Konvergiert der Schätzer für immer größere Stichprobenumfänge gegen den zu schätzenden Wert? Bei einer konsistenten Folge von Schätzern liegen die Schätzwerte für große Stichprobenumfänge nahe bei \gamma(\theta), egal was der wahre Parameter \theta ist.
  • Suffizienz: Nutzt der Schätzer alle in den Daten enthaltenen Informationen, die zur Schätzung notwendig sind? Bei einem suffizienten Schätzer enthält die Stichprobe keine zusätzlichen Informationen über den wahren Parameter \theta, die der Schätzer nicht schon zur Schätzung von \gamma(\theta) verwendet.

Der wahre Wert von \theta ist unbekannt und ein guter Schätzer sollte keinen bestimmten Wert von \theta bevorzugen. Bei allen diesen Gütekriterien ist es daher wichtig zu verlangen, dass die jeweilige definierende Eigenschaft für alle \theta\in\Theta erfüllt ist. Dadurch werden insbesondere konstante Schätzer wie \widehat{\gamma}_1 ausgeschlossen, die für einen ausgezeichneten Wert von \theta unschlagbar sind, für alle anderen Werte von \theta jedoch stets falsch schätzen.

Wir werden auf die Erwartungstreue, Effizienz und Konsistenz ausführlich eingehen, die Suffizienz jedoch nicht behandeln, da hierfür fortgeschrittene Methoden aus der Wahrscheinlichkeitstheorie nötig sind, die wir für diesen Kurs nicht voraussetzen.

2 Erwartungstreue

Da wir Schätzwerte nur anhand einer zufällig gezogenen Stichprobe berechnen können, ist das Ergebnis unweigerlich mit einem Fehler behaftet. Je nach Stichprobe wird der wahre Wert mal über- und mal unterschätzt. Aus mathematischer Sicht beschreibt der Schätzfehler \widehat{\gamma}-\gamma(\theta) diese Abweichungen.

Auch der Schätzfehler \widehat{\gamma}-\gamma(\theta) ist eine Zufallsvariable.

Ziehen wir immer wieder eine neue Stichprobe und berechnen daraus immer wieder einen neuen Schätzwert, ist es wünschenswert, dass wir im Mittel über viele Stichproben keinen systematischen Fehler bei der Schätzung machen. Das bedeutet mathematisch, dass der Schätzfehler einen Erwartungswert von null besitzen soll. Einen solchen Schätzer nennen wir erwartungstreu.

Definition 1 (Bias und Erwartungstreue)

Sei \widehat{\gamma} ein Schätzer für \gamma(\theta) mit \textsf{E}_\theta(|\widehat{\gamma}|)<\infty für alle \theta\in\Theta. Der Erwartungswert des Schätzfehlers \widehat{\gamma}-\gamma(\theta) heißt Bias oder Verzerrung und ist definiert durch \textsf{Bias}_\theta(\widehat{\gamma}) =\textsf{E}_\theta(\widehat{\gamma}-\gamma(\theta)) =\textsf{E}_\theta(\widehat{\gamma})-\gamma(\theta). \tag{1}

\widehat{\gamma} heißt erwartungstreu oder unverzerrt für \gamma(\theta), wenn \textsf{Bias}_\theta(\widehat{\gamma})=0 für alle \theta\in\Theta, also wenn \textsf{E}_{\theta}(\widehat{\gamma})=\gamma(\theta) für alle \theta\in\Theta.

Für mehrdimensionale Zielparameter \gamma(\theta)\in\mathbb{R}^k sind der Bias und die Erwartungstreue komponentenweise definiert.

Wenn wir uns auf einen zweidimensionalen Zielparameter \gamma(\theta)\in\mathbb{R}^2 beschränken, können wir uns den Bias eines Schätzers anschaulich mithilfe einer Zielscheibe vorstellen. Das dahinter stehende Prinzip lässt sich in Gedanken auf beliebige \gamma(\theta) übertragen.

Der wahre Wert des zu schätzenden Parameters \gamma(\theta) befindet sich im Mittelpunkt der Zielscheibe. Bei jedem “Pfeil” bzw. jeder Stichprobe (x_1,\ldots,x_n) ergibt sich mithilfe der Schätzfunktion T auf der Zielscheibe der “Treffer” bzw. der Schätzwert T(x_1,\ldots,x_n). In diesem Bild besteht die Aufgabe darin, eine Testfunktion T bzw. einen Schätzer \widehat{\gamma} anzugeben, die bzw. der mit möglichst großer Genauigkeit und Präzision die Mitte der Zielscheibe, also \gamma(\theta) trifft.

Bei einer großen Anzahl an Stichproben stellt die Verteilung der Treffer auf der Zielscheibe eine Annäherung an die Verteilung des Schätzers \widehat{\gamma} dar. Analog stellt die Verteilung der Abweichungen vom Mittelpunkt der Scheibe eine Annäherung an die Verteilung des Schätzfehlers \widehat{\gamma}-\gamma(\theta) dar. Der Bias ist genau dann gleich null, wenn sich der Mittelwert aller denkbaren Treffer bei \gamma(\theta) in der Mitte der Zielscheibe befindet.

Beispiel 1

X_1,\ldots,X_n seien identisch verteilt. Das Stichprobenmittel \overline{X}_n ist ein erwartungstreuer Schätzer für \mu=\textsf{E}_\theta(X_1), denn für alle \theta\in\Theta ist \textsf{E}_\theta(\overline{X}_n) =\textsf{E}_\theta\left(\frac{1}{n}\sum_{k=1}^nX_k\right) =\frac{1}{n}\sum_{k=1}^n\textsf{E}_\theta(X_k) =\textsf{E}_\theta(X_1) =\mu. Auf die konkrete Verteilung von X_1 kommt es bei dieser Rechnung nicht an. Somit ist das Stichprobenmittel unabhängig von der getroffenen Verteilungsannahme erwartungstreu für den Erwartungswert.

Wir untersuchen die Erwartungstreue von \overline{X}_n in R anhand von simulierten Daten. Dieses Vorgehen ist insbesondere dann hilfreich, wenn sich die Verteilung eines Schätzers oder seine Kenngrößen theoretisch nicht oder nur schwer exakt berechnen lassen.

Wir nutzen die Funktion mean(), die zu einem Datenvektor x das arithmetische Mittel der Daten berechnet, und generieren m = 100 standardnormalverteilte Stichproben mit Stichprobenumfang n = 250. Von jeder Stichprobe x berechnen wir das Stichprobenmittel mean(x), das wir in einem Vektor estimates speichern. Anschließend bilden wir die Differenz zwischen dem Mittelwert aller m Schätzwerte – wieder mit mean() berechnet – und dem wahren Wert mu.

set.seed(1)

n <- 250
m <- 100

mu <- 0
sigma <- 1

estimates <- double(m)

for (k in 1:m) {
  x <- rnorm(n, mean = mu, sd = sigma)
  estimates[k] <- mean(x)
}

(bias <- mean(estimates) - mu)
[1] 0.000938093

Der Wert liegt sehr nahe bei null, was die Erwartungstreue von \overline{X}_n widerspiegelt. Experimentieren Sie selbst mit verschiedenen Werten von n und m sowie mu und sigma.

Beispiel 2

X_1,\ldots,X_n seien unabhängig und identisch verteilt. Die Stichprobenvarianz S_n^2 ist ein erwartungstreuer Schätzer für \sigma^2=\textsf{Var}_\theta(X_1). Um dies nachzuweisen, schreiben wir S_n^2 zunächst etwas um: \begin{align*} S_n^2 &=\frac{1}{n-1}\sum_{k=1}^n(X_k-\overline{X}_n)^2\\ &=\frac{1}{n-1}\sum_{k=1}^n(X_k^2-2\overline{X}_nX_k+\overline{X}_n^2)\\ &=\frac{1}{n-1}\Bigg(\sum_{k=1}^nX_k^2-2\overline{X}_n\sum_{k=1}^nX_k+n\overline{X}_n^2\Bigg)\\ &=\frac{1}{n-1}\Bigg(\sum_{k=1}^nX_k^2-2n\overline{X}_n^2+n\overline{X}_n^2\Bigg)\\ &=\frac{1}{n-1}\Bigg(\sum_{k=1}^nX_k^2-n\overline{X}_n^2\Bigg). \end{align*} Daraus erhalten wir nun die Erwartungstreue, denn für alle \theta\in\Theta ist \begin{align*} \textsf{E}_\theta(S_n^2) &=\frac{1}{n-1}\Bigg(\sum_{k=1}^n\textsf{E}_\theta(X_k^2)-n\textsf{E}_\theta(\overline{X}_n^2)\Bigg)\\ &=\frac{n}{n-1}\Big(\textsf{E}_\theta(X_1^2)-\textsf{E}_\theta(\overline{X}_n^2)\Big)\\ &=\frac{n}{n-1}\Big(\big(\textsf{Var}_\theta(X_1)+\textsf{E}_\theta(X_1)^2\big)-\big(\textsf{Var}_\theta(\overline{X}_n)+\textsf{E}_\theta(\overline{X}_n)^2\big)\Big)\\ &=\frac{n}{n-1}\left(\sigma^2+\mu^2-\frac{\sigma^2}{n}-\mu^2\right)\\ &=\frac{n}{n-1}\frac{n-1}{n}\sigma^2\\ &=\sigma^2. \end{align*} Auch hier kommt es auf die konkrete Verteilung von X_1 nicht an. Die Stichprobenvarianz ist somit unabhängig von der getroffenen Verteilungsannahme erwartungstreu für die Varianz.

Beim Nachweis der Erwartungstreue der Stichprobenvarianz haben wir neben der Erwartungstreue des Stichprobenmittels auch eine Formel für die Varianz des Stichprobenmittels verwendet.

Aufgabe 2

Rechnen Sie nach, dass für unabhängige und identisch verteilte X_1,\ldots,X_n gilt: \textsf{Var}_\theta(\overline{X}_n)=\frac{\sigma^2}{n}. \tag{2}

Da die Standardabweichung als die Wurzel aus der Varianz definiert ist, liegt es nahe, die Wurzel aus der Stichprobenvarianz als Schätzer für die Standardabweichung zu verwenden.

Beispiel 3

Da die Quadratwurzel keine lineare Abbildung ist, überträgt sich die Erwartungstreue von S_n^2 nicht auf die Stichprobenstandardabweichung S_n =\sqrt{S_n^2} =\sqrt{\frac{1}{n-1}\sum_{k=1}^n(X_k-\overline{X}_n)^2}. \tag{3} S_n ist also nicht mehr erwartungstreu. Aufgrund der Ungleichung von Jensen (siehe Seite 146 in Henze 2019) wird S_n die Standardabweichung \sigma im Allgemeinen unterschätzen, das heißt es gilt \textsf{E}_\theta(S_n)<\sigma für alle \theta\in\Theta.

Die Rechnung zur Erwartungstreue der Stichprobenvarianz erklärt die Bedeutung des Vorfaktors 1/(n-1) in der Definition von S_n^2. Nur mit diesem Vorfaktor erhalten wir tatsächlich einen erwartungstreuen Schätzer. Lautet er stattdessen 1/n und der Schätzer ist \widetilde{S}_n^2=\frac{1}{n}\sum_{k=1}^n(X_k-\overline{X}_n)^2, so ergibt sich aus der obigen Rechnung, dass \textsf{E}_\theta(\widetilde{S}_n^2)=(n-1)\sigma^2/n und somit \textsf{Bias}_\theta(\widetilde{S}_n^2) =\textsf{E}_\theta(\widetilde{S}_n^2)-\sigma^2 =\frac{n-1}{n}\sigma^2-\sigma^2 =-\frac{\sigma^2}{n}. Mit \widetilde{S}_n^2 wird die Varianz \sigma^2 also stets unterschätzt. Jedoch gilt \lim\limits_{n\to\infty}\textsf{Bias}_\theta(\widetilde{S}_n^2)=0, das heißt die Erwartungstreue stellt sich zumindest im Grenzwert für n\longrightarrow\infty ein.

Aufgabe 3

Generieren Sie für jedes n=1,\ldots,250 jeweils 100 standardnormalverteilte Stichproben vom Umfang n und berechnen Sie die Stichprobenvarianz mit dem Schätzer \widetilde{S}_n^2. Approximieren Sie zu jedem Stichprobenumfang n den Bias, indem sie mit dem arithmetischen Mittel der berechneten 100 Stichprobenvarianzen den Schätzfehler bilden. Erstellen Sie anschließend ein Streudiagramm, in dem die so berechneten Werte gegen die Stichprobengröße geplottet sind. Zeichnen Sie in das Streudiagramm außerdem die Funktion n\longmapsto\textsf{Bias}_\theta(\widetilde{S}_n^2)=-\sigma^2/n ein.

Genau genommen betrachten wir bei diesem Grenzwert nicht einen einzelnen Schätzer \widehat{\gamma}, sondern eine Folge von Schätzern (\widehat{\gamma}_n)_{n\in\mathbb{N}}. Wir sprechen von der asymptotischen Erwartungstreue der Folge von Schätzern.

Definition 2 (Asymptotische Erwartungstreue)

Eine Folge von Schätzern (\widehat{\gamma}_n)_{n\in\mathbb{N}} heißt asymptotisch erwartungstreu für \gamma(\theta), wenn \lim\limits_{n\to\infty}\textsf{Bias}_\theta(\widehat{\gamma}_n)=0\quad\forall\theta\in\Theta. \tag{4}

Ein weiteres Beispiel für eine asymptotisch erwartungstreue Folge von Schätzern bekommen Sie in der folgenden Aufgabe.

Aufgabe 4

X_1,\ldots,X_n seien identisch verteilt und \mu=\textsf{E}_\theta(X_1) sei bekannt. Welcher dieser Schätzer ist erwartungstreu oder asymptotisch erwartungstreu für \sigma^2=\textsf{Var}_\theta(X_1)? \begin{align*} T_n^2&=\frac{1}{n-1}\sum_{k=1}^n(X_k-\mu)^2\\ \widetilde{T}_n^2&=\frac{1}{n}\sum_{k=1}^n(X_k-\mu)^2 \end{align*}

3 Effizienz

Im Unterkapitel zur Erwartungstreue haben wir gelernt, den erwarteten Schätzfehler eines Schätzers zu beurteilen, indem wir den Bias berechnen. Dabei ist für jeden möglichen Parameter \theta\in\Theta ein Bias von null wünschenswert, damit wir im Mittel immer richtig schätzen.

Als Nächstes untersuchen wir verschiedene Streuungsmaße für Schätzer, um damit Aussagen über die Variabilität der Schätzwerte zu treffen. Da jeder Schätzer eine Zufallsvariable ist, ziehen wir zuerst die für Zufallsvariablen bekannten Streuungsmaße Varianz bzw. Standardabweichung heran.

Definition 3 (Standardfehler)

Sei \widehat{\gamma} ein Schätzer für \gamma(\theta) mit \textsf{E}_\theta(\widehat{\gamma}^2)<\infty für alle \theta\in\Theta. Die Standardabweichung von \widehat{\gamma} heißt Standardfehler und ist definiert durch \sigma_\theta(\widehat{\gamma})=\sqrt{\textsf{Var}_\theta(\widehat{\gamma})}. \tag{5}

Wir greifen erneut das Bild der Zielscheibe als anschauliche Darstellung der Punktschätzung auf. Mit dem Bias haben wir die Treffergenauigkeit gemessen, also den Fehler zwischen den Schätzwerten T(x_1,\ldots,x_n) und dem wahren Wert \gamma(\theta). Der Standardfehler dagegen misst die Streuung eines Schätzers um seinen Erwartungswert. Im Bild der Zielscheibe entspricht das der Trefferpräzision, also der Streuung der Treffer um den Mittelwert der Treffer.

Beispiel 4

Im Unterkapitel zur Erwartungstreue haben Sie in Aufgabe 2 die Varianz des Stichprobenmittels berechnet. Daraus ergibt sich der Standardfehler \sigma_\theta(\overline{X}_n) =\sqrt{\textsf{Var}_\theta(\overline{X}_n)} =\sqrt{\frac{\sigma^2}{n}} =\frac{\sigma}{\sqrt{n}}. Dieser Ausdruck konvergiert für n\longrightarrow\infty gegen null, d.h. die Schätzwerte des Stichprobenmittels streuen umso weniger, je größer der Stichprobenumfang ist. Mit einer größeren Stichprobe ist also auch eine präzisere Schätzung des Erwartungswerts möglich.

Veranschaulichen Sie sich dieses theoretische Resultat anhand von simulierten Daten, indem Sie die folgende Programmieraufgabe bearbeiten.

Aufgabe 5

Generieren Sie für jedes n=1,\ldots,250 jeweils 100 standardnormalverteilte Stichproben vom Umfang n und berechnen Sie die Stichprobenmittel. Approximieren Sie zu jedem Stichprobenumfang n den Standardfehler, indem sie die empirische Varianz der berechneten 100 Stichprobenmittel bilden. Erstellen Sie anschließend ein Streudiagramm, in dem die so berechneten Werte gegen die Stichprobengröße geplottet sind. Zeichnen Sie in das Streudiagramm außerdem die Funktion n\longmapsto\sigma_\theta(\overline{X}_n)=\sigma/\sqrt{n} ein.

Haben wir zwei erwartungstreue Schätzer zur Auswahl, bei denen wir also jeweils im Mittel den richtigen Wert \gamma(\theta) erwarten, so würden wir als ein weiteres Kriterium auf eine geringe Streuung achten, damit wir zumindest einen Schätzwert in der Nähe von \gamma(\theta) erhalten. Dazu können wir die Standardfehler berechnen und miteinander vergleichen. Der Schätzer mit dem kleineren Standardfehler weist die geringere Streuung auf und wird \gamma(\theta) effizienter schätzen als der andere Schätzer.

Definition 4 (Effizienz und bester Schätzer)

Seien \widehat{\gamma} und \widehat{\gamma}' zwei erwartungstreue Schätzer für \gamma(\theta) mit \textsf{E}_\theta(\widehat{\gamma}^2)<\infty und \textsf{E}_\theta(\widehat{\gamma}'^2)<\infty für alle \theta\in\Theta. Der Schätzer \widehat{\gamma} heißt effizienter als \widehat{\gamma}', wenn \sigma_\theta(\widehat{\gamma})\leq\sigma_\theta(\widehat{\gamma}')\quad\forall\theta \in \Theta. \tag{6}

Besitzt \widehat{\gamma} den minimalen Standardfehler unter allen erwartungstreuen Schätzern für \gamma(\theta), so heißt \widehat{\gamma} ein bester erwartungstreuer Schätzer für \gamma(\theta).

Bei der Beurteilung der Effizienz eines Schätzers kann man alternativ zum Standardfehler auch die Varianz berechnen, weil diese der quadrierte Standardfehler ist und das \leq-Zeichen in der obigen Ungleichung beim Quadrieren beider Seiten erhalten bleibt.

Anmerkung.

Unter weiteren mathematischen Voraussetzungen kann man die Cramér-Rao-Ungleichung beweisen. Sie besagt, dass die Varianz eines erwartungstreuen Schätzers eine bestimmte untere Schranke nicht unterschreiten und somit nicht beliebig klein werden kann. In dieser unteren Schranke kommt die sogenannte Fisher-Information vor.

Stimmt die Varianz mit der unteren Schranke in der Cramér-Rao-Ungleichung überein, spricht man von einem Cramér-Rao-effizienten Schätzer (siehe Seite 243-244 in Henze 2019).

Für erwartungstreue Schätzer misst der Standardfehler die Streuung sowohl um den Erwartungswert als auch um \gamma(\theta), denn in diesem Fall stimmen beide überein. Für nicht erwartungstreue Schätzer ist jedoch ein weiteres Streuungsmaß wünschenswert, das explizit die Streuung um \gamma(\theta) misst und damit Auskunft über die Präzision der Schätzung in Bezug auf den zu schätzenden Parameter gibt.

Die Abkürzung MSE stammt vom englischen Begriff mean squared error. Entsprechend steht RMSE für den root mean squared error.

Definition 5 (MSE und RMSE)

Sei \widehat{\gamma} ein Schätzer für \gamma(\theta) mit \textsf{E}_\theta(\widehat{\gamma}^2)<\infty für alle \theta\in\Theta. Das zweite Moment des Schätzfehlers heißt mittlere quadratische Abweichung oder MSE und ist definiert durch \textsf{MSE}_\theta(\widehat{\gamma})=\textsf{E}_\theta((\widehat{\gamma}-\gamma(\theta))^2). \tag{7}

Die Wurzel aus der mittleren quadratischen Abweichung heißt RMSE und ist definiert durch \textsf{RMSE}_\theta(\widehat{\gamma})=\sqrt{\textsf{MSE}_\theta(\widehat{\gamma})}. \tag{8}

Wir sehen an der Definition, dass im erwartungstreuen Fall der MSE und der quadrierte Standardfehler gleich sind, denn dann ist \begin{align*} \textsf{MSE}_\theta(\widehat{\gamma}) &=\textsf{E}_\theta((\widehat{\gamma}-\gamma(\theta))^2)\\ &=\textsf{E}_\theta((\widehat{\gamma}-\textsf{E}_\theta(\widehat{\gamma}))^2)\\ &=\textsf{Var}_\theta(\widehat{\gamma})\\ &=\sigma_\theta^2(\widehat{\gamma}). \end{align*} Allgemein besteht zwischen dem MSE, dem Standardfehler und dem Bias der folgende mathematische Zusammenhang.

Theorem 1 (Zerlegung des MSE in Standardfehler und Bias)

Sei \widehat{\gamma} ein Schätzer für \gamma(\theta) mit \textsf{E}_\theta(\widehat{\gamma}^2)<\infty für alle \theta\in\Theta. Dann gilt für alle \theta\in\Theta die Bias-Varianz-Formel

\textsf{MSE}_\theta(\widehat{\gamma})=\sigma_\theta^2(\widehat{\gamma})+\textsf{Bias}_\theta^2(\widehat{\gamma}). \tag{9}

Beweis.

Der MSE ist das zweite Moment des Schätzfehlers, das wir als Summe aus der Varianz und dem quadrierten Erwartungswert schreiben können: \textsf{MSE}_\theta(\widehat{\gamma}) =\textsf{E}_\theta((\widehat{\gamma}-\gamma(\theta))^2) =\textsf{Var}_\theta(\widehat{\gamma}-\gamma(\theta))+\textsf{E}_\theta(\widehat{\gamma}-\gamma(\theta))^2. Der Schätzfehler und der Schätzer selbst haben dieselbe Varianz, da sie sich nur um die reelle Zahl \gamma(\theta) unterscheiden. Die Varianz des Schätzers ist der quadrierte Standardfehler und der Erwartungswert des Schätzfehlers ist gleich dem Bias. Somit erhalten wir \textsf{MSE}_\theta(\widehat{\gamma}) =\textsf{Var}_\theta(\widehat{\gamma})+\textsf{Bias}_\theta^2(\widehat{\gamma}) =\sigma_\theta^2(\widehat{\gamma})+\textsf{Bias}_\theta^2(\widehat{\gamma}).

Auch anhand dieser Formel sehen wir, dass \textsf{MSE}_\theta(\widehat{\gamma})=\sigma_\theta^2(\widehat{\gamma}), wenn \textsf{Bias}_\theta(\widehat{\gamma})=0, also wenn \widehat{\gamma} erwartungstreu ist.

Anmerkung.

Die Zerlegung des MSE in die Summe aus dem quadrierten Bias und der Varianz ist insbesondere beim statistischen Lernen relevant. Hier ist ein Lernalgorithmus mit möglichst geringem MSE gesucht.

Die Varianz wächst typischerweise mit der Flexibilität des Lernalgorithmus, also mit der Anpassungsfähigkeit an einen Trainingsdatensatz. Der Bias dagegen nimmt typischerweise mit der Flexibilität des Lernalgorithmus ab. Wenn nun ein wenig flexibler Algorithmus mit sehr geringer Varianz verwendet wird, kann der Bias hoch sein. Aufgrund der Bias-Varianz-Formel ist dann auch der MSE hoch. Umgekehrt bietet ein flexibler Algorithmus zwar einen sehr geringen Bias, aufgrund seiner hohen Varianz besitzt er aber erneut einen hohen MSE.

Dies führt zu dem Bias-Varianz-Dilemma, nämlich einen Algorithmus mit gleichzeitig geringer Varianz und geringem quadrierten Bias zu suchen, was in der Summe einen geringen MSE ergibt und daher verlässliche Vorhersagen auf einem Testdatensatz ermöglicht (siehe Seite 33-36 in James u. a. 2021).

Ein letztes Mal stellen wir uns ein Schätzproblem anschaulich als Zielscheibe mit dem unbekannten \gamma(\theta) in der Mitte vor. Wir haben auf diese Weise bereits den Bias und den Standardfehler eines Schätzers illustriert. Aufgrund der Bias-Varianz-Formel setzt sich der MSE direkt aus diesen beiden Größen zusammen.

Bei einem hohen MSE streuen die einzelnen Treffer stark um den Mittelwert aller Treffer oder der Mittelwert ist weit von der Mitte der Zielscheibe entfernt. Möglicherweise trifft auch beides gleichzeitig zu. Der MSE verringert sich, wenn

  1. der Standardfehler kleiner wird, das heißt wenn die einzelnen Treffer weniger um den Mittelwert der Treffer streuen,
  2. der Bias kleiner wird, das heißt wenn der Mittelwert der Treffer näher am Mittelpunkt der Scheibe liegt.

Bei einem kleinen Standardfehler und einem kleinen Bias, also bei hoher Präzision und hoher Genauigkeit der auf der Scheibe erzielten Treffer, ist auch der MSE klein und der Schätzer ist gut für das Schätzproblem geeignet, den wahren Wert von \gamma(\theta) in der Mitte der Zielscheibe zu treffen.

Mit dem MSE können wir nun auch beim Vergleich von zwei verzerrten Schätzern entscheiden, welcher der beiden effizienter ist. Wir werden denjenigen bevorzugen, der für jeden wahren Wert von \theta die kleinere Streuung um \gamma(\theta) besitzt, also gerade denjenigen mit dem kleineren MSE.

Definition 6 (MSE-Effizienz)

Seien \widehat{\gamma} und \widehat{\gamma}' zwei Schätzer für \gamma(\theta) mit \textsf{E}_\theta(\widehat{\gamma}^2)<\infty und \textsf{E}_\theta(\widehat{\gamma}'^2)<\infty für alle \theta\in\Theta. Der Schätzer \widehat{\gamma} heißt MSE-effizienter als \widehat{\gamma}', wenn \textsf{MSE}_\theta(\widehat{\gamma})\leq\textsf{MSE}_\theta(\widehat{\gamma}')\quad\forall\theta\in\Theta. \tag{10}

4 Konsistenz

Die Konsistenz ist eine asymptotische Eigenschaft einer Folge von Schätzern. Sie besagt anschaulich, dass die Schätzwerte für große Stichprobenumfänge mit hoher Wahrscheinlichkeit nahe am zu schätzenden Wert \gamma(\theta) liegen, und zwar für jeden möglichen Parameter \theta\in\Theta. Im Gegensatz zur asymptotischen Erwartungstreue soll dies nicht nur für den im Mittel erwarteten Schätzwert gelten, sondern sogar für die Schätzwerte selbst.

Damit das passiert, dürfen die Schätzwerte umso weniger um \gamma(\theta) streuen, je größer der Stichprobenumfang wird. Im letzten Unterkapitel haben wir gelernt, diese Streuung mithilfe der mittleren quadratischen Abweichung zu quantifizieren. Daraus ergibt sich ein erster Konsistenzbegriff, indem wir fordern, dass die mittlere quadratische Abweichung einer Folge von Schätzern gegen null konvergieren soll.

Definition 7 (Konsistenz im quadratischen Mittel)

Eine Folge von Schätzern (\widehat{\gamma}_n)_{n\in\mathbb{N}} heißt konsistent im quadratischen Mittel oder MSE-konsistent, wenn \lim\limits_{n\to\infty}\textsf{MSE}_\theta(\widehat{\gamma}_n)=0\quad\forall\theta\in\Theta. \tag{11}

Aufgrund der Zerlegung des MSE in den quadrierten Standardfehler und den quadrierten Bias mithilfe der Formel \textsf{MSE}_\theta(\widehat{\gamma}_n)=\sigma_\theta^2(\widehat{\gamma}_n)+\textsf{Bias}_\theta^2(\widehat{\gamma}_n) ist eine Folge von Schätzern konsistent im quadratischen Mittel, wenn die folgenden beiden Bedingungen erfüllt sind:

  1. \lim\limits_{n\to\infty}\textsf{Bias}_\theta(\widehat{\gamma}_n)=0 für alle \theta\in\Theta, wenn also asymptotische Erwartungstreue für \gamma(\theta) vorliegt. Dies bewirkt, dass die Schätzung für große Stichprobenumfänge unverzerrt ist. Das ist insbesondere dann der Fall, wenn bereits jedes \widehat{\gamma}_n erwartungstreu für \gamma(\theta) ist.
  2. \lim\limits_{n\to\infty}\sigma_\theta(\widehat{\gamma}_n)=0 für alle \theta\in\Theta, wenn also die Folge der Standardfehler gegen null konvergiert. Dies bewirkt, dass die Schätzung für wachsende Stichprobenumfänge immer weniger Streuung aufweist.

Die Formel für die Standardabweichung bzw. die Varianz des Stichprobenmittels haben Sie in Aufgabe 2 hergeleitet.

Beispiel 5

Sei (X_k)_{k\in\mathbb{N}} eine Folge von unabhängigen und identisch verteilten Zufallsvariablen. Die Folge (\overline{X}_n)_{n\in\mathbb{N}} der Stichprobenmittel ist konsistent im quadratischen Mittel, denn für jedes n\in\mathbb{N} ist \overline{X}_n erwartungstreu für \mu=\textsf{E}_\theta(X_1) und es gilt \lim_{n\to\infty}\sigma_\theta(\overline{X}_n) =\lim_{n\to\infty}\frac{\sigma}{\sqrt{n}} =0.

Veranschaulichen Sie sich dieses theoretische Resultat anhand von simulierten Daten, indem Sie die folgende Programmieraufgabe bearbeiten.

Aufgabe 6

Generieren Sie für jedes n=1,\ldots,250 jeweils 100 standardnormalverteilte Stichproben vom Umfang n und berechnen Sie die Stichprobenvarianz mit dem Schätzer \widetilde{S}_n^2. Approximieren Sie zu jedem Stichprobenumfang n den Bias sowie den Standardfehler der 100 berechneten Stichprobenvarianzen und berechnen Sie daraus den MSE. Erstellen Sie anschließend ein Streudiagramm, in dem die so berechneten Werte jeweils gegen die Stichprobengröße und in verschiedenen Farben geplottet sind.

Einen weiteren Konsistenzbegriff erhalten wir, indem wir die Anschauung, die Schätzwerte sollen für große Stichprobenumfänge mit hoher Wahrscheinlichkeit nahe bei \gamma(\theta) liegen, mathematisch formalisieren. Wir fordern dazu, dass die Wahrscheinlichkeit, dass der Schätzfehler \widehat{\gamma}_n-\gamma(\theta) im Betrag kleiner ist als jede noch so kleine positive Fehlerschranke \varepsilon, gegen eins konvergiert.

Definition 8 (Schwache Konsistenz)

Eine Folge von Schätzern (\widehat{\gamma}_n)_{n\in\mathbb{N}} heißt schwach konsistent für \gamma(\theta), wenn für alle \varepsilon>0 \lim_{n\to\infty}P_\theta(|\widehat{\gamma}_n-\gamma(\theta)|<\varepsilon)=1\quad\forall\theta\in\Theta. \tag{12}

Schwache Konsistenz bedeutet gerade, dass \widehat{\gamma}_n bezüglich P_\theta stochastisch gegen \gamma(\theta) konvergiert, also dass \widehat{\gamma}_n\stackrel{P_\theta}{\longrightarrow}\gamma(\theta)\quad\forall\theta\in\Theta. Es lässt sich allgemein beweisen, dass die stochastische Konvergenz stets aus der Konvergenz im quadratischen Mittel folgt (siehe Seite 199 in Henze 2019). Somit ist jede im quadratischen Mittel konsistente Folge von Schätzern auch schwach konsistent.

Um die schwache Konsistenz direkt nachzuweisen, sind die Chebychev-Ungleichung und das schwache Gesetz der großen Zahlen zwei wichtige Hilfsmittel.

Theorem 2 (Chebychev-Ungleichung)

Für eine Zufallsvariable X mit \textsf{E}_\theta(X^2)<\infty und alle \varepsilon>0 gilt P_\theta(|X-\textsf{E}_\theta(X)|\geq\varepsilon)\leq\frac{\textsf{Var}_\theta(X)}{\varepsilon^2}. \tag{13}

Beweis.

Sei \varepsilon>0. Mit dem Ereignis A_\varepsilon:=\{|X-\textsf{E}_\theta(X)|\geq\varepsilon\} ist \begin{align*} \textsf{Var}_\theta(X) &=\textsf{E}_\theta((X-\textsf{E}_\theta(X))^2)\\ &=\textsf{E}_\theta((X-\textsf{E}_\theta(X))^2\boldsymbol{1}_{A_\varepsilon})+\textsf{E}_\theta((X-\textsf{E}_\theta(X))^2\boldsymbol{1}_{A_\varepsilon^c})\\ &\geq\textsf{E}_\theta(\varepsilon^2\boldsymbol{1}_{A_\varepsilon})\\ &=\varepsilon^2P_\theta(A_{\varepsilon})\\ &=\varepsilon^2P_\theta(|X-\textsf{E}_\theta(X)|\geq\varepsilon). \end{align*} Division dieser Ungleichung durch \varepsilon^2 ergibt die Chebychev-Ungleichung.

Aus der Chebychev-Ungleichung folgt nun das folgende Kriterium für stochastische Konvergenz.

Theorem 3 (Kriterium für stochastische Konvergenz)

Sei (X_n)_{n\in\mathbb{N}} eine Folge von Zufallsvariablen mit \textsf{E}_\theta(X_n^2)<\infty für alle n\in\mathbb{N}. Es gelte \lim\limits_{n\to\infty}\textsf{E}_\theta(X_n)=a für ein a\in\mathbb{R} und \lim\limits_{n\to\infty}\textsf{Var}_\theta(X_n)=0. Dann gilt X_n\stackrel{P_\theta}{\longrightarrow}a.

Beweis.

Sei \varepsilon>0. Da die Folge der Erwartungswerte gegen a konvergiert, gibt es ein n_0\in\mathbb{N} mit |\textsf{E}_\theta(X_n)-a|\leq\varepsilon/2 für alle n\geq n_0. Dann gilt für n\geq n_0 mit der Dreiecksungleichung \begin{align*} P_\theta(|X_n-a|\geq\varepsilon) &\leq P_\theta(|X_n-\textsf{E}_\theta(X_n)|+|\textsf{E}_\theta(X_n)-a|\geq\varepsilon)\\ &\leq P_\theta(|X_n-\textsf{E}_\theta(X_n)|+\varepsilon/2\geq\varepsilon)\\ &=P_\theta(|X_n-\textsf{E}_\theta(X_n)|\geq\varepsilon/2). \end{align*} Mit der Chebychev-Ungleichung und der Voraussetzung an die Varianzen folgt daraus \begin{align*} P_\theta(|X_n-a|<\varepsilon) &=1-P_\theta(|X_n-a|\geq\varepsilon)\\ &\geq1-P_\theta(|X_n-\textsf{E}_\theta(X_n)|\geq\varepsilon/2)\\ &\geq1-\frac{\textsf{Var}_\theta(X_n)}{(\varepsilon/2)^2} \xrightarrow{n\to\infty}1. \end{align*} Somit konvergiert X_n stochastisch gegen a.

Ist also (\widehat{\gamma}_n)_{n\in\mathbb{N}} eine Folge von Schätzern, die für alle \theta\in\Theta asymptotisch erwartungstreu für a=\gamma(\theta) ist und deren Varianzen gegen null konvergieren, so ergibt sich aus diesem Kriterium die schwache Konsistenz für \gamma(\theta).

Ist bereits jedes \widehat{\gamma}_n erwartungstreu für \gamma(\theta), folgt die schwache Konsistenz allein aus der Bedingung, dass die Varianzen gegen null konvergieren. Das ist beispielsweise beim Stichprobenmittel der Fall.

Beispiel 6

Die Folge (\overline{X}_n)_{n\in\mathbb{N}} der Stichprobenmittel ist schwach konsistent für \mu=\textsf{E}_\theta(X_1), denn für jedes n\in\mathbb{N} ist \overline{X}_n erwartungstreu für \mu=\textsf{E}_\theta(X_1) und es gilt \lim_{n\to\infty}\textsf{Var}_\theta(\overline{X}_n) =\lim_{n\to\infty}\frac{\sigma^2}{n} =0. Wie oben erwähnt folgt die schwache Konsistenz auch bereits aus der Konsistenz im quadratischen Mittel.

Mit der schwachen Konsistenz des Stichprobenmittels folgt sofort die folgende Version des schwachen Gesetzes der großen Zahlen.

Theorem 4 (Schwaches Gesetz der großen Zahlen)

Sei (X_n)_{n\in\mathbb{N}} eine Folge von unabhängigen und identisch verteilten Zufallsvariablen mit \textsf{E}_\theta(X_1^2)<\infty. Dann gilt \frac{1}{n}\sum_{k=1}^nX_k\stackrel{P_\theta}{\longrightarrow}\textsf{E}_\theta(X_1). \tag{14}

Mit dem schwachen Gesetz der großen Zahlen kann in vielen Fällen die schwache Konsistenz nachgewiesen werden, sofern sich die \widehat{\gamma}_n als arithmetisches Mittel von unabhängigen und identisch verteilten Zufallsvariablen mit endlichen zweiten Momenten und Erwartungswert \gamma(\theta) schreiben lassen.

Aufgabe 7

Die Zufallsvariablen (X_k)_{k\in\mathbb{N}} seien unabhängig und identisch verteilt mit \textsf{E}_\theta(X_1^4)<\infty. Beweisen Sie, dass die Folge (S_n^2)_{n\in\mathbb{N}} der Stichprobenvarianzen schwach konsistent für \sigma^2=\textsf{Var}_\theta(X_1) ist.

Nutzen Sie dazu die Darstellung S_n^2=\frac{1}{n-1}\Bigg(\sum_{k=1}^nX_k^2-n\overline{X}_n^2\Bigg) und die folgenden Rechenregeln für stochastische Konvergenz (siehe Seite 199 in Henze 2019):

  1. Gilt Y_n\xrightarrow{P_\theta}Y für Zufallsvariablen Y,(Y_n)_{n\in\mathbb{N}} und ist h:\mathbb{R}\longrightarrow\mathbb{R} eine stetige Funktion, so gilt auch h(Y_n)\xrightarrow{P_\theta}h(Y).
  2. Gilt Y_n\xrightarrow{P_\theta}Y für Zufallsvariablen Y,(Y_n)_{n\in\mathbb{N}} und a_n\xrightarrow{n\to\infty}a für reelle Zahlen a,(a_n)_{n\in\mathbb{N}}, so gilt auch a_nY_n\xrightarrow{P_\theta}aY.

5 Zusammenfassung

Für jedes Schätzproblem gibt es viele mathematisch mögliche Schätzer, sodass Gütekriterien notwendig sind, um in einer gegebenen Situation “gute” Schätzer und “schlechte” Schätzer zu unterscheiden. In diesem Kapitel haben wir drei solche Gütekriterien näher kennengelernt: Erwartungstreue, Effizienz und Konsistenz.

Der Bias ist der im Mittel erwartete Schätzfehler und damit ein Maß für die Schätzgenauigkeit, er gibt die Differenz zwischen dem Erwartungswert des Schätzers und \gamma(\theta) an. Schätzer mit einem positiven Bias überschätzen im Mittel den gesuchten Wert, während Schätzer mit einem negativen Bias diesen im Mittel unterschätzen. Ein erwartungstreuer bzw. unverzerrter Schätzer hat einen Bias von null, was bedeutet, dass er keinen systematischen Fehler aufweist und \gamma(\theta) für alle möglichen Parameter \theta im Mittel richtig schätzt. Das Stichprobenmittel \overline{X}_n ist erwartungstreu für den Erwartungswert \mu, die Stichprobenvarianz S_n^2 ist erwartungstreu für die Varianz \sigma^2. Die Wurzel aus der Stichprobenvarianz S_n ist allerdings nicht mehr erwartungstreu für die Standardabweichung \sigma. Betrachtet man einen Schätzer in Abhängigkeit des Stichprobenumfangs, also eine Folge von Schätzern, und konvergiert der Bias gegen null, dann ist die Schätzfolge asymptotisch erwartungstreu. Zumindest für große Stichprobenumfänge ist dann die Erwartungstreue annähernd gegeben.

Der Standardfehler ist die Standardabweichung des Schätzers und damit ein Maß für die Schätzpräzision, sie misst die Streuung der Schätzwerte um den mittleren Schätzwert. Bei einem unverzerrten Schätzer gibt der Standardfehler gleichzeitig die Streuung um \gamma(\theta) an. Bei einem verzerrten Schätzer dagegen tut dies die mittlere quadratische Abweichung bzw. der MSE. Beim direkten Vergleich von zwei erwartungstreuen Schätzern weist derjenige mit dem kleineren Standardfehler auch die kleinere Streuung in den Schätzwerten auf. Sind die Schätzer nicht erwartungstreu, so hat entsprechend derjenige Schätzer mit dem kleineren MSE die kleinere Streuung in den Schätzwerten. Man spricht von einem effizienteren oder MSE-effizienteren Schätzer. Findet man einen Schätzer, zu dem es keinen effizienteren Schätzer gibt, ist dies ein bester Schätzer für das vorliegende Schätzproblem. Die Bias-Varianz-Formel ermöglicht die Berechnung des MSE als Summe aus dem quadrierten Standardfehler und dem quadrierten Bias.

Die MSE-Konsistenz ist eine asymptotische Eigenschaft einer Schätzfolge, die besagt, dass die Streuung um \gamma(\theta) verschwindet, wenn der Stichprobenumfang gegen unendlich anwächst. Nach der Bias-Varianz-Formel liegt MSE-Konsistenz vor, wenn die Schätzfolge asymptotisch erwartungstreu ist und der Standardfehler gegen null konvergiert. Daher sind sowohl die Folge der Stichprobenmittel als auch die Folge der Stichprobenvarianzen MSE-konsistent für \mu bzw. \sigma^2. Die schwache Konsistenz besagt, dass für immer größer werdende Stichprobenumfänge die Schätzwerte mit gegen eins konvergierender Wahrscheinlichkeit um weniger als eine beliebig kleine positive Fehlerschranke \varepsilon von \gamma(\theta) abweichen. Bei hinreichend großen Stichproben kann also sicher davon ausgegangen werden, dass die Schätzwerte sich in der Nähe von \gamma(\theta) befinden. Aus der MSE-Konsistenz folgt stets die schwache Konsistenz. Somit sind die Folgen der Stichprobenmittel und der Stichprobenvarianzen auch schwach konsistent für \mu bzw. \sigma. Zwei Hilfsmittel zum direkten Nachweis der schwachen Konsistenz sind die Chebychev-Ungleichung und das schwache Gesetz der großen Zahlen.

Lösungen der Aufgaben

Wir nutzen aus, dass X_1,\ldots,X_n unabhängig und identisch verteilt sind und erhalten \begin{align*} \textsf{Var}_\theta(\overline{X}_n) &=\textsf{Var}_\theta\Bigg(\frac{1}{n}\sum_{k=1}^nX_k\Bigg)\\ &=\frac{1}{n^2}\sum_{k=1}^n\textsf{Var}_\theta(X_k)\\ &=\frac{n\textsf{Var}_\theta(X_1)}{n^2}\\ &=\frac{\sigma^2}{n}. \end{align*}

zurück zu Aufgabe 2

library(tidyverse)

set.seed(1)

# maximale Stichprobengröße
N <- 250
# Anzahl der Stichproben
m <- 100

# Parameter der Normalverteilung
mu <- 0
sigma <- 1

bias <- double(N)

for (n in 1:N) {
  estimates <- double(m)
  for (k in 1:m) {
    # ziehe eine Stichprobe
    x <- rnorm(n, mean = mu, sd = sigma)
    # berechne den Schätzwert
    estimates[k] <- sum((x - mean(x))^2) / length(x)
  }
  # berechne den Bias
  bias[n] <- mean(estimates) - sigma^2
}

data <- tibble(
  sample_size = 1:N,
  bias = bias
)

ggplot(data, aes(x = sample_size, y = bias)) +
  # zeichne das Streudiagramm 
  geom_point() +
  # zeichne den Funktionsgraphen
  geom_function(fun = function(x) {-sigma^2 / x}, color = "red") +
  # Achsenbeschriftung
  labs(x = "Nummer der Stichprobe", y = "Bias")

Wir sehen, dass der Bias für kleine Stichprobenumfänge noch deutlich negativ ist, dann aber für immer größer werdendes n gemäß der theoretisch berechneten Abhängigkeit \textsf{Bias}_\theta(\widetilde{S}_n^2)=-\sigma^2/n gegen null konvergiert.

zurück zu Aufgabe 3

Beide Schätzer unterscheiden sich nur im Vorfaktor. Wir berechnen daher zunächst \begin{align*} \textsf{E}_\theta\Bigg(\sum_{k=1}^n(X_k-\mu)^2\Bigg) &=\sum_{k=1}^n\textsf{E}_\theta((X_k-\mu)^2)\\ &=n\textsf{E}_\theta((X_1-\mu)^2)\\ &=n\textsf{E}_\theta((X_1-\textsf{E}_\theta(X_1))^2)\\ &=n\textsf{Var}_\theta(X_1)\\ &=n\sigma^2. \end{align*} Somit gilt \textsf{E}_\theta(T_n^2)=n\sigma^2/(n-1)\xrightarrow{n\to\infty}\sigma^2, das heißt T_n^2 ist asymptotisch erwartungstreu für \sigma^2. Dagegen ist \textsf{E}_\theta(\widetilde{T}_n^2)=n\sigma^2/n=\sigma^2, das heißt \widetilde{T}_n^2 ist erwartungstreu für \sigma^2.

zurück zu Aufgabe 4

library(tidyverse)

set.seed(1)

# maximale Stichprobengröße
N <- 250
# Anzahl der Stichproben
m <- 100

# Parameter der Normalverteilung
mu <- 0
sigma <- 1

standard_error <- double(N)

for (n in 1:N) {
  estimates <- double(m)
  for (k in 1:m) {
    # ziehe eine Stichprobe
    x <- rnorm(n, mean = mu, sd = sigma)
    # berechne den Schätzwert
    estimates[k] <- mean(x)
  }
  # berechne den Standardfehler
  standard_error[n] <- sd(estimates)
}

data <- tibble(
  sample_size = 1:N,
  standard_error = standard_error
)

ggplot(data, aes(x = sample_size, y = standard_error)) +
  # zeichne das Streudiagramm
  geom_point() +
  # zeichne den Funktionsgraphen
  geom_function(fun = function(x) {sigma / sqrt(x)}, color = "red") +
  # Achsenbeschriftung
  labs(x = "Nummer der Stichprobe", y = "Standardfehler")

Wir sehen, dass der Standardfehler für immer größer werdende Stichprobenumfänge gegen null konvergiert und dabei genau der theoretisch berechneten Abhängigkeit \sigma_\theta(\overline{X}_n)=\sigma/\sqrt{n} folgt.

zurück zu Aufgabe 5

library(tidyverse)

set.seed(1)

# maximale Stichprobengröße
N <- 250
# Anzahl der Stichproben
m <- 100

# Parameter der Normalverteilung
mu <- 0
sigma <- 1

bias <- double(N)
standard_error <- double(N)

for (n in 1:N) {
  estimates <- double(m)
  for (k in 1:m) {
    # ziehe eine Stichprobe
    x <- rnorm(n, mean = mu, sd = sigma)
    # berechne den Schätzwert
    estimates[k] <- sum((x - mean(x))^2) / length(x)
  }
  # berechne den Bias und den Standardfehler
  bias[n] <- mean(estimates) - sigma^2
  standard_error[n] <- sd(estimates)
}

data <- tibble(
  sample_size = 1:N,
  bias = bias,
  standard_error = standard_error,
  mse = bias^2 + standard_error^2
)

ggplot(data, aes(x = sample_size)) +
  # zeichne die Streudiagramme von Bias, Standardfehler und MSE
  geom_point(aes(y = bias), color = "red", shape = 16) +
  geom_point(aes(y = standard_error), color = "blue", shape = 17) +
  geom_point(aes(y = mse), color = "purple", shape = 18) +
  # Achsenbeschriftung
  labs(x = "Nummer der Stichprobe", y = "")

Wir erkennen, dass sowohl der Bias (rote Kurve) als auch der Standardfehler (blaue Kurve) für wachsenden Stichprobenumfang gegen null konvergieren. Als Summe aus den Quadraten beider Größen konvergiert der MSE (violette Kurve) daher ebenfalls gegen null, was die MSE-Konsistenz von \widetilde{S}_n^2 zeigt.

zurück zu Aufgabe 6

Mit den Voraussetzungen können wir das schwache Gesetz der großen Zahlen sowohl auf die Folge (X_k)_{k\in\mathbb{N}} als auch auf die Folge (X_k^2)_{k\in\mathbb{N}} anwenden. Die Anwendung auf (X_k^2)_{k\in\mathbb{N}} ergibt, dass \frac{1}{n}\sum_{k=1}^nX_k^2\xrightarrow{P_\theta}\textsf{E}_\theta(X_1^2). Die Anwendung auf (X_k)_{k\in\mathbb{N}} ergibt, dass Y_n =\overline{X}_n =\frac{1}{n}\sum_{k=1}^nX_k \xrightarrow{P_\theta}\textsf{E}_\theta(X_1). Da die Abbildung h:\mathbb{R}\longrightarrow\mathbb{R} mit h(y)=y^2 stetig ist, gilt nach der 1. Rechenregel außerdem \overline{X}_n^2 =Y_n^2 =h(Y_n) \xrightarrow{P_\theta}h(\textsf{E}_\theta(X_1)) =\textsf{E}_\theta(X_1)^2.

Mit der 2. Rechenregel angewendet für a_n=n/(n-1)\xrightarrow{n\to\infty}1 erhalten wir dann insgesamt die schwache Konsistenz von S_n^2: \begin{align*} S_n^2 &=\frac{1}{n-1}\Bigg(\sum_{k=1}^nX_k^2-n\overline{X}_n^2\Bigg)\\ &=\frac{n}{n-1}\Bigg(\frac{1}{n}\sum_{k=1}^nX_k^2-\overline{X}_n^2\Bigg)\\ &\stackrel{P_\theta}{\longrightarrow}\textsf{E}_\theta(X_1^2)-\textsf{E}_\theta(X_1)^2\\ &=\textsf{Var}_\theta(X_1)\\ &=\sigma^2. \end{align*}

zurück zu Aufgabe 7

Autor:innen

Die Lerneinheit “Schätztheorie – Gütekriterien für Punktschätzer” wurde von Axel Bücher, Kathrin Möllenhoff und Christian Müller an der Heinrich-Heine-Universität Düsseldorf entwickelt. Es ist lizenziert unter der CC-BY-SA 4.0 Lizenz und ist verfügbar auf ORCA.nrw.

Literatur

Henze, Norbert. 2019. Stochastik: Eine Einführung mit Grundzügen der Maßtheorie. Springer Berlin Heidelberg. https://doi.org/10.1007/978-3-662-59563-3.
James, Gareth, Daniela Witten, Trevor Hastie, und Robert Tibshirani. 2021. An Introduction to Statistical Learning. Springer Texts in Statistics. Springer US. https://doi.org/10.1007/978-1-0716-1418-1.