Schätzer

Schätztheorie

Zusammenfassung
In diesem Kapitel behandeln wir den theoretischen Rahmen und das grundlegende Vorgehen der Schätztheorie. Wir übertragen Sachkontexte in statistische Modelle und definieren den Begriff des Schätzers.

Lernziele: Am Ende des Kapitels können Sie

  • ausgewählte gegebene Sachkontexte durch ein statistisches Modell beschreiben.
  • aus gegebenen Daten mithilfe einer Schätzfunktion einen Schätzwert berechnen.
  • den Unterschied zwischen einer Schätzfunktion, einem Schätzwert und einem Schätzer erklären.

Hinweis: Die mit einem gekennzeichneten Aufgaben können Sie durch schriftliches Rechnen lösen. Die mit gekennzeichneten Aufgaben setzen Grundkenntnisse der Programmierung mit der statistischen Software R voraus. Sie können R hier installieren, falls Sie R nicht auf Ihrem Rechner installiert haben. Zusätzlich empfiehlt sich die Installation einer integrierten Entwicklungsumgebung (IDE), wie zum Beispiel RStudio. Alternativ zur Installation können Sie die Web-Version webR direkt im Browser verwenden.

1 Einführung

Statistik hat das Ziel, aus beobachteten Daten allgemeingültige Schlüsse über eine größere, nicht vollständig beobachtbare Grundgesamtheit zu ziehen, auf Grundlage der Daten Antworten auf im Sachkontext relevante Fragen zu geben sowie die mit den Antworten verbundenen Unsicherheiten zu quantifizieren. Das Teilgebiet der Mathematik, welches dazu Methoden entwickelt und diese mathematisch untersucht, nennt man schließende, induktive oder auch mathematische Statistik. Es lässt sich grob in die beiden Themengebiete Schätztheorie und Testtheorie einteilen.

In dieser vierteiligen Lerneinheit befassen wir uns mit der Schätztheorie. Zu deren Aufgaben zählen die Schätzung von Modellparametern und die Quantifizierung der Genauigkeit dieser Schätzung.

Im ersten Teil lernen wir das allgemeine Vorgehen beim Schätzen: Zuerst wird der beobachtete Zufallsvorgang als statistisches Modell formuliert, wobei insbesondere Annahmen an die Verteilung der beobachteten Daten getroffen werden. Das gewählte statistische Modell hängt meist von einem oder mehreren Parametern ab, welche – aus Sicht der frequentistischen Statistik – einen festen, aber unbekannten Wert haben. Wir sprechen vom wahren Wert des Parameters, an den wir mithilfe der Daten eine Annäherung berechnen wollen. Dazu wird ein Schätzer benötigt. Um was für ein mathematisches Objekt es sich hierbei handelt, werden wir auch im ersten Teil klären. Wie man geeignete Schätzer konstruieren kann, lernen wir im zweiten Teil, wenn wir verschiedene Schätzmethoden kennenlernen.

Bei der Modellierung ist entscheidend, dass wir die Daten als zufällig auffassen, sodass der daraus berechnete Schätzwert und die Angabe über die Schätzgenauigkeit zufallsbehaftet sind. Das ermöglicht es, unser Vorwissen aus der Stochastik einzusetzen, um den Schätzvorgang an sich mathematisch zu untersuchen. Daher steht im dritten Teil die Untersuchung der stochastischen Eigenschaften von Schätzern im Mittelpunkt, damit wir verschiedene Schätzer in ihrer Qualität beurteilen und vergleichen können.

Wenn der Parameter oder eine daraus abgeleitete Größe geschätzt wird, spricht man auch von einer Punktschätzung. In vielen Fällen handelt es sich dabei um ein Element des \mathbb{R}^d und somit um einen Punkt im d-dimensionalen Raum. Die Angabe über die Genauigkeit der Punktschätzung geschieht für d=1 meist in Form eines Intervalls um den Schätzwert, sodass man dann von einer Intervallschätzung spricht. Dieses Thema behandeln wir im vierten und letzten Teil der Lerneinheit.

Um die Lerneinheit zur Schätztheorie erfolgreich zu bearbeiten, benötigen Sie Grundkenntnisse in Analysis, Stochastik und R. Aus der Stochastik werden insbesondere Zufallsvariablen und Verteilungen, Erwartungswerte und Varianzen sowie Verteilungsfunktionen und Quantile benötigt. Außerdem sollten Sie die Aussagen des Gesetzes der großen Zahlen und des zentralen Grenzwertsatzes kennen.

2 Statistische Modelle

Stellen wir uns vor, dass ein Pharmaunternehmen ein neues Medikament gegen eine Krankheit entwickelt hat und im Rahmen des Zulassungsverfahrens eine klinische Studie in Auftrag gibt, in der die Wirksamkeit des Medikaments untersucht werden soll. An der Studie nehmen eine bestimmte Zahl an Proband:innen teil, die repräsentativ aus der Bevölkerung ausgewählt wurden und an der Krankheit leiden. Nachdem jeder Person das Medikament verabreicht wurde, ergibt eine klinische Untersuchung die Information, ob das Medikament bei dieser Person gewirkt hat oder nicht. Wie lässt sich anhand der Daten aus der Studie die Wirksamkeit des Medikaments einschätzen?

In einem anderen Szenario führen Studierende der Physik ein Laborexperiment wiederholt durch, um eine physikalische Konstante zu messen. Aufgrund der Eigenschaften der Messinstrumente, der Laborbedingungen und der fehlenden Sorgfalt der Studierenden ist jede Messung mit einem Fehler behaftet. Wie lässt sich anhand der Messergebnisse der wahre Wert der Konstanten abschätzen?

In diesen und ähnlichen Beispielen ist der erste Schritt, die Situation mathematisch zu formalisieren. Wir bezeichnen die Daten mit x_1,\ldots,x_n und fassen sie als zufällige Werte auf, die sich bei der Durchführung der Studie oder der Messung als Realisierungen von Zufallsvariablen X_1,\ldots,X_n ergeben haben. Die Daten fassen wir zu einem Vektor \boldsymbol{x}=(x_1,\ldots,x_n) zusammen, den wir beobachtete Stichprobe nennen. Die Anzahl n der Daten heißt Stichprobenumfang. Weil jeder Eintrag zufällig ist, ist auch die beobachtete Stichprobe zufällig und sie kann als Realisierung des Zufallsvektors \boldsymbol{X}=(X_1,\ldots,X_n) aufgefasst werden, welchen wir zufällige Stichprobe nennen.

Mit Kleinbuchstaben bezeichnen wir die tatsächlich beobachteten Daten; sie bilden zusammen die beobachtete Stichprobe. Die Zufallsvariablen, als deren Realisierungen wir die Daten modellieren, bezeichnen wir mit Großbuchstaben; sie bilden zusammen die zufällige Stichprobe.

Die tatsächlich beobachtete Stichprobe stellt aufgrund ihrer zufälligen Natur allerdings nur eine von vielen möglichen Stichproben dar. Wenn wir die Studie oder die Messung wiederholen, würden wir andere Daten, also eine andere Stichprobe und damit eine andere Realisierung von \boldsymbol{X} beobachten. Alle Stichproben, die prinzipiell beobachtbar sind, bilden zusammen den Wertebereich von \boldsymbol{X}.

Definition 1 (Stichprobenraum)

Die Menge aller Stichproben \boldsymbol{x}=(x_1,\ldots,x_n), die bei der Durchführung eines Zufallsexperiments prinzipiell beobachtbar sind, heißt Stichprobenraum und wird mit \mathcal{X} bezeichnet.

Der Stichprobenraum ist der Wertebereich der zufälligen Stichprobe \boldsymbol{X}=(X_1,\ldots,X_n).

Es hängt vom Sachkontext ab, welche Daten erhoben oder gemessen werden und wie dann die Stichprobe aussieht. Die Übertragung in ein statistisches Modell beginnt daher mit der Überlegung, welche Stichproben in der gegebenen Situation prinzipiell beobachtet werden können und wie somit der Stichprobenraum aussieht. Wir betrachten dazu zwei Beispiele.

Beispiel 1

Die Wirksamkeit eines neu entwickelten Medikaments wird mit einer klinischen Studie erforscht, an der n Proband:innen teilnehmen. Was ist ein sinnvoller Stichprobenraum?

Bei der i-ten Person wird das Behandlungsergebnis x_i\in\{0,1\} ermittelt, wobei x_i=1, falls das Medikament wirkt, und x_i=0, falls das Medikament nicht wirkt. Die beobachtete Stichprobe ist dann \boldsymbol{x}=(x_1,\ldots,x_n). Der Stichprobenraum ist die Menge aller prinzipiell beobachtbaren Ergebnisse, also \mathcal{X}=\{0,1\}^n.

Die Codierung des Behandlungsergebnisses mit 1 und 0 steht repräsentativ für Erfolg und Misserfolg und ist eine übliche Notation bei Variablen mit nur zwei möglichen Ausprägungen.

Beispiel 2

Eine physikalische Konstante wird durch n Wiederholungen eines Experiments gemessen, wobei jeweils zufällige Messwerte auftreten. Was ist ein sinnvoller Stichprobenraum?

Der i-te Messwert x_i ist die Summe aus dem wahren Wert der physikalischen Konstanten und dem zufälligen Messfehler bei der i-ten Messung. Die Summe kann prinzipiell eine beliebige reelle Zahl sein. Ein sinnvoller Stichprobenraum für die Messwerte bei allen n Wiederholungen ist somit \mathcal{X}=\mathbb{R}^n.

Überlegen Sie in den folgenden Aufgaben selbst, welcher Stichprobenraum den Sachkontext geeignet modelliert.

Aufgabe 1

Ein Versicherungsunternehmen analysiert bei n zufällig ausgewählten Kunden, bei denen bereits mindestens ein Schadenfall eingetreten ist, die Wartezeiten bis zum ersten Schadenfall nach Vertragsabschluss. Geben Sie einen sinnvollen Stichprobenraum an.

Aufgabe 2

Bei einer Wahlumfrage werden 1250 zufällig ausgewählte Personen befragt, welcher von n\geq2 politischen Parteien sie zustimmen. Die Umfrageergebnisse werden automatisch aggregiert, sodass nur die Gesamtstimmen für jede der n Parteien beobachtet werden. Geben Sie einen sinnvollen Stichprobenraum an.

Die Kenntnis des Stichprobenraums \mathcal{X}, also des Wertebereichs von \boldsymbol{X}, genügt für die Modellierung jedoch nicht. Ebenso wichtig ist die Verteilung P_{\boldsymbol{X}} von \boldsymbol{X}, denn sie legt die Wahrscheinlichkeiten für das Eintreten bestimmter Ereignisse fest und steuert so das Beobachtungs- bzw. Messergebnis.

Diese Verteilung ist natürlich unbekannt. Je nach Sachkontext kann aber oft die Modellannahme gemacht werden, dass P_{\boldsymbol{X}} aus einer bestimmten Verteilungsfamilie \mathcal{P} stammt. Wir gehen also von einer Vielzahl möglicher Verteilungen aus, die den Sachkontext sinnvoll beschreiben und von denen eine die wahre, aber unbekannte Verteilung ist. Man sagt auch, dass eine Verteilungsannahme an die Daten getroffen wird.

Definition 2 (Statistisches Modell)

Sei \mathcal{X} der Stichprobenraum und sei \mathcal{P} eine nichtleere Familie von Verteilungen auf \mathcal{X}. Das Paar (\mathcal{X},\mathcal{P}) heißt statistisches Modell, wenn P_{\boldsymbol{X}}\in\mathcal{P}.

Wenn die Verteilungen aus \mathcal{P} sich durch die Elemente einer Menge \Theta parametrisieren lassen, handelt es sich um ein parametrisches Modell. Dann ist \mathcal{P}=(P_\theta)_{\theta\in\Theta}. Die Indexmenge \Theta aller möglichen Werte für den Parameter \theta nennen wir Parameterraum. Oft ist der Parameter \theta ein d-dimensionaler Vektor und \Theta damit eine Teilmenge von \mathbb{R}^d.

Wenn die Verteilungen aus \mathcal{P} sich nicht auf diese Weise parametrisieren lassen, handelt es sich um ein nichtparametrisches Modell. Solche Modelle werden wir hier nicht untersuchen.

Wir greifen Beispiel 1 und Beispiel 2 auf und erweitern jeweils den Stichprobenraum um eine sinnvoll gewählte Verteilungsfamilie, um ein statistisches Modell zu erhalten.

Beispiel 3

Die Wirksamkeit eines neu entwickelten Medikaments wird mit einer klinischen Studie erforscht, an der n Proband:innen teilnehmen. Was ist ein sinnvolles statistisches Modell?

In Beispiel 1 haben wir uns bereits den Stichprobenraum \mathcal{X}=\{0,1\}^n überlegt. Wir benötigen noch eine Familie von Wahrscheinlichkeitsmaßen auf \mathcal{X}, welche die Verteilung einer zufälligen Stichprobe \boldsymbol{X}=(X_1,\ldots,X_n) von Behandlungsergebnissen sinnvoll modellieren.

Die Untersuchung der Wirksamkeit bei der i-ten Person ist ein Bernoulli-Experiment mit den zwei möglichen Ausgängen, dass das Medikament wirkt oder nicht. Es wird durch die Bernoulli-Verteilung \textsf{Ber}(\theta) beschrieben, wobei \theta\in(0,1) die unbekannte Heilungswahrscheinlichkeit ist. Wenn wir die Annahme treffen, dass die Heilungswahrscheinlichkeit bei jedem Probanden und jeder Probandin gleich ist und die Proband:innen unabhängig voneinander behandelt werden, sind X_1,\ldots,X_n unabhängig und identisch verteilt. Das bedeutet P_{\boldsymbol{X}} =P_{X_1}^{\otimes n} =\textsf{Ber}(\theta)^{\otimes n}. Die Schreibweise {}^{\otimes n} bezeichnet hierbei das n-fache Produktmaß. Das statistische Modell ist also (\mathcal{X},\mathcal{P}) mit \mathcal{X}=\{0,1\}^n und \mathcal{P}=\big(\textsf{Ber}(\theta)^{\otimes n}\big)_{\theta\in(0,1)}. Dieses Modell heißt auch Bernoulli-Modell.

Beispiel 4

Eine physikalische Konstante wird durch n Wiederholungen eines Experiments gemessen, wobei jeweils zufällige Messwerte auftreten. Was ist ein sinnvolles statistisches Modell?

In Beispiel 2 haben wir uns bereits den Stichprobenraum \mathcal{X}=\mathbb{R}^n überlegt. Wir benötigen noch eine Familie von Wahrscheinlichkeitsmaßen auf \mathcal{X}, welche die Verteilung einer zufälligen Stichprobe \boldsymbol{X}=(X_1,\ldots,X_n) von Messwerten sinnvoll modellieren.

Wir treffen die durch den zentralen Grenzwertsatz motivierte Verteilungsannahme, dass die Messwerte normalverteilt sind. Systematische Messfehler sollen jedoch ausgeschlossen werden, sodass wir den Erwartungswert der Normalverteilung auf den wahren Wert der Konstanten \mu_0\in\mathbb{R} setzen. Wenn wir außerdem annehmen, dass alle Messungen auf dieselbe Art und Weise und unabhängig voneinander durchgeführt werden, sind X_1,\ldots,X_n unabhängig und identisch verteilt. Das bedeutet P_{\boldsymbol{X}} =P_{X_1}^{\otimes n} =\textsf{N}(\mu_0,\sigma^2)^{\otimes n}. Das statistische Modell ist also (\mathcal{X},\mathcal{P}) mit \mathcal{X}=\mathbb{R}^n und \mathcal{P}=\big(\textsf{N}(\mu_0,\sigma^2)^{\otimes n}\big)_{\sigma^2\in(0,\infty)}. Dieses Modell heißt auch Normalverteilungsmodell.

Erweitern Sie Aufgabe 1 und Aufgabe 2, indem Sie überlegen, welches statistische Modell den Sachkontext geeignet modelliert.

Aufgabe 3

Ein Versicherungsunternehmen analysiert bei n zufällig ausgewählten Kunden, bei denen bereits mindestens ein Schadenfall eingetreten ist, die Wartezeiten bis zum ersten Schadenfall nach Vertragsabschluss. Geben Sie ein sinnvolles statistisches Modell an.

Aufgabe 4

Bei einer Wahlumfrage werden 1250 zufällig ausgewählte Personen befragt, welcher von n\geq2 politischen Parteien sie zustimmen. Die Umfrageergebnisse werden automatisch aggregiert, sodass nur die Gesamtstimmen für jede der n Parteien beobachtet werden. Geben Sie ein sinnvolles statistisches Modell an.

Im Folgenden schränken wir uns auf den Fall unabhängiger Wiederholungen ein. Diese Annahme bedeutet, dass die Daten x_1,\ldots,x_n Realisierungen desselben Zufallsexperiments sind, welches auf gleiche Weise und unabhängig voneinander n-mal durchgeführt wird. Wir nehmen also an, dass die Zufallsvariablen X_1,\ldots,X_n unabhängig und identisch verteilt sind. Dann haben insbesondere alle Komponenten von \boldsymbol{X}=(X_1,\ldots,X_n) denselben Wertebereich \mathcal{X}_1, sodass der Stichprobenraum \mathcal{X} aus allen Stichproben vom Umfang n besteht, deren Komponenten in \mathcal{X}_1 liegen, also \mathcal{X} =\{\boldsymbol{x}=(x_1,\ldots,x_n)\mid x_1,\ldots,x_n\in\mathcal{X}_1\} =\mathcal{X}_1^n. Auch die Verteilungsfamilie \mathcal{P}, aus der die unbekannte Verteilung P_{\boldsymbol{X}} stammt, besteht dann aus Verteilungen auf \mathcal{X}=\mathcal{X}_1^n, die ein n-faches Produktmaß von Verteilungen auf \mathcal{X}_1 sind, also \mathcal{P}=(P_\theta^{\otimes n})_{\theta\in\Theta}.

Definition 3 (Produktmodell)

Sei (\mathcal{X}_1,\mathcal{P}_1) mit \mathcal{P}_1=(P_\theta)_{\theta\in\Theta} ein statistisches Modell.

Das Modell (\mathcal{X},\mathcal{P}) mit \mathcal{X}=\mathcal{X}_1^n und \mathcal{P}=(P_\theta^{\otimes n})_{\theta\in\Theta} heißt n-faches Produktmodell oder n-fache unabhängige Wiederholung von (\mathcal{X}_1,\mathcal{P}_1). Es entspricht unabhängigen und identisch verteilten Zufallsvariablen X_1,\ldots,X_n mit P_{X_1}\in\mathcal{P}_1.

In diesem Abschnitt kamen bereits mehrere Produktmodelle vor.

Beispiel 5

Das Bernoulli-Modell aus Beispiel 3 ist die n-fache unabhängige Wiederholung des Modells (\mathcal{X}_1,\mathcal{P}_1) mit \mathcal{X}_1=\{0,1\} und \mathcal{P}_1=\big(\textsf{Ber}(\theta)\big)_{\theta\in[0,1]}.

Das Normalverteilungsmodell aus Beispiel 4 ist die n-fache unabhängige Wiederholung des Modells (\mathcal{X}_1,\mathcal{P}_1) mit \mathcal{X}_1=\mathbb{R} und \mathcal{P}_1=\big(\textsf{N}(\mu_0,\sigma^2)\big)_{\sigma^2\in(0,\infty)}.

Das statistische Modell aus Aufgabe 3 ist die n-fache unabhängige Wiederholung des Modells (\mathcal{X}_1,\mathcal{P}_1) mit \mathcal{X}_1=(0,\infty) und \mathcal{P}_1=\big(\textsf{Exp}(\theta)\big)_{\theta\in(0,\infty)}.

Das statistische Modell aus Aufgabe 4 ist dagegen kein Produktmodell.

In einem parametrischen Produktmodell ist also nicht die gesamte Verteilung der zufälligen Stichprobe \boldsymbol{X} unbekannt, sondern nur der Parameter oder Parametervektor \theta der Randverteilung von X_1. Von diesem hängen aber alle für die Stochastik interessanten Objekte ab, die aus der Verteilung abgeleitet sind, zum Beispiel die Dichte, der Erwartungswert und die Varianz. Das verdeutlichen wir mit dem Index \theta und schreiben ab sofort f_\theta statt f für die Dichte, \textsf{E}_\theta(X_1) statt \textsf{E}(X_1) für den Erwartungswert und \textsf{Var}_\theta(X_1) statt \textsf{Var}(X_1) für die Varianz.

Beispielsweise hängen bei X_1\sim\textsf{Exp}(\theta) die Dichte f_\theta(x)=\theta e^{-\theta x}\boldsymbol{1}_{(0,\infty)}(x), der Erwartungswert \textsf{E}_\theta(X)=1/\theta und die Varianz \textsf{Var}_\theta(X)=1/\theta^2 vom Parameter \theta\in(0,\infty) ab.

3 Schätzer

Nachdem ein statistisches Modell (\mathcal{X},(P_\theta)_{\theta\in\Theta}) gewählt wurde, ist es Aufgabe der Schätztheorie, aus den erhobenen Daten einen Schätzwert für den unbekannten Parameter \theta zu berechnen. Etwas allgemeiner kann die Aufgabe auch lauten, einen Schätzwert für eine Größe zu berechnen, die aus \theta durch Transformation mit einer Abbildung \gamma:\Theta\longrightarrow\Gamma hervorgeht. Der Wertebereich \Gamma dieser Transformation ist prinzipiell beliebig, ist aber oft eine Teilmenge der reellen Zahlen, das heißt statt \theta wird eine reelle Größe \gamma(\theta) geschätzt, die direkt von \theta abhängt.

Beispiel 6

Wenn \theta selbst geschätzt wird, ist \Gamma=\Theta und \gamma(\theta)=\theta.

Wenn \theta=(\theta_1,\ldots,\theta_d) ein d-dimensionaler Vektor ist und die erste Komponente geschätzt wird, ist \Gamma=\mathbb{R} und \gamma(\theta)=\theta_1.

Wenn der Erwartungswert geschätzt wird, ist \Gamma=\mathbb{R} und \gamma(\theta)=\textsf{E}_\theta(X_1).

Wenn die Varianz geschätzt wird, ist \Gamma=(0,\infty) und \gamma(\theta)=\textsf{Var}_\theta(X_1).

Die Berechnung des Schätzwerts geschieht mit einer Schätzfunktion. Das ist eine Funktion T, die eine Stichprobe als Argument erhält und als Funktionswert ein Element in \Gamma ausgibt. Allgemein heißt eine Funktion der Stichprobe auch Stichprobenfunktion oder Statistik.

Definition 4 (Schätzfunktion)

Sei (\mathcal{X},(P_\theta)_{\theta\in\Theta}) ein statistisches Modell und sei \gamma:\Theta\longrightarrow\Gamma eine Abbildung vom Parameterraum \Theta in eine Menge \Gamma.

Eine Schätzfunktion ist eine Abbildung T:\mathcal{X}\longrightarrow\Gamma, die einer Stichprobe \boldsymbol{x}\in\mathcal{X} einen Wert T(\boldsymbol{x})\in\Gamma zuordnet. Der Funktionswert T(\boldsymbol{x}) heißt Schätzwert für \gamma(\theta) zur Stichprobe \boldsymbol{x}.

Wenn die Schätzfunktion und die Stichprobe bekannt sind, ist die Berechnung des Schätzwerts also denkbar einfach: Setze die Stichprobe in die Schätzfunktion ein und berechne den Funktionswert. Die eigentliche Schwierigkeit ist jedoch, eine sinnvolle Schätzfunktion zu finden und die Stichprobe zu erheben.

Beispiel 7

Seien \mathcal{X}=\mathbb{R}^3 und \Gamma=\mathbb{R}. Gegeben sei außerdem die beobachtete Stichprobe \boldsymbol{x}=(1,9,4).

Mit der Schätzfunktion T_1(x_1,x_2,x_3)=x_1 ist der Schätzwert zur Stichprobe \boldsymbol{x} T_1(\boldsymbol{x})=T_1(1,9,4)=1. Mit der Schätzfunktion T_2(x_1,x_2,x_3)=x_1-x_2+x_3 ist der Schätzwert zur Stichprobe \boldsymbol{x} T_2(\boldsymbol{x})=T_2(1,9,4)=1-9+4=-4.

Üben Sie in der folgenden Aufgabe die Berechnung des Schätzwerts bei gegebener Schätzfunktion und Stichprobe.

Aufgabe 5

Seien \mathcal{X}=\mathbb{R}^4 und \Gamma=\mathbb{R}. Berechnen Sie mit den folgenden Schätzfunktionen T_i:\mathbb{R}^4\longrightarrow\mathbb{R} jeweils den Schätzwert T_i(\boldsymbol{x}) zur beobachteten Stichprobe

x <- c(7, 1, 10, 1)
  • T_1(\boldsymbol{x})=\overline{x}_4
  • T_2(\boldsymbol{x})=s_4^2
  • T_3(\boldsymbol{x})=0
  • T_4(\boldsymbol{x})=\max\boldsymbol{x}
  • T_5(\boldsymbol{x})=\sqrt{4}(\overline{x}_4-1)/s_4

Hierbei bezeichnen \overline{x}_4 das arithmetische Mittel und s_4^2 die empirische Varianz.

Die Schätzfunktion T berechnet also aus den Daten x_1,\ldots,x_n den Schätzwert T(x_1,\ldots,x_n). Da die Daten zufällig sind und als Realisierungen der Zufallsvariablen X_1,\ldots,X_n aufgefasst werden, ist auch der Schätzwert zufällig und eine Realisierung der Zufallsvariablen T(X_1,\ldots,X_n).

Definition 5 (Schätzer)

Sei (\mathcal{X},(P_\theta)_{\theta\in\Theta}) ein statistisches Modell und sei T:\mathcal{X}\longrightarrow\Gamma eine Schätzfunktion.

Die Zufallsvariable \widehat{\gamma}_n:=T(X_1,\ldots,X_n) heißt Schätzer für \gamma(\theta). Die Realisierung von \widehat{\gamma}_n zur Stichprobe \boldsymbol{x} ist der Schätzwert T(\boldsymbol{x}) für \gamma(\theta).

Schätzfunktionen, Schätzwerte und Schätzer sind mathematische Objekte verschiedener Natur. Eine Schätzfunktion ist eine Funktion, die die Stichprobe in den Schätzwert umrechnet – in ein Element aus \Gamma. Dagegen ist ein Schätzer als Funktion der zufälligen Stichprobe eine Zufallsvariable und somit stochastisch.

Ein Beispiel aus der deskriptiven Statistik soll das verdeutlichen: Gesucht sei der Median einer Wahrscheinlichkeitsverteilung, dieser entspricht dem unbekannten Parameter \gamma(\theta). Aus einer beobachteten Stichprobe kann der empirische Median berechnet werden, dieser entspricht dem Schätzwert T(\boldsymbol{x}) zur gegebenen Stichprobe \boldsymbol{x}. Die Funktionsvorschrift, wie aus den Daten der empirische Median berechnet wird, entspricht der Schätzfunktion T. Wendet man dieselbe Funktionsvorschrift nicht auf die Daten an, sondern auf die Zufallsvariablen, welche die Daten modellieren, erhält man den Stichprobenmedian, dieser entspricht einem Schätzer \widehat{\gamma}_n für den unbekannten Median \gamma(\theta) der Wahrscheinlichkeitsverteilung.

Beim Übergang von der Schätzfunktion zum Schätzer werden in der Abbildungsvorschrift lediglich die Daten x_1,\ldots,x_n formal durch die Zufallsvariablen X_1,\ldots,X_n ersetzt. In der Notation kennzeichnen wir das mit einem Hut über der zu schätzenden Größe, beispielsweise \widehat{\theta}_n als Schätzer für \theta und \widehat{\gamma}_n als Schätzer für \gamma(\theta). Der zusätzliche Index n gibt den Stichprobenumfang an.

Beispiel 8

Seien \mathcal{X}=\mathbb{R}^3 und \Gamma=\mathbb{R}.

Mit der Schätzfunktion T_1(x_1,x_2,x_3)=x_1 ist der zugehörige Schätzer \widehat{\gamma}_3=T_1(X_1,X_2,X_3)=X_1 Mit der Schätzfunktion T_2(x_1,x_2,x_3)=x_1-x_2+x_3 ist der zugehörige Schätzer \widehat{\gamma}_3=T_2(X_1,X_2,X_3)=X_1-X_2+X_3.

Wandeln Sie zur Übung die in der folgenden Aufgabe gegebenen Schätzfunktionen in Schätzer um.

Aufgabe 6

Seien \mathcal{X}=\mathbb{R}^n und \Gamma=\mathbb{R}. Geben Sie zu den folgenden Schätzfunktionen T_i:\mathbb{R}^n\longrightarrow\mathbb{R} jeweils den zugehörigen Schätzer \widehat{\gamma}_n an. Hierbei ist \boldsymbol{x}=(x_1,\ldots,x_n).

  • T_1(\boldsymbol{x})=\overline{x}_n
  • T_2(\boldsymbol{x})=s_n^2
  • T_3(\boldsymbol{x})=a mit a\in\mathbb{R}
  • T_4(\boldsymbol{x})=\max\boldsymbol{x}
  • T_5(\boldsymbol{x})=\sqrt{n}(\overline{x}_n-\mu_0)/s_n mit \mu_0\in\mathbb{R}

Hierbei bezeichnen \overline{x}_n das arithmetische Mittel und s_n^2 die empirische Varianz.

Sowohl für theoretische als auch für praktische Zwecke sind die Verteilung des Schätzers und die Kenngrößen dieser Verteilung von Interesse. Mit stochastischen Grenzwertaussagen lässt sich der Einfluss des Stichprobenumfangs auf die Genauigkeit des Schätzwerts untersuchen. Beispielsweise können die folgenden Fragen gestellt werden:

  • Welcher Verteilung folgen die Schätzwerte bei gegebener Verteilungsannahme an die Daten? Was also ist die Verteilung von \widehat{\gamma}_n?
  • Welcher Schätzwert und welche Abweichung vom wahren Wert sind im Mittel zu erwarten, wenn viele Stichproben erhoben werden? Was also ist der Erwartungswert von \widehat{\gamma}_n?
  • Wie stark streuen die Schätzwerte im Mittel um den mittleren Schätzwert oder um den wahren Wert? Was also ist die Standardabweichung von \widehat{\gamma}_n?
  • Wie verhalten sich die Schätzwerte, wenn der Stichprobenumfang erhöht wird? Wie also ist das stochastische Grenzwertverhalten von \widehat{\gamma}_n für n\longrightarrow\infty?

Diese Fragestellungen behandeln wir in den weiteren Kapiteln der Lerneinheit zur Schätztheorie.

4 Zusammenfassung

Statistische Modelle abstrahieren und formalisieren in der Realität beobachtete Zufallsvorgänge, sodass die aus der Beobachtung resultierenden Daten mit den Methoden der Stochastik analysiert werden können. Ein statistisches Modell besteht aus einem Stichprobenraum, der alle prinzipiell beobachtbaren Stichproben beschreibt, und aus einer Familie von Wahrscheinlichkeitsmaßen, die den Sachkontext bis auf einen unbekannten Parameter sinnvoll modellieren. Die Grundannahme der Schätztheorie ist, dass ein wahrer, aber unbekannter Parameterwert den Zufallsvorgang über das zugehörige Wahrscheinlichkeitsmaß steuert und die tatsächlich beobachtete Stichprobe eine Realisierung dieses Wahrscheinlichkeitsmaßes ist. Anhand der beobachteten Daten soll nun ein Schätzwert für den wahren Parameterwert oder für eine Größe, die über eine bekannte Funktion von ihm abhängt, berechnet werden. Mit diesem Schätzwert kann der Zufallsvorgang dann unter den getroffenen Modellannahmen weiter untersucht werden.

Die Berechnung des Schätzwerts benötigt eine Schätzfunktion. Das ist eine deterministische Funktion, die die beobachtete Stichprobe in den Schätzwert umrechnet. Die Wahl einer geeigneten Schätzfunktion hängt von der statistischen Modellierung sowie von der zu schätzenden Größe ab und ist in vielen Fällen nicht offensichtlich. Einmal festgelegt, liefert sie jedoch zu jeder möglichen Stichprobe den entsprechenden Schätzwert. Indem in der Abbildungsvorschrift einer Schätzfunktion die Daten formal durch Zufallsvariablen ersetzt werden, wird der Schätzvorgang an sich als zufällig aufgefasst und aus der Schätzfunktion wird ein Schätzer. Die stochastischen Eigenschaften des Schätzers – nun selbst eine Zufallsvariable – geben Auskunft über das Schätzverfahren.

Lösungen der Aufgaben

Wenn der i-te Kunde den Versicherungsvertrag zum Zeitpunkt t_{i0} abgeschlossen hat und der erste Schaden zum Zeitpunkt t_{i1}>t_{i0} eingetreten ist, dann ist die Wartezeit bis zum ersten Schaden gegeben durch x_i=t_{i1}-t_{i0}>0. Ein sinnvoller Stichprobenraum für die Wartezeiten bei allen n untersuchten Kunden ist somit \mathcal{X}=(0,\infty)^n.

zurück zu Aufgabe 1

Die beobachtete Stichprobe ist der Vektor \boldsymbol{x}=(x_1,\ldots,x_n) der pro Partei abgegebenen Stimmen, wobei x_i\in\mathbb{N}_0 die Gesamtstimmen für die i-te Partei angibt. Alle Stimmen ergeben in der Summe die Anzahl der befragten Personen, das heißt x_1+\ldots+x_n=1250. Der Stichprobenraum ist die Menge aller prinzipiell beobachtbaren Vektoren dieser Art, also \mathcal{X}=\{\boldsymbol{x}\in\mathbb{N}_0^n\mid x_1+\ldots+x_n=1250\}.

zurück zu Aufgabe 2

In Aufgabe 1 haben wir uns bereits den Stichprobenraum \mathcal{X}=(0,\infty)^n überlegt.

Zur Modellierung von Wartezeiten ist die Exponentialverteilung \textsf{Exp}(\theta) geeignet, wobei der unbekannte Parameter \theta\in(0,\infty) die Ereignisrate und 1/\theta die mittlere Wartezeit ist. Wenn wir annehmen, dass die Wartezeiten bei den n untersuchten Kunden unabhängig und identisch verteilt sind, dann ist eine sinnvolle Verteilungsfamilie \mathcal{P}=\big(\textsf{Exp}(\theta)^{\otimes n}\big)_{\theta\in(0,\infty)}.

zurück zu Aufgabe 3

In Aufgabe 2 haben wir uns bereits den Stichprobenraum \mathcal{X}=\{\boldsymbol{x}\in\mathbb{N}_0^n\mid x_1+\ldots+x_n=1250\} überlegt. Die Umfrage entspricht der 1250-maligen unabhängigen Wiederholung des Zufallsexperiments, dass eine befragte Person ihre Stimme zufällig an eine von n Parteien vergibt, wobei sie der i-ten Partei mit Wahrscheinlichkeit \theta_i\in(0,1) ihre Stimme gibt und \theta_1+\ldots+\theta_n=1 gilt. Die beobachtete Stichprobe \boldsymbol{x} besteht aus den Gesamtstimmen für jede Partei und folgt somit der Multinomialverteilung \textsf{Mul}(1250,\boldsymbol{\theta}) mit \boldsymbol{\theta}=(\theta_1,\ldots,\theta_n). Eine sinnvolle Verteilungsfamilie ist also \mathcal{P}=\big(\textsf{Mul}(1250,\boldsymbol{\theta})\big)_{\boldsymbol{\theta}\in\Theta} mit \Theta=\{\boldsymbol{\theta}\in(0,1)^n\mid\theta_1+\ldots+\theta_n=1\}.

zurück zu Aufgabe 4

Zur Berechnung der Schätzwerte verwenden wir R.

x <- c(7, 1, 10, 1)

T1 <- mean(x)
T2 <- var(x)
T3 <- 0
T4 <- max(x)
T5 <- sqrt(4) * (mean(x) - 1) / sd(x)

c(T1, T2, T3, T4, T5)
[1]  4.750000 20.250000  0.000000 10.000000  1.666667

zurück zu Aufgabe 5

Den Schätzer \widehat{\gamma}_n erhalten wir, indem wir in der Funktionsvorschrift der Schätzfunktion T die Daten x_1,\ldots,x_n formal durch die Zufallsvariablen X_1,\ldots,X_n ersetzen.

Aus der Schätzfunktion T_1(\boldsymbol{x})=\overline{x}_n=\frac{1}{n}\sum_{i=1}^nx_i, die eine Stichprobe auf ihr arithmetisches Mittel abbildet, wird so der Schätzer \widehat{\gamma}_n =\overline{X}_n =\frac{1}{n}\sum_{i=1}^nX_i. Aus der Schätzfunktion T_2(\boldsymbol{x})=s_n^2=\frac{1}{n-1}\sum_{i=1}^n(x_i-\overline{x}_n)^2, die eine Stichprobe auf ihre empirische Varianz abbildet, wird der Schätzer \widehat{\gamma}_n =S_n^2 =\frac{1}{n-1}\sum_{i=1}^n(X_i-\overline{X}_n)^2. Aus der konstanten Schätzfunktion T_3(\boldsymbol{x})=a wird der ebenfalls konstante Schätzer \widehat{\gamma}_n=a.

Aus der Schätzfunktion T_4(\boldsymbol{x})=\max\boldsymbol{x}, die eine Stichprobe auf ihr Maximum abbildet, wird der Schätzer \widehat{\gamma}_n=\max(X_1,\ldots,X_n). Aus der Schätzfunktion T_5(\boldsymbol{x})=\sqrt{n}(\overline{x}_n-\mu_0)/s_n wird der Schätzer \widehat{\gamma}_n =\frac{\sqrt{n}(\overline{X}_n-\mu_0)}{S_n} =\frac{\sqrt{n}(\overline{X}_n-\mu_0)}{\sqrt{\frac{1}{n-1}\sum_{i=1}^n(X_i-\overline{X}_n)^2}}.

zurück zu Aufgabe 6

Autor:innen

Die Lerneinheit “Schätztheorie – Schätzer” wurde von Axel Bücher, Kathrin Möllenhoff und Christian Müller an der Heinrich-Heine-Universität Düsseldorf entwickelt. Es ist lizenziert unter der CC-BY-SA 4.0 Lizenz und ist verfügbar auf ORCA.nrw.