K <- 300
n <- 200
s <- 47
n * K / s
[1] 1276.596
Lernziele: Am Ende des Kapitels können Sie
- verschiedene Methoden zur Konstruktion eines Schätzers benennen.
- das mathematische Vorgehen bei der Maximum-Likelihood-Methode, der Momentenmethode und der Maximum-a-posteriori-Methode erläutern.
- in einfachen Fällen einen Schätzer mithilfe dieser Methoden berechnen.
Hinweis: Die mit einem gekennzeichneten Aufgaben können Sie durch schriftliches Rechnen lösen. Die mit gekennzeichneten Aufgaben setzen Grundkenntnisse der Programmierung mit der statistischen Software R voraus. Sie können R hier installieren, falls Sie R nicht auf Ihrem Rechner installiert haben. Zusätzlich empfiehlt sich die Installation einer integrierten Entwicklungsumgebung (IDE), wie zum Beispiel RStudio. Alternativ zur Installation können Sie die Web-Version webR direkt im Browser verwenden.
Nachdem ein Schätzproblem als statistisches Modell formalisiert und der zu schätzende Parameter \theta identifiziert ist, muss ein geeigneter Schätzer \widehat{\theta} für \theta gefunden werden, mit dem auf Grundlage einer Stichprobe \boldsymbol{x} ein Schätzwert \widehat{\theta}(\boldsymbol{x}) ermittelt wird, welcher die Verteilung der Daten innerhalb der als wahr angenommenen Verteilungsfamilie so gut wie möglich beschreibt. Die Schätztheorie hat unter anderem die Aufgabe, solch einen Schätzer \widehat{\theta} zu finden.
Da aus mathematischer Sicht jede Funktion, die die Daten aus der Stichprobe auf ein Element des Wertebereichs des Parameters abbildet, als Schätzfunktion zugelassen ist, erscheint es aussichtslos, einen sinnvollen Schätzer durch bloßes Raten zu finden. Wir benötigen vielmehr ein Repertoire an mathematischen Verfahren, die es uns erlauben, in möglichst vielen Situationen einen Schätzer zu berechnen.
Im Folgenden lernen wir drei Schätzverfahren kennen:
Zu weiteren bekannten Schätzverfahren zählt unter anderem die Methode der kleinsten Quadrate, die bei der linearen Regression angewendet wird und in diesem Kapitel daher nicht näher beschrieben ist.
Die Maximum-Likelihood-Methode ist ein anschauliches und intuitives Verfahren, um aus gegebenen Daten einen Schätzwert für einen unbekannten Modellparameter zu bestimmen. Wir nehmen an, dass die Daten x_1,\ldots,x_n Realisierungen von Zufallsvariablen X_1,\ldots,X_n sind, deren gemeinsame Verteilung P_\theta von einem unbekannten Parameter \theta\in\Theta abhängt. Gesucht ist ein Schätzer für einen Wert \gamma(\theta), der von \theta über eine bekannte Funktion \gamma:\Theta\longrightarrow\Gamma abhängt.
Wir betrachten zunächst nur den Spezialfall \gamma(\theta)=\theta. Mit der Maximum-Likelihood-Methode berechnen wir also einen Schätzer \widehat{\theta}_n für den unbekannten Parameter \theta selbst. Ist ein solcher Schätzer gefunden, erhalten wir einen Schätzer für den transformierten Parameter \gamma(\theta) durch \widehat{\gamma}_n=\gamma(\widehat{\theta}_n).
Oft stammen die Daten aus einer n-fachen unabhängigen Wiederholung eines Zufallsexperiments. Das statistische Modell ist dann ein Produktmodell, das heißt X_1,\ldots,X_n sind unabhängig und identisch verteilt und \theta ist ein unbekannter Parameter der Verteilung von X_1.
Beispiel 1 (Rückfangmethode Teil 1)
Das folgende Beispiel werden wir in diesem Abschnitt mehrfach aufgreifen und parallel zur Erklärung der Maximum-Likelihood-Methode weiterentwickeln.
Um den unbekannten Fischbestand in einem See zu schätzen, wird die sogenannte Rückfangmethode (englisch capture-recapture) angewendet. Zunächst werden K Fische gefangen, markiert und wieder ausgesetzt. Nach einiger Zeit wird n-mal nacheinander ein Fisch gefangen, notiert, ob er markiert ist oder nicht, und danach wieder ausgesetzt. Aus der beobachteten Stichprobe der markierten und nicht markierten Fische soll der Fischbestand \theta geschätzt werden.
Eine Stichprobe \boldsymbol{x}=(x_1,\ldots,x_n) besteht aus den Informationen, ob der i-te gefangene Fisch markiert ist (x_i=1) oder nicht (x_i=0). Der Stichprobenraum ist also \mathcal{X}=\{0,1\}^n.
Der Parameterraum ist \Theta=\mathbb{N}\cap[K,\infty), weil \theta eine Anzahl angibt und insgesamt mindestens so viele Fische im See sein müssen, wie zuvor markiert wurden.
Für i=1,\ldots,n sei X_i eine Zufallsvariable, die angibt, ob der i-te gefangene Fisch markiert ist (X_i=1) oder nicht (X_i=0). X_1,\ldots,X_n sind dann unabhängig und identisch \textsf{Ber}(K/\theta)-verteilt. Insgesamt ist das statistische Modell (\mathcal{X},\mathcal{P}) also die n-fache unabhängige Wiederholung von (\mathcal{X}_1,\mathcal{P}_1) mit \mathcal{X}_1=\{0,1\} und \mathcal{P}_1=\big(\textsf{Ber}(K/\theta)\big)_{\theta\in\mathbb{N}\cap[K,\infty)}.
Das Prinzip der Maximum-Likelihood-Methode ist das folgende: Von allen möglichen Werten von \theta wird derjenige Wert \widehat{\theta}_{\text{MLE}} als Schätzwert bestimmt, für den die Daten x_1,\ldots,x_n am plausibelsten sind. Daher stammt auch der Name dieser Methode: Die likelihood, also die Wahrscheinlichkeit für das Auftreten der beobachteten Daten soll maximiert werden.
Dabei hängt der Schätzwert \widehat{\theta}_{\text{MLE}}=\widehat{\theta}_{\text{MLE}}(x_1,\ldots,x_n) von den Daten ab. Er wird so bestimmt, dass die Wahrscheinlichkeit P_\theta(X_1=x_1,\ldots,X_n=x_n), dass x_1,\ldots,x_n beobachtet werden, für \theta=\widehat{\theta}_{\text{MLE}} am größten ist. Wir illustrieren dieses Prinzip mit einem einfachen Beispiel.
Beispiel 2
Professor B besucht regelmäßig die Heimspiele seines Lieblingsfußballvereins. Nach dem Stadionbesuch stößt er mit seinen Begleitern auf den Ausgang des Spiels an und trinkt dabei zwischen 0 und 3 Bier gemäß der folgenden Verteilung.
P_\theta(X=x) | \theta=N | \theta=U | \theta=S |
---|---|---|---|
x = 0 | 0.1 | 0.4 | 0.0 |
x = 1 | 0.1 | 0.3 | 0.4 |
x = 2 | 0.3 | 0.2 | 0.4 |
x = 3 | 0.5 | 0.1 | 0.2 |
Zu Beginn der Woche berichtet Professor B seinen beiden Kollegen Professorin M und Professor K, wie viel Bier er nach dem Heimspiel am Wochenende getrunken hat. Professorin M hat die Ergebnisse des Spieltags nicht verfolgt und hat auch kein Vorwissen über die Leistungsfähigkeit seiner Lieblingsmannschaft. Sie fragt sich daher, wie das Spiel am wahrscheinlichsten ausgegangen ist. Dazu geht sie alle möglichen Szenarien des Bierkonsums von Professor B durch und überlegt sich jeweils, welcher Spielausgang am wahrscheinlichsten ist.
Nach der Untersuchung aller möglichen Fälle gelangt Professorin M also zu dem folgenden Maximum-Likelihood-Schätzer für den Ausgang des Spiels: \widehat{\theta}_{\text{MLE}}(x) =\begin{cases} U & , x=0\\ S & , x=1,2\\ N & , x=3 \end{cases} Erfährt Professorin M nun, dass Professor B nach dem letzten Heimspiel x=2 Bier getrunken hat, so schätzt sie \widehat{\theta}_{\text{MLE}}(2)=S, also dass sein Lieblingsverein das Spiel gewonnen hat.
In diesem Beispiel liegt nur die eine Beobachtung x=2 vor, aus der der Schätzwert bestimmt wird. Normalerweise ist der Stichprobenumfang aber größer als n=1. Dass bei der Maximum-Likelihood-Methode die Wahrscheinlichkeit unter P_\theta für die Messung der Stichprobe \boldsymbol{x}=(x_1,\ldots,x_n) für \theta=\widehat{\theta}_{\text{MLE}}(\boldsymbol{x}) maximal werden soll, lässt sich auf dann die gemeinsame Dichte f_\theta von X_1,\ldots,X_n übertragen. Der Funktionswert von f_\theta an der Stelle \boldsymbol{x} soll für \theta=\widehat{\theta}_{\text{MLE}}(\boldsymbol{x}) maximal werden: f_{\widehat{\theta}_{\text{MLE}}(\boldsymbol{x})}(\boldsymbol{x})=\max_{\theta\in\Theta}f_\theta(\boldsymbol{x}). \tag{1} Die Schreibweise f_\theta(\boldsymbol{x}) suggeriert jedoch, dass der Parameter \theta gegeben und die Stichprobe \boldsymbol{x} variabel ist. Aber eigentlich ist es hier umgekehrt: \theta ist unbekannt und \boldsymbol{x} ist gegeben. Daher verwenden wir eine andere Notation, bei der wir die Rollen von \theta und \boldsymbol{x} vertauschen. Wir schreiben ab sofort L_{\boldsymbol{x}}(\theta)=f_\theta(\boldsymbol{x}). Das verdeutlicht, dass wir \boldsymbol{x} als fest und \theta als variabel ansehen. Die Funktion L_{\boldsymbol{x}}, welche nur von \theta abhängt, ist die sogenannte Likelihood-Funktion.
Definition 1 (Likelihood-Funktion)
Seien X_1,\ldots,X_n Zufallsvariablen, deren gemeinsame Verteilung P_\theta von einem unbekannten Parameter \theta\in\Theta abhängt und die gemeinsame Dichte g_\theta besitzt.
Die Likelihood-Funktion L_{\boldsymbol{x}}:\Theta\longrightarrow[0,\infty) zur Stichprobe \boldsymbol{x}=(x_1,\ldots,x_n) ist definiert durch L_{\boldsymbol{x}}(\theta)=g_\theta(\boldsymbol{x}). \tag{2} Sind X_1,\ldots,X_n zusätzlich unabhängig und identisch verteilt und bezeichnet f_\theta die Dichte von P_{X_1}, so verändert sich Gleichung 2 zu L_{\boldsymbol{x}}(\theta)=\prod_{i=1}^nf_\theta(x_i). \tag{3}
Beispiel 3 (Rückfangmethode Teil 2)
Nach Beispiel 1 sind die Zufallsvariablen X_1,\ldots,X_n unabhängig und identisch \textsf{Ber}(K/\theta)-verteilt. Sie haben also die Dichte f_\theta(x)=\left(\frac{K}{\theta}\right)^x\left(1-\frac{K}{\theta}\right)^{1-x}. Nach Gleichung 3 ist die Likelihood-Funktion zur Stichprobe \boldsymbol{x} gegeben durch \begin{align*} L_{\boldsymbol{x}}(\theta) &=\prod_{i=1}^nf_\theta(x_i)\\ &=\prod_{i=1}^n\left(\frac{K}{\theta}\right)^{x_i}\left(1-\frac{K}{\theta}\right)^{1-x_i}\\ &=\left(\frac{K}{\theta}\right)^{\sum_{i=1}^nx_i}\left(1-\frac{K}{\theta}\right)^{\sum_{i=1}^n(1-x_i)}\\ &=\left(\frac{K}{\theta}\right)^{s_n(\boldsymbol{x})}\left(\frac{\theta-K}{\theta}\right)^{n-s_n(\boldsymbol{x})},\\ \end{align*} wobei wir s_n(\boldsymbol{x})=\sum_{i=1}^nx_i schreiben.
Mit der Notation der Likelihood-Funktion wird die Bedingung in Gleichung 1 zu L_{\boldsymbol{x}}(\widehat{\theta}_{\text{MLE}}(\boldsymbol{x}))=\max_{\theta\in\Theta}L_{\boldsymbol{x}}(\theta). \tag{4} Jede Lösung von Gleichung 4 ist ein Maximum-Likelihood-Schätzwert für \theta.
Definition 2 (Maximum-Likelihood-Schätzer)
Jede globale Maximalstelle T(\boldsymbol{x}) der Likelihood-Funktion L_{\boldsymbol{x}} heißt Maximum-Likelihood-Schätzwert für \theta zur Stichprobe \boldsymbol{x}=(x_1,\ldots,x_n).
Die Zufallsvariable \widehat{\theta}_n=T(X_1,\ldots,X_n) heißt Maximum-Likelihood-Schätzer.
Ist \gamma:\Theta\longrightarrow\Gamma eine Abbildung, dann ist \widehat{\gamma}_n=\gamma(\widehat{\theta}_n) ein Maximum-Likelihood-Schätzer für \gamma(\theta).
In der Regel besitzt Gleichung 4 keine Lösung, sodass nicht jedes Schätzproblem mit der Maximum-Likelihood-Methode lösbar ist. Falls Gleichung 4 doch eine Lösung besitzt, muss diese nicht eindeutig sein, sodass es auch mehrere Maximum-Likelihood-Schätzer geben kann.
Wenden Sie in der folgenden Aufgabe einmal selbst die Maximum-Likelihood-Methode an, um den gesuchten Schätzwert zu bestimmen.
Aufgabe 1
In der Situation von Beispiel 1 und Beispiel 3 werden K=300 Fische gefangen, markiert und wieder ausgesetzt. Nach einiger Zeit wird n=200-mal nacheinander ein Fisch gefangen, notiert, ob er markiert ist oder nicht, und danach wieder ausgesetzt. Die beobachtete Stichprobe \boldsymbol{x} ergibt, dass s_{200}(\boldsymbol{x})=47 der Fische markiert sind.
Berechnen Sie mit der Maximum-Likelihood-Methode einen Schätzwert für den unbekannten Fischbestand \theta. Werten Sie dazu mit R die Likelihood-Funktion zur gegebenen Stichprobe \boldsymbol{x} an den Stellen \theta\in\{300,\ldots,3000\} aus und bestimmen Sie aus den berechneten Werten die Maximalstelle.
Falls der Parameterraum \Theta ein offenes Intervall ist, auf dem die Likelihood-Funktion L_{\boldsymbol{x}} zweimal partiell differenzierbar nach \theta ist, kann ein Maximum-Likelihood-Schätzer für \theta mit den Methoden der Analysis berechnet werden. Jede Nullstelle T(\boldsymbol{x}) der ersten Ableitung von L_{\boldsymbol{x}} ist eine kritische Stelle von L_{\boldsymbol{x}}. Ist außerdem die zweite Ableitung von L_{\boldsymbol{x}} an der Stelle T(\boldsymbol{x}) negativ, so liegt eine lokale Maximalstelle vor.
Durch Untersuchung der Funktionswerte an weiteren lokalen Maximalstellen, sofern es welche gibt, und an den Rändern von \Theta lässt sich dann entscheiden, ob T(\boldsymbol{x}) eine globale Maximalstelle ist. Falls das der Fall ist, ist T(\boldsymbol{x}) ein Maximum-Likelihood-Schätzwert zur Stichprobe \boldsymbol{x}. Werden schließlich die Realisierungen x_1,\ldots,x_n durch die Zufallsvariablen X_1,\ldots,X_n ersetzt, ist die Zufallsvariable \widehat{\theta}_n=T(X_1,\ldots,X_n) der gesuchte Maximum-Likelihood-Schätzer. Zusammenfassend wird \widehat{\theta}_n also mit den folgenden vier Schritten berechnet.
Es ist nicht immer möglich, die Likelihood-Gleichung explizit nach \theta aufzulösen. Für diesen Fall gibt es jedoch numerische Methoden. Selbst wenn die Likelihood-Gleichung analytisch lösbar ist, kann die Berechnung der Ableitung je nach Gestalt der Likelihood-Funktion aufwendig sein. Das gilt auch im Fall unabhängiger Wiederholungen, weil die Likelihood-Funktion dann die Produktgestalt aus Gleichung 3 hat und daher mit der Produktregel abgeleitet werden muss. Es wäre leichter, wenn die abzuleitende Funktion eine Summengestalt hätte, um die viel einfachere Summenregel auszunutzen.
Die Übersetzung der Produktgestalt der Likelihood-Funktion in eine Summengestalt gelingt durch Logarithmieren. Dadurch ändern sich zwar die Funktionswerte, aufgrund der Monotonie des Logarithmus jedoch nicht die Extremalstellen. Und zur Bestimmung eines Maximum-Likelihood-Schätzers muss lediglich die globale Maximalstelle der Likelihood-Funktion berechnet werden, nicht aber der Funktionswert an dieser Maximalstelle. Ein weiterer Vorteil ist, dass viele der zur stochastischen Modellierung verwendeten Verteilungen eine Dichte besitzen, die ein Produkt aus verschiedenen Termen ist, sodass die logarithmierte Dichte eine zusätzliche Summenstruktur ergibt.
Definition 3 (Log-Likelihood-Funktion)
Seien X_1,\ldots,X_n Zufallsvariablen, deren gemeinsame Verteilung P_\theta von einem unbekannten Parameter \theta\in\Theta abhängt und die gemeinsame Dichte g_\theta besitzt.
Die Log-Likelihood-Funktion l_{\boldsymbol{x}}:\Theta\longrightarrow\mathbb{R} zur Stichprobe \boldsymbol{x}=(x_1,\ldots,x_n) ist definiert durch l_{\boldsymbol{x}} =\log(L_{\boldsymbol{x}}(\theta)) =\log(g_\theta(\boldsymbol{x})). \tag{6} Sind X_1,\ldots,X_n zusätzlich unabhängig und identisch verteilt und bezeichnet f_\theta die Dichte von P_{X_1}, so verändert sich Gleichung 6 nach Gleichung 3 zu l_{\boldsymbol{x}}(\theta) =\log\Bigg(\prod_{i=1}^nf_\theta(x_i)\Bigg) =\sum_{i=1}^n\log(f_\theta(x_i)). \tag{7}
Beispiel 4 (Rückfangmethode Teil 3)
Nach Beispiel 3 ist die Likelihood-Funktion gegeben durch L_{\boldsymbol{x}}(\theta)=\left(\frac{K}{\theta}\right)^{s_n(\boldsymbol{x})}\left(\frac{\theta-K}{\theta}\right)^{n-s_n(\boldsymbol{x})}. Die Anwendung des Logarithmus auf die Likelihood-Funktion ergibt die folgende Log-Likelihood-Funktion: \begin{align*} l_{\boldsymbol{x}}(\theta) &=\log(L_{\boldsymbol{x}}(\theta))\\ &=\log\left(\left(\frac{K}{\theta}\right)^{s_n(\boldsymbol{x})}\left(\frac{\theta-K}{\theta}\right)^{n-s_n(\boldsymbol{x})}\right)\\ &=\log\left(\left(\frac{K}{\theta}\right)^{s_n(\boldsymbol{x})}\right)+\log\left(\left(\frac{\theta-K}{\theta}\right)^{n-s_n(\boldsymbol{x})}\right)\\ &=s_n(\boldsymbol{x})\log\left(\frac{K}{\theta}\right)+(n-s_n(\boldsymbol{x}))\log\left(\frac{\theta-K}{\theta}\right)\\ &=s_n(\boldsymbol{x})(\log(K)-\log(\theta))+(n-s_n(\boldsymbol{x}))(\log(\theta-K)-\log(\theta)). \end{align*}
Mithilfe der Log-Likelihood-Funktion wird ein Maximum-Likelihood-Schätzer für \theta nun mit den folgenden vier Schritten berechnet.
Beispiel 5 (Rückfangmethode Teil 4)
Um den Maximum-Likelihood-Schätzer analytisch zu berechnen, müssen wir die Likelihood-Funktion aus Beispiel 3 nach \theta ableiten und die Likelihood-Gleichung in Gleichung 5 lösen. Aufgrund der Produktregel wird das sehr unübersichtlich. Der geschicktere Weg ist, die Log-Likelihood-Funktion aus Beispiel 4 mit der Summenregel nach \theta abzuleiten und die Log-Likelihood-Gleichung in Gleichung 8 zu lösen.
Allerdings ergibt die Log-Likelihood-Gleichung eigentlich keinen Sinn, weil \theta\in\mathbb{N}\cap[K,\infty) und wir nicht nach einer diskreten Variablen ableiten können. Für die Rechnung gehen wir daher von einer reellen Variablen \theta\in[K,\infty) aus und runden das Endergebnis schließlich auf eine natürliche Zahl.
Nach Beispiel 4 ist die Log-Likelihood-Funktion gegeben durch l_{\boldsymbol{x}}(\theta)=s_n(\boldsymbol{x})(\log(K)-\log(\theta))+(n-s_n(\boldsymbol{x}))(\log(\theta-K)-\log(\theta)). Wegen \partial_\theta\log(\theta)=1/\theta ist die Ableitung der Log-Likelihood-Funktion nach \theta nun \begin{align*} \partial_\theta l_{\boldsymbol{x}}(\theta) &=-\frac{s_n(\boldsymbol{x})}{\theta}+(n-s_n(\boldsymbol{x}))\left(\frac{1}{\theta-K}-\frac{1}{\theta}\right)\\ &=\frac{-(\theta-K)s_n(\boldsymbol{x})+K(n-s_n(\boldsymbol{x}))}{\theta(\theta-K)}\\ &=\frac{nK-\theta s_n(\boldsymbol{x})}{\theta(\theta-K)}. \end{align*} Die Lösung der Log-Likelihood-Gleichung ergibt \partial_\theta l_{\boldsymbol{x}}(\theta)=0 \quad\Longleftrightarrow\quad nK-\theta s_n(\boldsymbol{x})=0 \quad\Longleftrightarrow\quad \theta=T(\boldsymbol{x})=\frac{nK}{s_n(\boldsymbol{x})}. Diese kritische Stelle T(\boldsymbol{x}) muss eine globale Maximalstelle sein, weil l_{\boldsymbol{x}} stetig ist und an den Rändern \lim\limits_{\theta\to\infty}l_{\boldsymbol{x}}(\theta)=-\infty sowie \lim\limits_{\theta\downarrow K}l_{\boldsymbol{x}}(\theta)=-\infty erfüllt.
Alternativ können wir überprüfen, dass \partial_\theta^2l_{\boldsymbol{x}}(T(\boldsymbol{x}))<0. Aufgrund der Quotientenregel erfordert das aber eine längere Rechnung als das Verhalten von l_{\boldsymbol{x}} am Rand von \Theta zu untersuchen.
Indem wir die Realisierungen x_1,\ldots,x_n durch die Zufallsvariablen X_1,\ldots,X_n ersetzen, erhalten wir somit den Maximum-Likelihood-Schätzer \widehat{\theta}_n=\frac{nK}{\sum_{i=1}^nX_i}. Der Schätzwert zu einer Stichprobe \boldsymbol{x} wird im Allgemeinen keine natürliche Zahl sein und somit nicht als Fischbestand interpretiert werden können. Wir müssen den Schätzwert daher auf- oder abrunden, je nachdem welche dieser gerundeten Zahlen zum größeren Wert der Likelihood-Funktion führt.
Wir überprüfen, ob der in Beispiel 5 berechnete Maximum-Likelihood-Schätzer zum selben Schätzwert wie in Aufgabe 1 führt. Mit den Zahlenwerten aus dieser Aufgabe ergibt sich der folgende Schätzwert:
K <- 300
n <- 200
s <- 47
n * K / s
[1] 1276.596
Da das Ergebnis keine natürliche Zahl ist, überprüfen wir anhand der Funktionswerte der Likelihood-Funktion, ob wir auf- oder abrunden müssen.
[1] 4.369042e-48 4.369058e-48
Dies bestätigt das Resultat aus Aufgabe 1, dass der Maximum-Likelihood-Schätzwert gleich 1277 ist.
Üben Sie mit den folgenden Aufgaben nun selbst die Berechnung eines Maximum-Likelihood-Schätzers, indem Sie das vierschrittige analytische Verfahren aus diesem Abschnitt anwenden.
Aufgabe 2
Seien X_1,\ldots,X_n unabhängig und identisch \textsf{Poi}(\theta)-verteilt, wobei der Parameter \theta\in(0,\infty) unbekannt ist.
Berechnen Sie den Maximum-Likelihood-Schätzer für \theta. Berechnen Sie anschließend mit diesem Schätzer den Schätzwert zur folgenden Stichprobe:
x <- c(1, 2, 3, 5, 2, 4, 5, 0, 3, 4)
Aufgabe 3
Seien X_1,\ldots,X_n unabhängig und identisch \textsf{N}(0,\theta)-verteilt, wobei die Varianz \theta\in(0,\infty) unbekannt ist.
Berechnen Sie den Maximum-Likelihood-Schätzer für \theta. Berechnen Sie anschließend mit diesem Schätzer den Schätzwert zur folgenden Stichprobe:
x <- c(-1.26, -0.22, 1.65, -0.79, 0.40, 1.12, 1.24, -2.54, -2.69, 0.39)
Die Momentenmethode fundiert auf der Beobachtung, dass bei einer Zufallsvariablen X mit gegebener Verteilung P_\theta die Momente \mu_k(\theta)=\textsf{E}_\theta(X^k) \tag{9} explizit aus dem Parameter \theta berechnet werden. Dies wird klar, wenn wir uns an einigen bekannten Beispielen die Formeln für die ersten beiden Momente ansehen, wobei wir ausnutzen, dass \mu_1(\theta)=\textsf{E}_\theta(X) und \mu_2(\theta)=\textsf{E}_\theta(X^2)=\textsf{Var}_\theta(X)+\textsf{E}_\theta(X)^2.
In der Praxis wird nur eine Stichprobe \boldsymbol{x}=(x_1,\ldots,x_n) beobachtet, keine Momente. Aus den Daten in der Stichprobe lassen sich die sogenannten empirischen Momente berechnen, die wir ausnutzen werden, um einen Schätzwert für \theta anzugeben. Bevor wir erklären, wie genau das funktioniert, müssen wir zuerst definieren, was ein empirisches Moment ist.
k
-te empirische Moment der Daten x
mit mean(x^k)
.Definition 4 (Empirisches Moment)
Das k-te empirische Moment der Daten x_1,\ldots,x_n ist definiert durch m_k=\frac{1}{n}\sum_{i=1}^nx_i^k. \tag{10} Das k-te empirische Moment ist also das arithmetische Mittel der k-ten Potenzen der Daten.
Das erste empirische Moment ist das arithmetische Mittel der Daten, also m_1=\overline{x}_n, und das zweite empirische Moment ist die Summe aus der unkorrigierten empirischen Varianz und dem quadrierten arithmetischen Mittel, das heißt m_2=\widetilde{s}_n^2+\overline{x}_n^2.
Wenn wir die Daten x_1,\ldots,x_n als Realisierungen von unabhängigen und identisch verteilten Zufallsvariablen X_1,\ldots,X_n mit der Verteilung P_\theta modellieren, lassen sich die empirischen Momente als Realisierungen der sogenannten Stichprobenmomente auffassen.
Definition 5 (Stichprobenmoment)
Das k-te Stichprobenmoment der Zufallsvariablen X_1,\ldots,X_n ist definiert durch M_k=\frac{1}{n}\sum_{i=1}^nX_i^k. \tag{11} Das k-te Stichprobenmoment ist also das arithmetische Mittel der k-ten Potenzen der Zufallsvariablen. Die Realisierung des k-ten Stichprobenmoments M_k zur Stichprobe (x_1,\ldots,x_n) ist das k-te empirische Moment m_k dieser Stichprobe.
Das erste Stichprobenmoment ist das Stichprobenmittel, also M_1=\overline{X}_n, und das zweite Stichprobenmoment ist die Summe aus der unkorrigierten Stichprobenvarianz und dem quadrierten Stichprobenmittel, das heißt M_2=\widetilde{S}_n^2+\overline{X}_n^2.
Wir nehmen jetzt zunächst an, dass der Parameter \theta eindimensional ist, also \theta\in\mathbb{R} gilt. Hinter der Momentenmethode stecken zwei Überlegungen:
Beispiel 6
Bei den Beispielen am Anfang des Abschnitts hängt die Exponentialverteilung von einem reellen Parameter \theta\in(0,\infty) ab. Das erste Moment ist \mu_1(\theta)=1/\theta. Mit der Funktion g:(0,\infty)\longrightarrow(0,\infty) mit g(x)=1/x gilt also \mu_1(\theta)=g(\theta).
Wenn wir Gleichung 12 und Gleichung 14 miteinander kombinieren, ergibt sich g(\theta)=\mu_1(\theta)\approx m_1. \tag{15}
Nach der Momentenmethode ist der Schätzwert \widehat{\theta}_{\text{MOM}}(\boldsymbol{x}) zur Stichprobe \boldsymbol{x} dadurch bestimmt, dass in Gleichung 15 Gleichheit gelten soll, wenn \theta durch \widehat{\theta}_{\text{MOM}}(\boldsymbol{x}) ersetzt wird: g(\widehat{\theta}_{\text{MOM}}(\boldsymbol{x}))=m_1. \tag{16} Wir schätzen \theta also, indem wir die Funktion g mit \mu_1(\theta)=g(\theta) bestimmen und die Gleichung g(\theta)=m_1 nach \theta auflösen. Die Lösung dieser Gleichung ist der gesuchte Schätzwert \widehat{\theta}_{\text{MOM}}(\boldsymbol{x}). Einen Schätzer \widehat{\theta}_{\text{MOM}} für \theta erhalten wir, indem wir in der Formel für \widehat{\theta}_{\text{MOM}}(\boldsymbol{x}) die Daten x_1,\ldots,x_n formal durch die Zufallsvariablen X_1,\ldots,X_n ersetzen.
Definition 6 (Momentenschätzer, eindimensionaler Fall)
Der Momentenschätzer für \theta ist die Zufallsvariable \widehat{\theta}_{\text{MOM}} mit g(\widehat{\theta}_{\text{MOM}})=M_1.
Er ist dadurch bestimmt, dass für jede Stichprobe \boldsymbol{x} das erste empirische Moment von \boldsymbol{x} und das erste Moment der Verteilung P_\theta gleich sind, wenn der Wert von \theta gleich dem Schätzwert \widehat{\theta}_{\text{MOM}}(\boldsymbol{x}) ist.
Das folgende Beispiel zeigt konkret das Vorgehen, um im eindimensionalen Fall einen Momentenschätzer zu berechnen.
Beispiel 7
X_1,\ldots,X_n seien exponentialverteilt mit dem unbekannten Parameter \theta>0. Das erste Moment ist dann \mu_1(\theta)=\textsf{E}_\theta(X_1)=1/\theta. Mit der Funktion g(x)=1/x gilt also \mu_1(\theta)=g(\theta). Nach Gleichung 16 setzen wir diesen Term gleich dem ersten empirischen Moment und lösen die Gleichung 1/\theta=m_1 nach \theta auf. Das ergibt \theta=1/m_1. Der Schätzwert zur Stichprobe \boldsymbol{x} ist somit \widehat{\theta}_{\text{MOM}}(\boldsymbol{x})=1/m_1=1/\overline{x}_n. Indem wir das erste empirische Moment durch das erste Stichprobenmoment ersetzen, erhalten wir den Momentenschätzer \widehat{\theta}_{\text{MOM}}=1/M_1=1/\overline{X}_n.
Nehmen wir nun an, dass wir die folgende Stichprobe beobachten:
x <- c(0.07, 0.24, 0.13, 0.25, 0.15, 0.02, 0.12, 0.23, 0.17, 0.30)
Zuerst berechnen wir daraus das erste empirische Moment:
m1 <- mean(x)
Der mit der Momentenmethode berechnete Schätzwert für \theta ist dann:
(theta_hat <- 1 / m1)
[1] 5.952381
Momentenschätzer sind in der Regel nicht eindeutig. Einerseits muss eine Lösung von Gleichung 16, falls sie existiert, nicht eindeutig sein. Andererseits könnte man einen Momentenschätzer auch aus höheren Momenten berechnen, beispielsweise aus der Bedingung, dass das zweite Moment und das zweite empirische Moment gleich sein sollen. Im Fall der \textsf{Exp}(\theta)-Verteilung mit dem zweiten Moment 2/\theta^2 ergäbe sich dann der Schätzer \widetilde{\theta}_{\text{MOM}}=\sqrt{2/M_2}. Normalerweise schränkt man sich aber auf das erste Moment ein, wenn es nur einen unbekannten Parameter gibt.
Üben Sie die Momentenmethode bei einem eindimensionalen Parameter einmal selbst, indem Sie die folgende Rechenaufgabe bearbeiten.
Aufgabe 4
Seien X_1,\ldots,X_n unabhängig und identisch gleichverteilt auf dem Intervall [a,\theta], wobei die rechte Intervallgrenze \theta\in(a,\infty) unbekannt ist.
Berechnen Sie den Momentenschätzer für \theta. Berechnen Sie anschließend mit diesem Schätzer den Schätzwert zur folgenden Stichprobe, wobei a=-3.5 ist:
x <- c(0.36, -1.29, -0.69, -1.67, -0.47, -1.50 , 1.92, -2.46, -2.16, -2.61)
Wir nehmen nun an, dass der Parameter \theta=(\theta_1,\ldots,\theta_d) ein d-dimensionaler Vektor ist, also \theta\in\mathbb{R}^d gilt. Außerdem setzen wir voraus, dass das k-te Moment \mu_k(\theta) von X_1 für alle k\leq d existiert. Die beiden Überlegungen aus dem eindimensionalen Fall, die zur Momentenmethode geführt haben, lassen sich dann verallgemeinern.
Die Momente \mu_k(\theta) hängen meist über Funktionen g_k:\Theta\longrightarrow\mathbb{R} von \theta ab, das heißt \mu_k(\theta)=g_k(\theta)\quad\text{für }k=1,\ldots,d. \tag{17}
Beispiel 8
Bei den Beispielen am Anfang des Abschnitts hängen die Gammaverteilung und die stetige Gleichverteilung jeweils von d=2 reellen Parametern ab.
Bei der Gammaverteilung mit dem Parameter \theta=(\alpha,\beta) sind die ersten beiden Momente \mu_1(\theta)=\alpha/\beta und \mu_2(\theta)=\alpha(\alpha+1)/\beta^2. Mit den Funktionen g_1,g_2:(0,\infty)^2\longrightarrow(0,\infty) mit \begin{align*} g_1(x_1,x_2) & =\frac{x_1}{x_2},\\ g_2(x_1,x_2) & =\frac{x_1(x_1+1)}{x_2^2} \end{align*} gelten also \mu_1(\theta)=g_1(\theta) und \mu_2(\theta)=g_2(\theta).
Bei der stetigen Gleichverteilung mit dem Parameter \theta=(\theta_1,\theta_2) sind die ersten beiden Momente \mu_1(\theta)=(\theta_1+\theta_2)/2 und \mu_2(\theta)=(\theta_1^2+\theta_1\theta_2+\theta_2^2)/3. Mit den Funktionen g_1,g_2:\mathbb{R}^2\longrightarrow\mathbb{R} mit \begin{align*} g_1(x_1,x_2) & =\frac{x_1+x_2}{2},\\ g_2(x_1,x_2) & =\frac{x_1^2+x_1x_2+x_2^2}{3} \end{align*} gelten also \mu_1(\theta)=g_1(\theta) und \mu_2(\theta)=g_2(\theta).
Das Gesetz der großen Zahlen gilt auch für die Zufallsvariablen X_1^k,\ldots,X_n^k, denn sie sind weiterhin unabhängig und das erste Moment von X_1^k ist das k-te Moment von X_1, dessen Existenz wir annehmen. Somit konvergiert das k-te Stichprobenmoment gegen das k-te Moment: M_k =\frac{1}{n}\sum_{i=1}^nX_i^k \longrightarrow\textsf{E}_\theta(X_1^k) =\mu_k(\theta). \tag{18} Für große Stichprobenumfänge ist das k-te empirische Moment m_k somit eine gute Annäherung an das k-te Moment \mu_k(\theta), das heißt es gilt \mu_k(\theta)\approx m_k\quad\text{für }k=1,\ldots,d. \tag{19} Durch Kombination von Gleichung 17 und Gleichung 19 erhalten wir dann g_k(\theta)=\mu_k(\theta)\approx m_k\quad\text{für }k=1,\ldots,d. \tag{20} Nach der Momentenmethode wählen wir den Schätzwert \widehat{\theta}_{\text{MOM}}(\boldsymbol{x}) zur Stichprobe \boldsymbol{x} so, dass in Gleichung 20 Gleichheit gilt, wenn \theta durch \widehat{\theta}_{\text{MOM}}(\boldsymbol{x}) ersetzt wird: g_k(\widehat{\theta}_{\text{MOM}}(\boldsymbol{x}))=m_k\quad\text{für }k=1,\ldots,d. \tag{21} Dies ist ein Gleichungssystem mit d Gleichungen und d Unbekannten, nämlich den d Komponenten \widehat{\theta}_{1,\text{MOM}}(\boldsymbol{x}),\ldots,\widehat{\theta}_{d,\text{MOM}}(\boldsymbol{x}) von \widehat{\theta}_{\text{MOM}}(\boldsymbol{x}). Die Lösung dieses Gleichungssystem ist der gesuchte Schätzwert. Einen Schätzer \widehat{\theta}_{\text{MOM}} für \theta erhalten wir, indem wir erneut die empirischen Momente formal durch die Stichprobenmomente ersetzen.
Definition 7 (Momentenschätzer, allgemeiner Fall)
Der Momentenschätzer für \theta ist die Zufallsvariable \widehat{\theta}_{\text{MOM}} mit g_k(\widehat{\theta}_{\text{MOM}})=M_k für k=1,\ldots,d.
Er ist dadurch bestimmt, dass für jede Stichprobe \boldsymbol{x} die ersten d empirischen Momente von \boldsymbol{x} und die ersten d Momente der Verteilung P_\theta gleich sind, wenn der Wert von \theta gleich dem Schätzwert \widehat{\theta}_{\text{MOM}}(\boldsymbol{x}) ist.
Auch im mehrdimensionalen Fall ist ein Beispiel hilfreich, um genau zu verstehen, wie ein Momentenschätzer berechnet wird.
Beispiel 9
X_1,\ldots,X_n seien gammaverteilt mit den unbekannten Parametern \alpha,\beta>0. Da der Parametervektor \theta=(\alpha,\beta) zweidimensional ist, benötigen wir die Formeln für das erste und das zweite Moment von X_1, welche wir mit dem ersten bzw. zweiten empirischen Moment gleichsetzen. Diese sind \begin{align*} \mu_1(\theta)=g_1(\theta) & =\frac{\alpha}{\beta},\\ \mu_2(\theta)=g_2(\theta) & =\frac{\alpha(\alpha+1)}{\beta^2}. \end{align*} Daraus folgt das nicht-lineare Gleichungssystem \begin{align*} \frac{\alpha}{\beta} & =m_1,\\ \frac{\alpha(\alpha+1)}{\beta^2} & =m_2. \end{align*} Diese zwei Gleichungen lösen wir nun nach den zwei Unbekannten \alpha und \beta auf, um die Momentenschätzer für \alpha und \beta zu berechnen.
Zuerst lösen wir die erste Gleichung nach \alpha auf und erhalten \alpha=m_1\beta. Einsetzen in die zweite Gleichung ergibt dann m_2 =\frac{\alpha(\alpha+1)}{\beta^2} =\frac{m_1\beta(m_1\beta+1)}{\beta^2} =\frac{m_1^2\beta^2+m_1\beta}{\beta^2} =m_1^2+\frac{m_1}{\beta}. Diese Gleichung enthält nur noch den Parameter \beta, nach dem wir auflösen können: \beta=\frac{m_1}{m_2-m_1^2}. Das Resultat für \beta setzen wir in die erste Gleichung ein und erhalten \alpha =m_1\beta =\frac{m_1^2}{m_2-m_1^2}. Indem wir die empirischen Momente durch die Stichprobenmomente ersetzen, erhalten wir schließlich die Momentenschätzer \begin{align*} \widehat{\alpha}_{\text{MOM}} & =\frac{M_1^2}{M_2-M_1^2},\\ \widehat{\beta}_{\text{MOM}} & =\frac{M_1}{M_2-M_1^2}. \end{align*}
Nehmen wir nun an, dass wir die folgende Stichprobe beobachten:
x <- c(1.59, 0.91, 0.57, 0.64, 1.56, 1.18, 1.17, 0.78, 0.63, 0.25)
Zuerst berechnen wir daraus das erste und zweite empirische Moment:
Die mit der Momentenmethode berechneten Schätzwerte für \alpha und \beta sind dann:
alpha_hat <- m1^2 / (m2 - m1^2)
beta_hat <- m1 / (m2 - m1^2)
c(alpha_hat, beta_hat)
[1] 4.944900 5.328556
In Aufgabe 4 haben Sie bei einer stetigen Gleichverteilung den Momentenschätzer für die rechte Intervallgrenze berechnet, falls die linke Intervallgrenze vorgegeben ist. Nun können Sie die Momentenmethode anwenden, um beide Intervallgrenzen gleichzeitig zu schätzen.
Aufgabe 5
Seien X_1,\ldots,X_n unabhängig und identisch gleichverteilt auf dem Intervall [\theta_1,\theta_2], wobei beide Intervallgrenzen \theta_1<\theta_2 unbekannt sind.
Berechnen Sie die Momentenschätzer für \theta_1 und \theta_2. Berechnen Sie anschließend mit diesen Schätzern die Schätzwerte zur folgenden Stichprobe:
x <- c(8.64, 3.91, 7.20, 6.71, 3.96, 6.04, 5.04, 5.26, 8.12, 3.81)
Aufgabe 6
Seien X_1,\ldots,X_n unabhängig und identisch \textsf{Bin}(k,p)-verteilt, wobei die Parameter k\in\mathbb{N} und p\in(0,1) unbekannt sind.
Berechnen Sie die Momentenschätzer für k und p. Berechnen Sie anschließend mit diesen Schätzern die Schätzwerte zur folgenden Stichprobe:
x <- c(5, 4, 6, 2, 5, 3, 6, 4, 3, 5)
Wir greifen Beispiel 2 auf. Professorin M hat den Bierkonsum ihres Kollegen Professor B nach einem Heimspiel seiner Lieblingsmannschaft beobachtet und auf der Grundlage dieser Beobachtung versucht, mit der Maximum-Likelihood-Methode eine Schätzung für den ihr unbekannten Ausgang des Spiels abzugeben. Sie kannte aus Erfahrung das Trinkverhalten von Professor B und damit die Wahrscheinlichkeiten P_\theta(X=x) für x getrunkene Bier je nach Spielausgang \theta. Diese Wahrscheinlichkeiten sind in Tabelle 1 zusammengefasst. Dabei hat \theta für Professorin M einen festen Wert, den sie allein aus der Beobachtung x schätzen muss.
Professor K ist sehr fußballbegeistert und kennt daher nicht nur das Trinkverhalten seines Kollegen Professor B, sondern hat auch Vorwissen über die Leistungsfähigkeit von dessen Lieblingsmannschaft, welches er in die Schätzung des Spielausgangs einbringt. Für Professor K ist der Spielausgang kein fester Wert, sondern schwankt mit der zufälligen Leistung der Mannschaft am Spieltag, welche wiederum den Bierkonsum von Professor B beeinflusst.
Professor K fasst daher den Spielausgang \theta als Realisierung einer Zufallsvariablen \Theta auf, die Werte in der Menge \{N,U,S\} aller möglichen Spielausgänge annimmt und eine diskrete Wahrscheinlichkeitsverteilung besitzt, die er aus seinem Vorwissen über die Mannschaft ableitet. Konkret nimmt er die folgende Verteilung von \Theta an: P(\Theta=N)=0.5,\quad P(\Theta=U)=0.25,\quad P(\Theta=S)=0.25. \tag{22} Das bedeutet, dass die Mannschaft mit einer Wahrscheinlichkeit von 50\% verliert und jeweils mit einer Wahrscheinlichkeit von 25\% ein Unentschieden spielt oder gewinnt.
Die Verteilung des Trinkverhaltens X und damit auch der beobachtete Bierkonsum x hängen nun von der Realisierung \theta von \Theta ab, sodass er die Wahrscheinlichkeiten aus Tabelle 1 als bedingte Wahrscheinlichkeiten P(X=x\mid\Theta=\theta) auffasst.
P(X=x\mid\Theta=\theta) | \theta=N | \theta=U | \theta=S |
---|---|---|---|
x = 0 | 0.1 | 0.4 | 0.0 |
x = 1 | 0.1 | 0.3 | 0.4 |
x = 2 | 0.3 | 0.2 | 0.4 |
x = 3 | 0.5 | 0.1 | 0.2 |
Professor K erfährt nun ebenfalls, dass Professor B nach dem letzten Heimspiel x=2 Bier getrunken hat. Sein Vorgehen zur Schätzung von \theta ist insofern ähnlich zu dem von Professorin M, als auch er denjenigen Wert von \theta ermittelt, der unter der Beobachtung x=2 am wahrscheinlichsten ist. Allerdings nutzt er sein Vorwissen über die Verteilung des Parameters aus und berechnet für jeden möglichen Spielausgang \theta die bedingte Wahrscheinlichkeit P(\Theta=\theta\mid X=2) mit dem Satz von Bayes: P(\Theta=\theta\mid X=2)=\frac{P(X=2\mid\Theta=\theta)P(\Theta=\theta)}{P(X=2)}. \tag{23} Alle Terme auf der rechten Seite von Gleichung 23 sind bekannt oder lassen sich aus bekannten Größen berechnen.
Aus Gleichung 23 erhält Professor K dann die A-posteriori-Verteilung von \Theta unter der Bedingung X=2: \begin{align*} P(\Theta=N\mid X=2) &=\frac{P(X=2\mid\Theta=N)P(\Theta=N)}{P(X=2)} =\frac{0.3\cdot 0.5}{0.3} =\frac{3}{6},\\ P(\Theta=U\mid X=2) &=\frac{P(X=2\mid\Theta=U)P(\Theta=U)}{P(X=2)} =\frac{0.2\cdot 0.25}{0.3} =\frac{1}{6},\\ P(\Theta=S\mid X=2) &=\frac{P(X=2\mid\Theta=S)P(\Theta=S)}{P(X=2)} =\frac{0.4\cdot 0.25}{0.3} =\frac{2}{6}. \end{align*} Dies ist die Verteilung des Spielausgangs \Theta, nachdem X=2 beobachtet wurde. Professor K ist an einem Schätzwert für \theta interessiert, den er nach der Maximum-a-posteriori-Methode so bestimmt, dass die A-posteriori-Wahrscheinlichkeit P(\Theta=\theta\mid X=2) maximal ist.
Das ist für \theta=N der Fall. Professor K schätzt daher \widehat{\theta}_{\text{MAP}}(2)=N, das heißt er geht davon aus, dass die Lieblingsmannschaft von Professor B das letzte Heimspiel verloren hat. Zum Vergleich kam Professorin M mit der Maximum-Likelihood-Methode zur genau umgekehrten Einschätzung \widehat{\theta}_{\text{MLE}}(2)=S.
Aufgabe 7
Berechnen Sie mit der Maximum-a-posteriori-Methode den Schätzwert \widehat{\theta}_{\text{MAP}}(x) für den Spielausgang \theta, wenn bei Professor B der Konsum von x\in\{0,1,3\} Bier beobachtet wird. Geben Sie damit den Maximum-a-posteriori-Schätzer \widehat{\theta}_{\text{MAP}} an.
Wir vollziehen die Berechnung des Maximum-a-posteriori-Schätzers aus Aufgabe 7 mit R nach. Dazu definieren wir in der Variablen theta
die A-priori-Verteilung von \Theta aus Gleichung 22 und in x_given_theta
die bedingte Verteilung von X unter \Theta aus Tabelle 2.
Aus dem Matrixprodukt von x_given_theta
mit theta
, welches hier zeilenweise der Formel der totalen Wahrscheinlichkeit entspricht, erhalten wir die Verteilung von X.
# Verteilung von X
(x <- x_given_theta %*% theta)
[,1]
[1,] 0.150
[2,] 0.225
[3,] 0.300
[4,] 0.325
Wie in Gleichung 23 wenden wir jetzt den Satz von Bayes an, um die A-posteriori-Verteilung von \Theta unter der Bedingung X=x zu berechnen. Im Ergebnis entspricht jede Zeile einer Beobachtung x\in\{0,1,2,3\} von X und jede Spalte steht für eine Realisierung \theta\in\{N,U,S\} von \Theta.
theta_given_x <- matrix(0, nrow = 4, ncol = 3)
for (i in 1:4) {
# Satz von Bayes
(theta_given_x[i, ] <- x_given_theta[i, ] * theta / x[i])
}
library(MASS)
# A-posteriori-Verteilung von Theta gegeben X
MASS::fractions(theta_given_x)
[,1] [,2] [,3]
[1,] 1/3 2/3 0
[2,] 2/9 1/3 4/9
[3,] 1/2 1/6 1/3
[4,] 10/13 1/13 2/13
Laut der Maximum-a-posteriori-Methode ist der Schätzwert \widehat{\theta}_{\text{MAP}}(x) zur Beobachtung x gleich dem Spaltenindex des maximalen Eintrags in der Zeile x. Hierbei steht der Index 1
für eine Niederlage N, der Index 2
für ein Unentschieden U und der Index 3
für einen Sieg S. Die Spaltenindizes der Zeilenmaxima bekommen wir, indem wir die Funktion which.max()
mithilfe von apply()
auf jede Zeile (codiert durch das Argument MARGIN = 1
) der Matrix theta_given_x
anwenden.
# bestimme MAP-Schätzer durch zeilenweises Maximum
(theta_hat <- apply(theta_given_x, MARGIN = 1, FUN = which.max))
[1] 2 3 1 1
Es ist also \widehat{\theta}_{\text{MAP}}(0)=U und \widehat{\theta}_{\text{MAP}}(1)=S und \widehat{\theta}_{\text{MAP}}(2)=\widehat{\theta}_{\text{MAP}}(3)=N. Damit erhalten wir tatsächlich denselben Schätzer wie in Aufgabe 7.
Aufgabe 8
Wenn Professor K als Vorwissen nicht die A-priori-Verteilung aus Gleichung 22 annimmt, sondern stattdessen eine Gleichverteilung auf der Menge aller möglichen Spielausgänge, also P(\Theta=N)=P(\Theta=U)=P(\Theta=S)=\frac{1}{3}, berechnet er mit der Maximum-a-posteriori-Methode denselben Schätzer wie Professorin K mit der Maximum-Likelihood-Methode. Es gilt also \widehat{\theta}_{\text{MLE}}=\widehat{\theta}_{\text{MAP}}.
Überprüfen Sie das rechnerisch mithilfe von R und erklären Sie anschaulich, warum beide Schätzmethoden in diesem Fall dasselbe Ergebnis ergeben.
Schätzmethoden sind mathematische Verfahren, um Schätzer zu konstruieren und zu berechnen. Sie beruhen meist auf wenigen Modellannahmen und sind damit vielseitig einsetzbar. Wir haben drei Schätzmethoden kennengelernt.
Bei der Maximum-Likelihood-Methode wird zuerst die Likelihood-Funktion berechnet. Diese stimmt mit der gemeinsamen Dichte der Zufallsvariablen X_1,\ldots,X_n überein, wird jedoch bei gegebenen Daten x_1,\ldots,x_n als Funktion des Parameters aufgefasst. Die Likelihood-Funktion wird so interpretiert, dass ein größerer Funktionswert die Beobachtung der Daten plausibler erscheinen lässt. Die Aufgabe besteht also darin, die Likelihood-Funktion zu maximieren. Die Schwierigkeit dieses Maximierungsproblems hängt von der genauen Gestalt der Likelihood-Funktion ab. Oftmals ist sie zweimal partiell differenzierbar, sodass Methoden aus der Analysis anwendbar sind. Ist eine Maximalstelle gefunden, ist diese der Maximum-Likelihood-Schätzwert zu den Daten. Wenn die Daten formal durch die Zufallsvariablen ersetzt werden, erhält man eine Formel für den Maximum-Likelihood-Schätzer.
Die Momentenmethode nutzt die empirischen Momente der Daten x_1,\ldots,x_n zur Parameterschätzung. Zuerst wird die Anzahl d der unbekannten Parameter bestimmt. Dann werden die ersten d Momente der unabhängigen und identisch verteilten Zufallsvariablen X_1,\ldots,X_n berechnet. Es ergeben sich d Gleichungen, die von den d unbekannten Parametern abhängen. Diese Gleichungen werden nach den Parametern aufgelöst, sodass jeder einzelne Parameter als Funktion der Momente geschrieben wird. Nun werden die Momente durch die entsprechenden empirischen Momente ersetzt, das Ergebnis ist der Momentenschätzwert zu den Daten. Wenn die Daten formal durch die Zufallsvariablen ersetzt werden, erhält man eine Formel für den Momentenschätzer.
Bei der Maximum-a-posteriori-Methode wird auch der Parameter als Realisierung einer Zufallsvariablen angenommen. Entsprechend muss eine A-priori-Verteilung auf dem Parameterraum festgelegt werden, die zusätzliches Vorwissen über den Parameter modelliert. Mit dem Satz von Bayes berechnet man dann eine A-posteriori-Verteilung des Parameters unter der Bedingung, dass die vorliegenden Daten beobachtet wurden. Ähnlich zur Maximum-Likelihood-Methode ist derjenige Parameterwert der Maximum-a-posteriori-Schätzwert, für den die Dichte der A-posteriori-Verteilung am größten ist.
Die Lerneinheit “Schätztheorie – Schätzmethoden” wurde von Axel Bücher, Kathrin Möllenhoff und Christian Müller an der Heinrich-Heine-Universität Düsseldorf entwickelt. Es ist lizenziert unter der CC-BY-SA 4.0 Lizenz und ist verfügbar auf ORCA.nrw.