data("USairpollution", package = "HSAUR3")
USairpollution
Lernziele: Am Ende dieses Kapitels können Sie
- das Bestimmtheitsmaß R^2 definieren und interpretieren.
- zu gegebenen Daten eine Streuungszerlegung mithilfe von R durchführen.
- den F-Test für Hypothesen über die Regressionsparameter erläutern.
- den F-Test mithilfe von R durchführen und das Ergebnis korrekt interpretieren.
1 Bestimmtheitsmaß
Wir erinnern an das lineare Regressionsmodell Y_i=\beta_1 x_{i1}+\beta_2 x_{i2}+\ldots + \beta_p x_{ip}+\epsilon_i, wobei x_{ij} den Wert der j-ten erklärenden Variablen bei der i-ten Beobachtung angibt, Y_i die abhängige Variablen und \epsilon_i den Zufallsterm, jeweils bei der i-ten Beobachtung. \beta_1,\ldots,\beta_p sind die unbekannten Regressionsparameter. In vielen Fällen wird x_{i1}\equiv 1 sein; auf diesem Wege können wir einen konstanten Term in das Modell integrieren.
Mit y_i bezeichnen wir den beobachteten Wert der abhängigen Variablen Y_i. Nachdem wir die Regressionsparameter mit Hilfe der Methode der kleinsten Quadrate geschätzt haben, können wir für jedes i den Wert y_i mit dem aufgrund unseres Modells vorhergesagten Ergebnis \widehat{Y}(x_{i1},\ldots,x_{ip}) = \hat{\beta}_1 x_{i1} + \hat{\beta}_2 x_{i2} + \ldots + \hat{\beta}_p x_{ip} vergleichen. Das übliche Maß für die Qualität dieser Vorhersage ist die Summe der quadratischen Vorhersagefehler
SQ_{error}= \sum_{i=1}^n \big( y_i- ( \hat{\beta}_1 x_{i1}+\hat{\beta}_2 x_{i2}+\ldots + \hat{\beta}_p x_{ip}) \big)^2.
Diese Größe ist für sich genommen wenig aussagekräftig und muss in Relation zur totalen Streuung in den Ergebnissen der Experimente gesehen werden, also zu
SQ_{total}= \sum_{i=1}^n (y_i-\bar{y})^2.
Der Quotient dieser beiden Werte ist ein Maß für den Anteil an der totalen Streuung in den Daten, der durch das lineare Modell nicht erklärt wird. Der verbleibende Anteil wird durch das Modell erklärt, und daher definieren wir das sogenannte Bestimmtheitsmaß R^2 durch
R^2=1-\frac{SQ_{error}}{SQ_{total}} =1-\frac{\sum_{i=1}^n \big( y_i- ( \hat{\beta_1} x_{i1}+\hat{\beta}_2 x_{i2}+\ldots + \hat{\beta}_p x_{ip}) \big)^2 }{\sum_{i=1}^n (y_i-\bar{y})^2}.
Anmerkung.
Im einfachen linearen Regressionsmodell Y_i=\alpha+\beta\, x_i +\epsilon_i gilt folgende Beziehung zwischen dem Bestimmtheitsmaß R^2 und dem Korrelationskoeffizienten r_{x,y}: R^2=r_{x,y}^2. (siehe Skript zur einfachen linearen Regression).
Analysiert man das multiple lineare Regressionsmodell mit dem R-Befehl
lm
, so findet man R^2 im Output als Multiple R-squared.
Beispiel 1 In R
findet man den Datensatz USairpollution
, der Daten zur Luftverschmutzung in n=41 Großstädten in den USA enthält. Die Luftverschmutzung wird charakterisiert durch den Gehalt an Schwefeldioxid (y=SO2
). Als erklärende Variablen werden die durchschnittliche Jahrestemperatur (x_1=temp
), die Anzahl der Industrieunternehmen mit mindestens 20 Beschäftigten (x_2=manu
), die Einwohnerzahl (x_3=popul
), die durchschnittliche jährliche Windgeschwindigkeit (x_4=wind
), die jährliche Niederschlagsmenge (x_5=precip
) sowie die durchschnittliche Anzahl an Regentagen (x_6=predays
) verwendet.
Zur Analyse der Daten betrachten wir das multiple lineare Regressionsmodell y= \beta_0+ \beta_1\, x_1 + \beta_2\, x_2 + \beta_3\, x_3 + \beta_4\, x_4+ \beta_5\, x_5 + \beta_6\, x_6. Die Schätzung der Parameter und die Berechnung des Bestimmtheitsmaßes führen wir mithilfe des R-Befehls
durch, der uns das folgende Ergebnis liefert:
Call:
lm(formula = SO2 ~ temp + manu + popul + wind + precip + predays,
data = USairpollution)
Residuals:
Min 1Q Median 3Q Max
-23.004 -8.542 -0.991 5.758 48.758
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 111.72848 47.31810 2.361 0.024087 *
temp -1.26794 0.62118 -2.041 0.049056 *
manu 0.06492 0.01575 4.122 0.000228 ***
popul -0.03928 0.01513 -2.595 0.013846 *
wind -3.18137 1.81502 -1.753 0.088650 .
precip 0.51236 0.36276 1.412 0.166918
predays -0.05205 0.16201 -0.321 0.749972
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 14.64 on 34 degrees of freedom
Multiple R-squared: 0.6695, Adjusted R-squared: 0.6112
F-statistic: 11.48 on 6 and 34 DF, p-value: 5.419e-07
Wir finden das Bestimmtheitsmaß als Multiple R-squared in der Ausgabe. Für unsere Daten und unser Modell gilt also R^2=0.6695, d.h. dass 66.95\% der totalen Streuung der Luftverschmutzung dadurch erklärt wird, dass die erklärenden Variablen in den 41 Städten unterschiedliche Werte haben.
Aufgabe 1
Analysieren Sie die USairpollution
Daten neu, indem Sie nur die zweite erklärende Variable x_2 verwenden, d.h. Sie betrachten das Modell
Y_i=\alpha+\beta x_{i2} +\epsilon_i, \quad 1\leq i\leq 41.
Beantworten Sie die folgenden Fragen:
- Welchen Wert hat das Bestimmtheitsmaß in diesem Modell?
- Ist das Bestimmtheitsmaß im Modell mit nur einer erklärenden Variablen größer oder kleiner als im Modell mit allen 6 erklärenden Variablen?
- Überprüfen Sie, dass R^2=r_{x_2,y}^2 gilt.
2 Streuungszerlegung
In einem linearen Regressionsmodell kann man die totale Streuung der y-Werte in zwei Komponenten zerlegen, die eine je eigene Interpretation haben. Zu dem Zweck betrachten wir zunächst die Zerlegung
y_i-\bar{y} = \big(y_i-\sum_{j=1}^p x_{ij}\hat{\beta}_j\big) + \big(\sum_{j=1}^p x_{ij}\hat{\beta}_j -\bar{y}\big).
Die Abweichung des Ergebnisses des i-ten Experiments vom arithmetischen Mittel aller Ergebnisse wird hier in zwei Teile zerlegt, nämlich in die Abweichung des Ergebnisses y_i von dem Wert, den wir aufgrund des linearen Modells bei den vorliegenden Werten der erklärenden Variablen erwarten würden, und die Abweichung dieses erwarteten Ergebnisses vom arithmetischen Mittel \bar{y}.
Wenn wir jetzt beide Seiten quadrieren und anschließend die Summe über alle Experimente bestimmen, erhalten wir
\begin{align*} \sum_{i=1}^n \big(y_i-\bar{y}\big)^2 & = \sum_{i=1}^n \big(y_i-\sum_{j=1}^p x_{ij}\hat{\beta}_j\big)^2 + \sum_{i=1}^n \big(\sum_{j=1}^p x_{ij}\hat{\beta}_j -\bar{y}\big)^2 \\ &\qquad + 2 \sum_{i=1}^n \Big(\big(y_i-\sum_{j=1}^p x_{ij}\hat{\beta}_j\big) \big(\sum_{j=1}^p x_{ij}\hat{\beta}_j -\bar{y}\big)\Big) \\ &= \sum_{i=1}^n \big(y_i-\sum_{j=1}^p x_{ij}\hat{\beta}_j\big)^2 + \sum_{i=1}^n \big(\sum_{j=1}^p x_{ij}\hat{\beta}_j -\bar{y}\big)^2. \end{align*}
Zum Nachweis der letzten Identität muss man zeigen, dass die Summe der gemischten Terme \sum_{i=1}^n \big((y_i-\sum_{j=1}^p x_{ij}\hat{\beta}_j) (\sum_{j=1}^p x_{ij}\hat{\beta}_j -\bar{y}) \big) verschwindet. Dies folgt mit etwas Rechenaufwand aus den Formeln für die Kleinste-Quadrate-Schätzer \hat{\beta}_1,\ldots,\hat{\beta}_p. Man kann diese Identität auch geometrisch begründen. Bei der Methode der kleinsten Quadrate bestimmen wir im Unterraum, der von allen Vektoren der Form (\sum_{j=1}^p x_{ij} \beta_j)_{1\leq i\leq n} aufgespannt wird, den Vektor, der den Abstand zum Datenvektor y=(y_i)_{1\leq i\leq n} minimiert. Dieser Vektor (\sum_{j=1}^p x_{ij} \hat{\beta}_j)_{1\leq i\leq n} ist die orthogonale Projektion des Datenvektors auf den Unterraum und entsprechend steht der Verbindungsvektor (y_i-\sum_{j=1}^p x_{ij} \hat{\beta}_j)_{1\leq i\leq n} senkrecht auf dem Unterraum. Damit ist die Summe der gemischten Terme das innere Produkt zweier orthogonaler Vektoren und also gleich Null.
Zusammengefasst erhalten wir damit die Streuungszerlegung
\sum_{i=1}^n \big(y_i-\bar{y}\big)^2 = \sum_{i=1}^n \big(y_i-\sum_{j=1}^p x_{ij}\hat{\beta}_j\big)^2 + \sum_{i=1}^n \big(\sum_{j=1}^p x_{ij}\hat{\beta}_j -\bar{y}\big)^2,
die die totale Streuung in den Daten in zwei Komponenten zerlegt:
SQ_{Model}=\sum_{i=1}^n \big(\sum_{j=1}^p x_{ij}\hat{\beta}_j -\bar{y}\big)^2 ist der Anteil der totalen Streuung, der darauf zurückzuführen ist, dass wir bei jedem Experiment andere Werte der erklärenden Variablen haben. Dieser Anteil wird durch das lineare Modell erklärt.
SQ_{error}=\sum_{i=1}^n \big(y_i-\sum_{j=1}^p x_{ij}\hat{\beta}_j\big)^2 misst die Abweichung des Ergebnisses des i-ten Experiments von dem, was wir aufgrund des linearen Modells erwartet hätten, und ist somit durch das lineare Modell nicht erklärt.
Mithilfe der Streuungszerlegung können wir das Bestimmtheitsmaß R^2 jetzt als den Anteil der durch das lineare Modell erklärten Streuung an der totalen Streuung darstellen, denn wir erhalten
R^2 =\frac{SQ_{Model}}{SQ_{total}} = \frac{\sum_{i=1}^n \big(\sum_{j=1}^p x_{ij}\hat{\beta}_j -\bar{y}\big)^2}{ \sum_{i=1}^n \big(y_i-\bar{y}\big)^2}. \tag{1}
Anmerkung. Die Komponenten der Streuungszerlegung werden in R
nicht direkt ausgegeben, aber man kann sie mithilfe der obigen Formel Gleichung 1 leicht aus der totalen Streuung und dem Bestimmtheitsmaß R^2 berechnen, indem man Gleichung 1 umformt zu
\sum_{i=1}^n \big(\sum_{j=1}^p x_{ij}\hat{\beta}_j -\bar{y}\big)^2 = R^2 \, \sum_{i=1}^n \big(y_i-\bar{y}\big)^2.
Mit den obigen Notationen erhalten wir damit folgende Identitäten \begin{align*}
SQ_{Model}&=R^2\cdot SQ_{total}, \\[1mm]
SQ_{error}&= (1-R^2) \cdot SQ_{total}.
\end{align*} Die totale Streuung in den Daten finden wir in R
mithilfe der Beziehung SQ_{total}=(n-1)\, s_y^2.
Beispiel 2 Für die USairpollution
Daten findet man die totale Streuung mithilfe des R-Befehls
Wegen R^2=0.6695 finden wir mit den obigen Formeln folgende Werte für die beiden Komponenten der Streuungszerlegung \begin{align*} SQ_{Model}&= 0.6695 \cdot 22037.90 = 14754.38,\\[1mm] SQ_{error}&= (1-0.6695) \cdot 22037.90 = 7283.52. \end{align*}
Aufgabe 2
Bestimmen Sie die Komponenten der Streuungszerlegung für die USairpollution
Daten im linearen Regressionsmodell mit der erklärenden Variablen x_2.
3 F-Test für lineare Hypothesen
In praktischen Anwendungen begegnet man oft linearen Regressionsmodellen mit vielen erklärenden Variablen. Im nächsten Schritt stellt sich dann die Frage, ob wirklich alle erklärenden Variablen einen signifikanten Einfluss auf das Ergebnis des Experiments haben. Dass eine erklärende Variable keinen Einfluss auf das Ergebnis des Experiments hat, ist gleichbedeutend damit, dass der entsprechende Regressionskoeffizient gleich Null ist. Nach einer eventuellen Umordnung der erklärenden Variablen führt uns dies zu der folgenden Nullhypothese: H_0: \; \beta_{q+1}=\ldots =\beta_p=0, wobei q<p. Auf diesem Wege sind r=p-q der ursprünglichen erklärenden Variablen weggefallen.
Unter dieser Nullhypothese haben wir ein neues lineares Regressionsmodell, jetzt mit q erklärenden Variablen, Y_i= x_{i1}\beta_1 +\ldots +x_{iq}\beta_q +\epsilon_i. Auch für dieses Modell, das jetzt weniger erklärende Variablen hat, können wir eine Streuungszerlegung durchführen und das Bestimmtheitsmaß R^2 berechnen. Dazu bestimmen wir zunächst die Kleinste-Quadrate-Schätzer \hat{\beta}_1^{(0)},\ldots,\hat{\beta}_q^{(0)} der Regressionsparameter in dem neuen Modell mit q erklärenden Variablen als Lösung des Minimierungsproblems \sum_{i=1}^n (y_i-\sum_{j=1}^q x_{ij} \beta_j)^2 \longrightarrow \min. Die durch das neue Modell nicht erklärte Streuung ist dann gegeben durch SQ_{error}(H)=\sum_{i=1}^n \big(y_i-\sum_{j=1}^q x_{ij} \hat{\beta}_j^{(0)}\big)^2. Diese durch das kleinere Modell mit q erklärenden Variablen nicht erklärte Streuung ist in jedem Fall größer als die durch das ursprüngliche Modell mit allen p erklärenden Variablen nicht erklärte Streuung. Dies liegt einfach daran, dass \begin{align*} \sum_{i=1}^n \big(y_i-\sum_{j=1}^q x_{ij} \hat{\beta}_j^{(0)}\big)^2 &=\min_{\beta_1,\ldots,\beta_q} \sum_{i=1}^n \big(y_i-\sum_{j=1}^q x_{ij} \beta_j \big)^2 \\ & \leq \min_{\beta_1,\ldots,\beta_p} \sum_{i=1}^n \big(y_i-\sum_{j=1}^p x_{ij} \beta_j \big)^2 \\ &= \sum_{i=1}^n \big(y_i-\sum_{j=1}^p x_{ij} \hat{\beta}_j\big)^2. \end{align*} Das Ungleichheitszeichen in der Mitte ist dadurch begründet, dass wir bei der ersten Minimierung das Minimum über einen kleineren Bereich berechnen, nämlich über den Unterraum des \mathbb{R}^p, der gegeben ist durch \beta_{q+1}=\ldots=\beta_{p}=0, und dass dieses Minimum größer ist als wenn wir das Minimum über \mathbb{R}^p bestimmen.
Entsprechend wird die durch das kleinere Modell mit q erklärenden Variablen erklärte Streuung in jedem Fall kleiner sein als unter dem ursprünglichen Modell mit der größeren Anzahl an erklärenden Variablen, und damit wird auch das Bestimmtheitsmaß kleiner sein. Dies wird selbst dann gelten, wenn die erklärenden Variablen x_{q+1},\ldots, x_p in Wirklichkeit keinen Einfluss auf das Ergebnis des Experiments haben.
Als Teststatistik für einen Test auf Gültigkeit der Nullhypothese H_0: \; \beta_{q+1}=\ldots =\beta_p=0 bietet sich die Differenz zwischen der durch das kleinere Modell und der unter dem ursprünglichen Modell nicht erklärten Streuung an. Diese Differenz standardisiert man noch, indem man einmal durch die Differenz der Anzahlen der erklärenden Variablen unter den beiden Modellen teilt und zum anderen durch die geschätzte Varianz. So ergibt sich die F-Teststatistik F=\frac{(SQ_{error}(H)-SQ_{error})/(p-q)}{SQ_{error}/(n-p)}.
Definition 1 Es seien \xi,\eta zwei unahbängige reellwertige Zufallsvariablen, wobei \xi einer \chi_f^2-Verteilung folgt und \eta einer \chi^2_g-Verteilung. Dann heißt die Verteilung von F=\frac{\xi/f}{\eta/g} eine F-Verteilung mit (f,g) Freiheitsgraden. Als Symbol für diese Verteilung verwenden wir F_{f,g}.
Theorem 1 Falls die Nullhypothese gilt, hat die F-Teststatistik eine F_{p-q,n-p}-Verteilung.
Beispiel 3 Wir betrachten in R
die USairpollution
-Daten und untersuchen die Nullypothese, dass die Anzahl der Regentage sowie die Einwohnerzahl keinen Einfluss auf die Luftverschmutzung haben, d.h.
H_0: \beta_3=\beta_6=0.
Dazu analysieren wir zunächst das resultierende lineare Regressionsmodell mit den verbliebenen 4 erklärenden Variablen
Y=\beta_0+\beta_1\, x_1 +\beta_2 \, x_2 +\beta_4\, x_4 +\beta_5 \, x_5 +\epsilon.
Mithilfe von R
berechnen wir die Schätzwerte der Parameter
Call:
lm(formula = SO2 ~ temp + manu + wind + precip)
Residuals:
Min 1Q Median 3Q Max
-20.374 -9.088 -3.042 7.205 58.785
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 123.118333 31.290702 3.935 0.000365 ***
temp -1.611436 0.401373 -4.015 0.000289 ***
manu 0.025476 0.004537 5.615 2.27e-06 ***
wind -3.630245 1.892342 -1.918 0.063020 .
precip 0.524235 0.229407 2.285 0.028297 *
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 15.59 on 36 degrees of freedom
Multiple R-squared: 0.6028, Adjusted R-squared: 0.5587
F-statistic: 13.66 on 4 and 36 DF, p-value: 7.168e-07
Das Bestimmtheitsmaß hat abgenommen und ist jetzt R^2=0.6028. Analog zu den Berechnungen in Beispiel 2 finden wir folgende Werte für die beiden Komponenten der Streuungszerlegung unter der hier betrachteten Nullhypothese: \begin{align*} SQ_{model} (H) &= R^2 \cdot SQ_{total} = 0.6028\cdot 22037.90 = 13284.45 \\ SQ_{error} (H) & =(1-R^2)\cdot SQ_{total} = (1-0.6028)\cdot 22037.90= 8753.46 \end{align*}
Die durch das Modell nicht erklärte Streuung hat durch das Weglassen von zwei erklärenden Variablen zugenommen. Die entscheidende Frage ist aber, ob diese Zunahme darauf hindeutet, dass diese beiden erklärenden Variablen wirklich einen Einfluss auf die Luftverschmutzung haben. Um diese Frage diskutieren zu können, berechnen wir den Wert der F-Teststatistik:
F=\frac{(8753.46-7283.52)/2 }{7283.52/34 } =3.43.
Der zugehörige p-Wert ist die Wahrscheinlichkeit, dass eine F_{2,34}-verteilte Zufallsvariable einen Wert größer oder gleich 3.43 annimmt. Diese Wahrscheinlichkeit kann man mit R
berechnen:
1 - pf(3.43, 2, 34)
[1] 0.04396119
Ein Test zum Signifikanzniveau \alpha=5\% würde also die Nullhypothese verwerfen.
Anmerkung. Man kann den Wert der F-Teststatistik aus den beiden Bestimmtheitsmaßen, also dem R^2 für das volle Modell mit allen erklärenden Variablen und dem R^2 für das kleinere Modell, mit den unter der Nullhypothese verbliebenen erklärenden Variablen, berechnen. Zur Unterscheidung bezeichnen wir die Bestimmtheitsmaße für das volle Modell mit R_M^2 und für das Modell unter der Nullhypothese mit R_H^2. Wegen \begin{align*} SQ_{error}(M)&= (1-R_M^2) \cdot SQ_{total} \\ SQ_{error}(H)&= (1-R_H^2) \cdot SQ_{total} \end{align*} erhalten wir F= \frac{ ((1-R_H^2)\cdot SQ_{total} - (1-R_M^2)\cdot SQ_{total})/(p-q)}{ (1-R_M^2)\cdot SQ_{total}/(n-p)} =\frac{(R_M^2-R_H^2)/(p-q) }{(1-R_M^2)/(n-p) }.
Beispiel 4 Wenn wir die obige Formel zur Berechnung des Werts der F-Teststatistik auf das Testproblem aus Beispiel 3 anwenden, so erhalten wir: F=\frac{(0.6695-0.6028)/2 }{(1-0.6695)/34 }=3.43 also dasselbe Ergebnis wie in Beispiel 3.
Aufgabe 3
Betrachten Sie nochmals den Datensatz USairpollution
und testen Sie die Nullhypothese H_0:\beta_1=\beta_3=\beta_4=\beta_5=\beta_6=0 zum Niveau \alpha=0.05.
Lösungen der Aufgaben
Autor:innen
Die Lerneinheit “Bestimmtheitsmaß und F-Test” wurde von Herold Dehling und Daniel Meißner an der Ruhr-Universität Bochum entwickelt. Es ist lizenziert unter der CC-BY-SA 4.0 Lizenz und ist verfügbar auf ORCA.nrw.