Daten <- data.frame(
Temperatur = c(7.4, 7.8, 4.7, 3.0, 5.7, 12.4, 10.6, 11.1, 10.0, 9.5, 8.0, 6.0, 4.3),
Energie = c(66, 101, 101, 119, 125, 103, 87, 62, 76, 91, 95, 96, 114)
)
Daten
Lernziele: Am Ende des Kapitels können Sie
eine Regressionsgerade interpretieren und das zugrundeliegende einfache lineare Modell erläutern.
die Parameter einer Regressionsgeraden mithilfe der Kleinste-Quadrate-Methode bestimmen.
Berechnungen zum linearen Regressionsmodell in R ausführen
die Grenzen des linearen Modells einschätzen und erklären, dass die Linearität oft nur lokal gilt.
1 Einleitung und Motivation
Neben Zufallsexperimenten, die bei Wiederholungen unabhängig und unter identischen Bedingungen ausgeführt wurden und entsprechend als Realisierungen unabhängiger und identisch verteilter Zufallsvariablen aufgefasst werden können, kann der Ausgang eines Experiments außer vom Zufall auch noch vom Wert einer erklärenden Variablen abhängen. Das Ziel einer statistischen Analyse ist es dann, die funktionale Abhängigkeit zwischen der erklärenden Variablen und dem Ergebnis des Experiments zu beschreiben.
Beispiel 1 Professor D. interessiert sich für die Abhängigkeit des Energieverbrauchs seiner Fernwärmeheizung von der morgendlichen Außentemperatur. Im November 2019 hat er dazu an 13 aufeinanderfolgenden Tagen die Außentemperatur (in Grad Celsius) um 7:00 morgens sowie den Energieverbrauch (in kWh) an diesem Tag abgelesen. Er liest die Daten wie folgt in R ein:
Hier sind die Daten aus Beispiel 1 grafisch in einem Scatterplot dargestellt:
Es ist offensichtlich, dass die Abhängigkeit zwischen der morgendlichen Außentemperatur x und dem Fernwärmeverbrauch y keiner einfachen funktionalen Beziehung folgt, d. h. dass wir keine einfache Funktion angeben können, sodass y=f(x).
Der statistische Ansatz für die Modellierung solcher Daten besteht darin, dass wir nach einer einfachen funktionalen Beziehung suchen, die aber durch Zufall gestört wird. Das einfachste Modell ist das der linearen Regression, bei dem wir von einem linearen Zusammenhang y=a+b\,x ausgehen, und zusätzlich einen additiven Zufallsterm einführen, den wir als Realisierung einer N(0,\sigma^2)-verteilten Zufallsvariablen \epsilon auffassen. Wir erhalten so das Modell Y=\alpha+\beta x +\epsilon. Wir führen das Experiment n-fach unabhängig voneinander bei verschiedenen x-Werten aus, und erhalten so das Modell Y_i=\alpha + \beta x_i + \epsilon_i, \; 1\leq i \leq n, \tag{1} wobei x_i der Wert der Variablen x beim i-ten Experiment ist und \epsilon_i unabhängige N(0,\sigma^2)-verteilte Zufallsvariablen sind. Die Variable x nennt man unabhängige oder erklärende Variable und y heißt abhängige Variable. Im Idealfall stellt man sich Experimente vor, bei denen die unabhängige Variable von den Experimentatoren frei gewählt werden kann. Das Modell Gleichung 1 heißt lineares Regressionsmodell, manchmal genauer einfaches lineares Regressionsmodell zur Unterscheidung von Modellen mit mehreren erklärenden Variablen.
In dem obigen Beispiel des täglichen Energieverbrauchs der Fernwärmeheizung erfasst die Zufallsvariable \epsilon all die Einflüsse auf den täglichen Energieverbrauch, die wir in unserem Modell nicht berücksichtigt haben. Dies können die Windgeschwindigkeit, die Temperaturen zu anderen Tageszeiten, die wechselnden Lebensgewohnheiten der Bewohner, die Zahl und das Alter der Besucher sein, um einige Beispiele zu nennen.
Anmerkung.
Wegen \epsilon_i \sim N(0,\sigma^2) gilt E(\epsilon_i)=0 und somit E(Y_i)=\alpha+\beta \, x_i. Die Regressionsgerade y=\alpha+\beta\, x gibt uns also das erwartete Ergebnis des Experiments in Abhängigkeit vom Wert der erklärenden Variablen. Dieser Wert ist zugleich die beste Vorhersage für das Ergebnis des Experiments, wenn die erklärende Variable den Wert x hat. Wir verwenden dafür die Notation \widehat{Y}(x):=\alpha+\beta\, x. Das genaue Ergebnis kennen wir nicht, weil eben auch der Zufall das Ergebnis beeinflusst, aber im Mittel liegen wir mit dieser Vorhersage richtig.
Der obigen Formel für \widehat{Y}(x) können wir direkt entnehmen, dass \widehat{Y}(x+1)-\widehat{Y}(x)=\beta, d.h. der Parameter \beta gibt uns die erwartete Änderung des Ergebnisses des Experiments, wenn wir den Wert der erklärenden Variablen um 1 erhöhen.
Dem Modell Gleichung 1 liegt die Annahme zugrunde, dass der Zufallseinfluss additiv ist und bei allen x-Werten dieselbe Varianz hat. In praktischen Beispielen ist diese Annahme oft nicht gerechtfertigt, etwa weil die Varianz mit steigendem x zunimmt. In solchen Fällen hilft es, die Daten erst geeignet zu transformieren, z. B. durch Anwendung der Logarithmusfunktion auf das Ergebnis des Experiments.
2 Die Methode der kleinsten Quadrate
Die Methode der kleinsten Quadrate wurde erstmals im Jahre 1801 von Carl Friedrich Gauß (1777–1855) im Zusammenhang mit der Bestimmung der Bahn des Zwergplaneten Ceres verwendet. Gauß hat die von ihm verwendete Methode erst einige Jahre später publiziert, wobei ihm der französische Mathematiker Adrien-Marie Legendre (1752–1833) im Jahre 1805 zuvorgekommen ist. Wissenschaftshistoriker konnten überzeugend belegen, dass Gauß seine Berechnungen nur mithilfe der Methode der kleinsten Quadrate machen konnte, sodass ihm diese heute zu Recht zugeschrieben wird.
Das lineare Regressionsmodell hat drei unbekannte Parameter, nämlich \alpha,\beta und \sigma, die wir auf Basis der Daten (x_1,y_1),\ldots, (x_n,y_n) schätzen können. Wir beginnen mit der Schätzung der Parameter \alpha und \beta und verwenden dazu die Methode der kleinsten Quadrate. Dieser Methode liegt die Idee zugrunde, als Maß für den Abstand zwischen dem Datenpaar (x_i,y_i) und einer beliebigen Geraden y=\alpha+\beta x das Quadrat des vertikalen Abstands zu nehmen und am Ende die Gerade zu finden, für die die Summe der vertikalen Abstandsquadrate minimal ist. So erhalten wir die Minimierungsaufgabe \sum_{i=1}^n (y_i-\alpha-\beta x_i)^2 \longrightarrow \mathrm{min}, \tag{2} deren Lösung die Kleinste-Quadrate-Schätzer der Parameter definiert.
Theorem 1 Die Kleinste Quadrate Schätzer für die Regressionskoeffizienten \alpha und \beta sind gegeben durch \hat{\alpha} = \bar{y} -\hat{\beta} \bar{x} \tag{3} \hat{\beta} = \frac{\sum_{i=1}^n (x_i-\bar{x}) (y_i-\bar{y})} {\sum_{i=1}^n (x_i-\bar{x})^2}. \tag{4}
Beweis. Wir bestimmen den Kleinste Quadrate Schätzer für \alpha und \beta, indem wir die partiellen Ableitungen von Q(\alpha,\beta) =\sum_{i=1}^n (y_i-\alpha -\beta\, x_i)^2 nach \alpha und \beta gleich 0 setzen. Dies führt uns auf das lineare Gleichungssystem \begin{align*} \sum_{i=1}^n (y_i -\alpha -\beta x_i)&=0 \\ \sum_{i=1}^n (y_i - \alpha -\beta x_i) \, x_i &=0. \end{align*} Mit den Abkürzungen \bar{x}:=\frac{1}{n} \sum_{i=1}^n x_i und \bar{y}:=\frac{1}{n} \sum_{i=1}^n y_i folgt aus der ersten Gleichung \alpha = \bar{y} - \beta \bar{x} und damit Gleichung 3. Wir setzen dies in die zweite Gleichung ein, erhalten \sum_{i=1}^n (y_i - \bar{y} -\beta (x_i-\bar{x}))\, x_i=0 und bestimmen daraus \hat{\beta}, \hat{\beta} =\frac{\sum_{i=1}^n x_i(y_i-\bar{y})}{\sum_{i=1}^n (x_i-\bar{x})x_i} =\frac{\sum_{i=1}^n (x_i-\bar{x})(y_i-\bar{y})} {\sum_{i=1}^n (x_i-\bar{x})^2} =\frac{\sum_{i=1}^n (x_i-\bar{x})\, y_i} {\sum_{i=1}^n (x_i-\bar{x})^2}. \tag{5} Für die beiden letzten Identitäten haben wir benutzt, dass \sum (x_i-\bar{x}) =\sum(y_i-\bar{y})=0.
Aufgabe 1 Berechnen Sie mithilfe der obigen Formeln aus den Daten von Beispiel 1 Schätzwerte für die Parameter der Regressionsgerade. Verwenden Sie dann die Regressionsgerade, um den Energievebrauch bei einer morgendlichen Außentemperatur von 10 ℃ vorherzusagen.
Die Varianz \sigma^2=\operatorname{Var}(\epsilon)=E(\epsilon^2) spiegelt sich in den horizontalen Abständen zwischen den Datenpunkten und der Kleinste-Quadrate-Regressionsgerade wider, und entsprechend liegt es nahe, das arithmetische Mittel der Abstandsquadrate als Schätzer für \sigma^2 zu nehmen. Es stellt sich heraus, dass dieser Schätzer nicht erwartungstreu ist, und dass man besser den folgenden Schätzer nehmen kann: s_{y|x}^2:=\frac{1}{n-2} \sum_{i=1}^n (y_i-\widehat{\alpha}-\widehat{\beta}\, x_i)^2. Hier liegt eine Analogie mit der Stichprobenvarianz s_x^2=\frac{1}{n-1}\sum_{i=1}^n (x_i-\bar{x})^2 vor, wo ebenfalls nicht durch n, sondern durch n-1 geteilt wird. Im einfachen linearen Regressionsmodell muss man durch n-2 teilen, weil man zwei Parameter der Regressionsgerade schätzt.
Anmerkung. Man kann die Kleinste-Quadrate-Methode durch die Maximum-Likelihood-Methode motivieren. Dazu berechnen wir zunächst die Likelihood-Funktion, und als Vorbereitung die gemeinsame Dichte der Zufallsvariablen Y_1,\ldots,Y_n. Diese Zufallsvariablen sind unabhängig, nach Gleichung 1 hat Y_i eine N(\alpha + \beta\, x_i,\sigma^2)-Verteilung und somit die Dichte
f_{\alpha,\beta,\sigma}(y_i) = \frac{1}{\sqrt{2\pi \sigma^2}} \exp(-\frac{(y_i-\alpha - \beta\, x_i)^2}{2\sigma^2}). Damit ist die gemeinsame Dichte von Y_1,\ldots,Y_n das Produkt dieser Dichten, also f^{(n)}_{\alpha,\beta,\sigma}(y_1,\ldots,y_n) =\frac{1}{(2\pi \sigma^2)^{n/2}} \exp \Big(- \frac{1}{2\sigma^2}\sum_{i=1}^n (y_i -\alpha-\beta \, x_i)^2\Big), und somit erhalten wir die Log-Likelihood-Funktion l(\alpha,\beta,\sigma)= -\frac{n}{2}\log (2\pi \sigma^2) -\frac{1}{2\sigma^2} \sum_{i=1}^n (y_i - \alpha -\beta\, x_i)^2.
Maximierung der Log-Likelihood-Funktion führt direkt zu den Kleinste-Quadrate-Schätzern für \alpha und \beta. Der Maximum-Likelihood-Schätzer für \sigma^2 ist \hat{\sigma}_{ML}^2 =\frac{1}{n}\sum_{i=1}^n (y_i - \hat{\alpha} - \hat{\beta} x_i)^2. Dieser Schätzer weicht um den Faktor \frac{n-2}{n} vom erwartungstreuen Schätzer s_{y|x}^2 ab.
Alle Informationen über die Verteilung der Schätzer für die Parameter \alpha,\beta und \sigma^2 sind im folgenden Satz zusammengetragen.
Theorem 2 Die Kleinste-Quadrate-Schätzer \hat{\alpha} und \hat{\beta} sind normalverteilt und erwartungstreu mit Varianzen \operatorname{Var}(\hat{\alpha}) = \sigma^2 \frac{\sum_{i=1}^n x_i^2}{n \sum_{i=1}^n (x_i-\bar{x})^2} \tag{6} \operatorname{Var}(\hat{\beta}) = \sigma^2 \frac{1}{ \sum_{i=1}^n (x_i-\bar{x})^2}. \tag{7} s_{y|x}^2 ist ein erwartungstreuer Schätzer und (n-2)s_{y|x}^2/\sigma^2 hat eine \chi^2_{n-2}-Verteilung.
Beweis. Wie beweisen hier nur die Aussagen über die Verteilung von \alpha und \beta. Der Beweis der Aussage über die Verteilung von s_{y|x}^2 ist deutlich anspruchsvoller und wird in allgemeiner Form im Kapitel zur multiplen linearen Regression gegeben.
Dass die Schätzer \hat{\alpha} und \hat{\beta} normalverteilt sind, folgt unmittelbar aus der Tatsache, dass beide sich als Linearkombinationen der unabhängigen normalverteilten Zufallsvariablen Y_1,\ldots,Y_n darstellen lassen. Aus der Wahrscheinlichkeitstheorie ist bekannt, dass Linearkombinationen unabhängiger normalverteilter Zufallsvariablen normalverteilt sind. Für die Berechnung des Erwartungswerts und der Varianz von \hat{\beta} verwenden wir noch einmal die Identität Gleichung 5, setzen für y_i die Zufallsvariable Y_i ein, und erhalten so am Ende folgende Darstellung des Schätzers \hat{\beta}=\frac{\sum_{i=1}^n (x_i-\bar{x})\, Y_i} {\sum_{i=1}^n (x_i-\bar{x})^2}. \tag{8} Zur Berechnung von E(\hat{\beta}) verwenden wir die Linearität des Erwartungswertes, die Identitäten E(Y_i)=\alpha+\beta\, x_i und \sum_{i=1}^n (x_i-\bar{x})=0 und erhalten damit \begin{align*} E(\hat{\beta}) &= \frac{1}{\sum_{i=1}^n (x_i-\bar{x})^2} \sum_{i=1}^n (x_i-\bar{x}) E(Y_i) \\ &= \frac{1}{\sum_{i=1}^n (x_i-\bar{x})^2} \sum_{i=1}^n (x_i-\bar{x})(\alpha +\beta x_i)\\ &= \beta \frac{1}{\sum_{i=1}^n (x_i-\bar{x})^2} \sum_{i=1}^n (x_i-\bar{x})^2 =\beta. \end{align*} Aus \hat{\alpha}=\bar{Y} - \hat{\beta}\bar{x} =\frac{1}{n} \sum_{i=1}^n Y_i -\hat{\beta}\bar{x} folgt weiter E(\hat{\alpha})=\frac{1}{n} \sum_{i=1}^n E(Y_i)-\bar{x} E(\hat{\beta}) = \frac{1}{n} \sum_{i=1}^n (\alpha +\beta x_i) -\bar{x} \beta =\alpha +\beta \bar{x} - \bar{x} \beta =\alpha. Zur Berechnung von \operatorname{Var}(\hat{\beta}) verwenden wir erneut die Darstellung Gleichung 8 sowie die Unabhängigkeit der Y_i und \operatorname{Var}(Y_i)=\sigma^2 und finden damit \operatorname{Var}(\hat{\beta})=\frac{1}{\left(\sum_{i=1}^n (x_i-\bar{x})^2 \right)^2} \sum_{i=1}^n (x_i-\bar{x})^2 \sigma^2 = \frac{\sigma^2}{\sum_{i=1}^n (x_i-\bar{x})^2 }. Zur Berechnung von \operatorname{Var}(\hat{\alpha}) schreiben wir \hat{\alpha} =\frac{1}{n} \sum_{i=1}^n Y_i -\hat{\beta}\bar{x} =\sum_{i=1}^n\left(\frac{1}{n}-\bar{x} \frac{(x_i-\bar{x})}{\sum_{i=1}^n (x_i-\bar{x})^2}\right) Y_i. Daraus erhalten wir \begin{align*} \operatorname{Var}(\hat{\alpha}) &= \sum_{i=1}^n \left(\frac{1}{n}-\bar{x} \frac{(x_i-\bar{x})}{\sum_{i=1}^n (x_i-\bar{x})^2}\right)^2 \sigma^2\\ &= \frac{1}{n} +\frac{(\bar{x})^2} {(\sum_{i=1}^n (x_i-\bar{x})^2)^2} \sum_{i=1}^n (x_i-\bar{x})^2 = \frac{1}{n} +\frac{(\bar{x})^2}{\sum_{i=1}^n (x_i-\bar{x})^2}, \end{align*} wobei wir erneut \sum_{i=1}^n (x_i-\bar{x})=0 verwendet haben. Wir benutzen schließ lich die Identität \sum_{i=1}^n (x_i-\bar{x})^2 = \sum_{i=1}^n x_i^2 -n (\bar{x})^2 und erhalten Gleichung 6.
Anmerkung. Der französische Mathematiker Pierre-Simon de Laplace (1749–1827) hat bereits im 18. Jahrhundert vorgeschlagen, die Regressionsgerade durch Minimierung der Summe der vertikalen absoluten Abstände zu bestimmen, d.h. durch Lösung des Minimierungsproblems \sum_{i=1}^n |y_i-\alpha-\beta\, x_i| \rightarrow \min. Dieses Problem kann man aber nur numerisch lösen, weil die Betragsfunktion nicht differenzierbar ist. Andererseits hat die Methode der kleinsten absoluten Abstände einige Vorteile, vor allem ist sie weniger anfällig für Ausreißer in den Daten. Die Verfügbarkeit von Rechnern hat der Laplaceschen Methode seit geraumer Zeit ein Comeback in der Statistik beschert.
3 Lineare Regression mit R
Die Schätzwerte für die Parameter \alpha, \beta und \sigma können wir mit Hilfe des R
-Befehls lm
berechnen. Für die Daten aus Beispiel 1 sehen die Eingabe und die Ausgabe so aus:
Call:
lm(formula = Energie ~ Temperatur, data = Daten)
Residuals:
Min 1Q Median 3Q Max
-30.384 -6.058 2.917 5.361 26.381
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 125.638 13.033 9.640 1.07e-06 ***
Temperatur -3.953 1.587 -2.492 0.0299 *
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 15.89 on 11 degrees of freedom
Multiple R-squared: 0.3608, Adjusted R-squared: 0.3027
F-statistic: 6.208 on 1 and 11 DF, p-value: 0.02995
Die Schätzwerte für die Parameter \alpha und \beta können im Abschnitt Coefficients
in der Spalte Estimate
abgelesen werden. Der Wert für \alpha steht in der Zeile (Intercept)
, der Wert für \beta steht in der Zeile Temperatur
. Diese Zeile ist immer nach der erklärenden Variable benannt.
Den Schätzwert für \sigma finden wir als Residual standard error
in der R-Ausgabe, hier also
\sigma=15.89.
Außerdem finden wir in der R-Ausgabe noch viele weitere Informationen, wie etwas in der Spalte mit dem Kopf Std. error
die geschätzten Standardabweichungen der Schätzer für die Parameter \alpha und \beta. Im Kapitel über Hypothesentests und Konfidenzintervalle werden wir auf diese und andere Werte in der R-Ausgabe noch näher eingehen.
Eine grafische Darstellung der Daten zusammen mit der Regressionsgeraden erhält man mit den R-Befehlen plot
und ablines
. Zu den Daten aus Beispiel 1 erhält man mit den Befehlen
einen Plot des täglichen Energieverbrauchs gegen die morgendliche Termperatur zusammen mit der von R berechneten Regressionsgeraden y=125.638 - 3.953\, x.
4 Kovarianz und Korrelationskoeffizient
Im Zusammenhang mit gemeinsamen Verteilungen von Zufallsvariablen hatten wir die Kovarianz und den Korrelationskoeffizienten als Maße für den Grad des linearen Zusammenhangs zweier Zufallsvariablen X,Y definiert durch \operatorname{Cov}(X,Y)= E((X-EX)(Y-EY)) bzw. \operatorname{corr}(X,Y)=\frac{\operatorname{Cov}(X,Y)}{\sqrt{\operatorname{Var}(X)\operatorname{Var}(Y)}}. In diesem Abschnitt wollen wir die entsprechenden empirischen Größen betrachten, die uns ein Maß für den Grad des linearen Zusammenhangs zwischen den beiden Variablen in einem Datensatz (x_i,y_i), i=1,\ldots,n, liefern.
Definition 1 Gegeben seien die Daten (x_i,y_i), i=1,\ldots, n. Wir definieren die empirische Kovarianz und den empirischen Korrelationskoeffizienten durch
\begin{align*} s_{x,y} &:= \frac{1}{n-1}\sum_{i=1}^n (x_i-\bar{x})(y_i-\bar{y}), \\ r_{x,y} &:= \frac{s_{x,y}}{\sqrt{s_x^2\cdot s_y^2}}, \end{align*}
wobei s_x^2 und s_y^2 die Stichprobenvarianzen der beiden einzelnen Variablen sind.
Anmerkung.
Die empirische Kovarianz und der Korrelationskoeffizient sind Maße für den Grad des linearen Zusammenhangs der beiden Variablen in der Stichprobe. Dass beide Koeffizienten den Zusammenhang messen, kann man den Formeln nicht direkt entnehmen; wir werden diese Interpretation in den weiteren Bemerkungen noch motivieren und unterbauen.
Im Gegensatz zur Kovarianz ist der Korrelationskoeffizient skaleninvariant, d.h. er ändert sich nicht, wenn man die Variablen in anderen Einheiten misst – also etwa den Energieverbrauch in MWh statt in kWh. Entsprechend verwendet man eigentlich immer nur den Korrelationskoeffizienten, da die Kovarianz wegen ihrer Skalenabhängigkeit keine Aussagekraft hat.
Wenn wir in der Definition von r_{x,y} die Formeln für s_x^2, s_y^2 und s_{x,y} einsetzen, erhalten wir als alternative Darstellung für den Korrelationskoeffizienten r_{x,y} = \frac{\sum_{i=1}^n (x_i-\bar{x}) (y_i-\bar{y})}{\sqrt{\sum_{i=1}^n (x_i-\bar{x})^2 \sum_{i=1}^n (y_i-\bar{y})^2}}. Wenn wir jetzt noch einmal die Formel für die Steigung der Regressionsgerade betrachten, so finden wir folgende wichtige Beziehung \hat{\beta} = \frac{s_y}{s_x}r_{x,y}. \tag{9} Mithilfe dieser Identität und wegen \hat{\alpha}=\bar{y}-\hat{\beta}\bar{x} kann man die Kleinste-Quadrate-Regressionsgerade aus den fünf Kennzahlen \bar{x}, \bar{y}, s_x^2, s_y^2 und r_{x,y} berechnen. Dies ist in der Praxis wichtig, weil bivariate Daten oft zu diesen Kennzahlen zusammengefasst werden und man keinen direkten Zugang zu den ursprünglichen Daten hat.
Aus der Identität in Gleichung 9 kann man direkt ablesen, dass der Korrelationskoeffizient und die Steigung der Regressionsgerade dasselbe Vorzeichen haben. Bei einem positiven Korrelationskoeffzienten ist die Regressionsgerade monoton steigend, bei einem negativen Korrelationskoeffizienten ist sie monoton fallend.
Aufgabe 2 Wir kehren noch einmal zu den Daten aus Beispiel 1 zurück. Dazu berechnen wir zuerst die fünf numerischen Zusammenfassungen:
\bar{x}=7.73,\; \bar{y}=95.08,\; s_x^2=8.36, \; s_y^2=362.08,\; r_{x,y} = -0.60.
Berechnen Sie mithilfe von Gleichung 9 den Schätzwert für \hat{\beta} und vergleichen Sie das Ergebnis mit dem Wert, den Sie in Aufgabe 1 erhalten haben.
Der folgende Satz gibt eine wichtige Grundlage für die Interpretation des Korrelationskoeffizienten als Maß für den linearen Zusammenhang der Daten.
Theorem 3 Es gilt folgende Identität für den Korrelationskoeffizienten r_{x,y}: \sum_{i=1}^n (y_i-\hat{\alpha}-\hat{\beta}x_i)^2 = (1-r_{x,y}^2) \sum_{i=1}^n (y_i-\bar{y})^2. \tag{10} Weiter gilt die sogenannte Streuungszerlegung \sum_{i=1}^n (y_i-\bar{y})^2 =\sum_{i=1}^n (\hat{\alpha} +\hat{\beta}x_i-\bar{y})^2 + \sum_{i=1}^n (y_i-\hat{\alpha}-\hat{\beta}x_i)^2 \tag{11}
Beweis. Unter Verwendung der oben hergeleiteten Formeln für \widehat{\alpha} und \widehat{\beta} erhalten wir \begin{align*} \sum_{i=1}^n \big(y_i -\widehat{\alpha}-\widehat{\beta} x_i\big)^2 &=\sum_{i=1}^n \big((y_i-\bar{y}) -\widehat{\beta} (x_i-\bar{x}) \big)^2 \\ &= \sum_{i=1}^n (y_i-\bar{y})^2 -2\widehat{\beta} \sum_{i=1}^n (x_i-\bar{x})(y_i-\bar{y}) +\widehat{\beta}^2 \sum_{i=1}^n (x_i-\bar{x})^2 \\ &= \sum_{i=1}^n (y_i-\bar{y})^2 -2 \frac{s_y}{s_x}r_{x,y} \sum_{i=1}^n (x_i-\bar{x})(y_i-\bar{y}) + \frac{s_y^2}{s_x^2}r_{x,y}^2 \sum_{i=1}^n (x_i-\bar{x})^2 \\ &= \sum_{i=1}^n (y_i-\bar{y})^2 -2(n-1) \frac{s_y}{s_x}r_{x,y} r_{x,y} s_x\, s_y + (n-1) \frac{s_y^2}{s_x^2}r_{x,y}^2 s_x^2 \\ &= \sum_{i=1}^n (y_i-\bar{y})^2 -2(n-1) s_y^2r_{x,y}^2 + (n-1) s_y^2 r_{x,y}^2 \\ &=\sum_{i=1}^n (y_i-\bar{y})^2 - r_{x,y}^2 \sum_{i=1}^n (y_i-\bar{y})^2\\ &= (1-r_{x,y}^2) \sum_{i=1}^n(y_i-\bar{y})^2. \end{align*} Neben den bereits genannten Formeln für \widehat{\alpha} und \widehat{\beta} haben wir in dieser Herleitung verwendet, dass \sum_{i=1}^n (x_i-\bar{x})^2=(n-1)s_x^2 und \sum_{i=1}^n (y_i-\bar{y})^2=(n-1)s_y^2.
Zum Nachweis der Streuungszerlegung in Gleichung 11 bemerken wir zunächst, dass aus Gleichung 10 folgt \sum_{i=1}^n (y_i-\bar{y})^2 =r_{x,y}^2 \sum_{i=1}^n (y_i-\bar{y})^2 + \sum_{i=1}^n (y_i-\hat{\alpha} -\hat{\beta} x_i)^2. Weiter finden wir mithilfe der Definitionen von s_x^2, s_y^2 und \hat{\alpha} sowie der Formel \hat{\beta}=\frac{r_{x,y}s_x}{s_y} \sum_{i=1}^n (\hat{\alpha}+\hat{\beta}\, x_i-\bar{y})^2 = \hat{\beta}^2 \sum_{i=1}^n(x_i-\bar{x})^2 = \frac{r_{x,y}^2\, s_y^2}{s_x^2} (n-1)\, s_x^2 = r_{x,y}^2 \sum_{i=1}^n (y_i-\bar{y})^2. Aus den beiden letzten Gleichungen folgt dann die Streuungszerlegung Gleichung 11.
Anmerkung.
Aus der Gleichung 10 kann man einige interessante Schlussfolgerungen ziehen. Als Erstes stellen wir fest, dass die beiden Summen auf der linken und auf der rechten Seite nicht-negativ sind und demzufolge auch 1-r_{x,y}^2\geq 0 gelten muss, was äquivalent ist zu -1\leq r_{x,y} \leq 1. Der Korrelationskoeffzient liegt also immer zwischen -1 und +1. Auf der linken Seite von Gleichung 10 steht die Summe der vertikalen quadratischen Abweichungen der Punkte (x_i,y_i) von der Kleinste-Quadrate-Regressionsgerade y=\hat{\alpha} +\hat{\beta} x; dies ist nach Definition der Kleinste-Quadrate-Methode zugleich die minimale Summe von Abstandsquadraten der Punktewolke zu irgendeiner Geraden. Je näher nun r_{x,y} an +1 oder -1 liegt, umso kleiner wird 1-r_{x,y}^2, und entsprechend liegt die Punktewolke dann näher an einer Geraden. Im Extremfall, wenn r_{x,y}^2=1, ist die linke Seite von Gleichung 10 gleich 0, und dann liegen alle Datenpunkte (x_i,y_i) auf einer Geraden, d.h. wir haben eine perfekte lineare Abhängigkeit. Der andere Extremfall ist r_{x,y}=0; in diesem Fall ist \hat{\beta}=0, d.h. dass die Kleinste-Quadrate-Regressionsgerade Steigung 0 hat. In diesem Fall gibt es keinen linearen Zusammenhang zwischen den beiden Variablen.
Die Streuungszerlegung in Gleichung 11 zerlegt die totale Streuung der Ergebnisse y_1,\ldots,y_n der n Experimente in zwei Teile. Der erste Teil, \sum_{i=1}^n (\hat{\alpha}+\hat{\beta}\, x_i-\bar{y})^2, stellt die Streuung dar, die darauf zurückzuführen ist, dass die Experimente bei unterschiedlichen x-Werten ausgeführt wurden. Der zweite Teil, \sum_{i=1}^n (y_i-\hat{\alpha}-\hat{\beta}\, x_i)^2, ist die Summe der quadratischen Abweichung der Ergebnisse y_1,\ldots,y_n von den erwarteten Werten \hat{Y}(x_i)=\hat{\alpha}+\hat{\beta} x_i, 1\leq i\leq n. Der erste Term auf der rechten Seite von Gleichung 11 ist der Teil der totalen Streuung, die durch das Regressionsmodell erklärt wird, während der zweite Teil auf den Fehlerterm im Regressionsmodell zurückgeht, also auf die Abweichung der Ergebnisse vom linearen Regressionsmodell y=\alpha+\beta\, x.
Aus der Identität \sum_{i=1}^n (\hat{\alpha}+\hat{\beta}\, x_i -\bar{y})^2= r_{x,y}^2 \sum_{i=1}^n (y_i-\bar{y})^2, die wir im Beweis von Gleichung 11 gezeigt haben, folgt r_{x,y}^2 = \frac{\sum_{i=1}^n (\hat{\alpha}+\hat{\beta}\, x_i -\bar{y})^2}{ \sum_{i=1}^n (y_i-\bar{y})^2}. Also gibt r_{x,y}^2 den Anteil der durch das Regressionsmodell erklärten Streuung an der gesamten Streuung der abhängigen Variablen an. Diese Beziehung sollte man stets bedenken, wenn man beurteilen will, wie gut ein Regressionsmodell die Daten erklärt. Im Beispiel 1 erklärt das Regressionsmodell 36\%\, (=0.6^2) der totalen Streuung des Energieverbrauchs im Beobachtungszeitraum. Die restlichen 64\% der Streuung sind auf Zufall zurückzuführen bzw. auf Effekte, die im Modell nicht berücksichtigt werden.
Lösungen der Aufgaben
Autor:innen
Die Lerneinheit “Einfache lineare Regression” wurde von Herold Dehling und Daniel Meißner unter Mithilfe von Elias Kaiser an der Ruhr-Universität Bochum entwickelt. Es ist lizenziert unter der CC-BY-SA 4.0 Lizenz und ist verfügbar auf ORCA.nrw.