Lineare Regression

Ist ein Datensatz gegeben, können verschiedene statistische Berechnungen durchgeführt werden, um den Datensatz zu beschreiben und so Aussagen über die zugrundeliegenden Sachverhalte treffen zu können. Ein solcher Fall liegt vor, wenn die Daten aus gemeinsamen Beobachtungen zweier Größen bzw. Variablen bestehen. Dann stellt sich oft die Frage, inwiefern die Merkmalsausprägungen der einen Variablen abhängig von denen der anderen Variablen sind.

Beispiel: Wenn die Besitzerin einer Eisdiele über mehrere Tage die gemessene Außentemperatur (in °C) sowie die Menge an verkauftem Eis (in kg) notiert, stellt sich die Frage, ob mit höheren Außentemperaturen auch mehr Eis verkauft wird und ob man einen solchen Zusammenhang eventuell quantifizieren kann:

Außentemperatur [°C] 1 2 3 4 5 6 7 8
Verkauftes Eis [kg] 1 2 3 4 5 6 7 8

Die lineare Regression ist das einfachste Modell, um solche Abhängigkeiten zu beschreiben. Hier wird versucht, den Zusammenhang zwischen zwei Variablen durch eine Gerade zu modellieren. Durch solch ein Modell können schließlich auch Vorhersagen getroffen werden, welchen Wert die abhängige Variable ungefähr annimmt, wenn der Wert der erklärenden Variablen bekannt ist.

Das lineare Regressionsmodell beschreibt den Zusammenhang zwischen einer erklärenden Variablen \(x\) (hier die Temperatur) und einer abhängigen Variablen \(y\) (hier die verkaufte Eismenge). Die abhängige Variable wird als Realisierung einer Zufallsvariablen \(Y\) aufgefasst, die durch die Regressionsgleichung \[ Y = \alpha + \beta x + \varepsilon \] modelliert wird. Hier sind \(\alpha\) und \(\beta\) unbekannte Parameter, die die Regressonsgerade \(y = \alpha + \beta x\) beschreiben. \(\varepsilon\) ist eine Zufallsvariable, die alle Effekte modelliert, die von einer Durchführung des Experiments zur nächsten schwanken, aber nicht durch Änderung von \(x\) erklärt werden können. Diese Störgrößen sind u.i.v. und zentriert. Erstes Ziel einer statistsichen Anlyse besteht darin, die Regressionsparameter \(\alpha\) und \(\beta\) zu schätzen.

In dieser zweiteiligen interaktiven Anwendung lernen Sie die Residuenquadratsumme als Maß für die Güte eines Regressionsmodells kennen. Zudem erkunden Sie, welche Auswirkungen die Veränderung der Daten auf das angepasste Modell haben kann.

Regressionsgerade bestimmen

Das gängige Maß dafür, wie gut eine Regressionsgerade den Zusammenhang der Varianblen beschreibt, ist die sogenannte Residuenquadratsumme. Dabei wird für jeden Datenpunkt \(P_k(x_k\mid y_k)\), \(k=1,\dots,8\), der vertikale quadratische Abstand zur Geraden ermittelt. Diesen definieren wir als \(\hat\varepsilon^2 :=\big( g(x_k)-y_k \big)^2\). Die Summe dieser Abstände für alle Punkte, also \( \text{SQR}:=\sum_{k=1}^{8}\hat\varepsilon^2 \) nennen wir die Residuenquadratsumme. Je kleiner dieser Wert ist, desto besser passen die Daten zur ausgewählten Geraden.

In der interaktiven Grafik weiter unten sind die Daten aus der obigen Tabelle eingezeichnet. Bedienen Sie nun diese Grafik. Die folgenden Aufgaben leiten Sie dabei an:

Aufgaben:

(a) Schätzen Sie die Parameter \(\alpha\) und \(\beta\) der Regressionsgeraden \(g(x)=\alpha+\beta\cdot x\) und geben Sie sie in die Eingabefelder ein. Nutzen Sie dazu den Zeichenmodus.
Hinweis: Achten Sie darauf, dass die vertikale Achse nicht bei \(x=0\) eingezeichnet ist!

Wenn Sie den Zeichenmodus aktiviert und die Hilfsgerade gezeichnet haben, können Sie sie so verschieben, dass die Punkte möglichst gleichmäßig um sie herum verteilt sind. Dann können Sie die Steigung \(\beta\) und den y-Achsen-Abschnitt \(\alpha\) der Geraden mithilfe der Grafik schätzen.


(b) Nach dem Abschicken ist Ihre Gerade nun in der Abbildung zu sehen. Wie gut ist Ihre Schätzung? Betrachten Sie die Grafik und die Residuenquadratsummen, die Sie unter der Grafik sehen.

Liegen die aktuelle und die optimale Residuenquadratsumme nah bei einander, so ist Ihre Schätzung gut. Liegen die beiden weit auseinander, ist Ihre Schätzung weniger gut. Eine Orientierung bietet Ihnen auch die Farbe des Wertes der aktuellen Residuenquadratsumme: Ist der Wert rot, so liegt er recht weit von der optimalen Summe entfernt. Ist die Schrift gelb oder sogar grün, dann handelt es sich um eine bessere Schätzung.


(c) Nutzen Sie die Schieberegler, um Ihre Gerade zu verändern und der optimalen Regressionsgeraden anzupassen. Nutzen Sie die Residuenquadratsumme der optimalen Geraden und Ihrer Geraden, die Sie unter der Abbildung finden.
Klicken Sie schließlich auf den Button „Optimale Regressionsgerade anzeigen“ und vergleichen Sie Ihre Gerade mit der nun erscheinenden optimalen Regressionsgeraden.


\(\alpha=\)

\(\beta=\)

Aktuelle Residuenquadratsumme (Einheit: \(\text{kg}^2\)) =

Optimale Residuenquadratsumme (Einheit: \(\text{kg}^2\)) =

Regressionsgerade: Datenpunkte verändern

In dieser Grafik sehen Sie zehn zufällige Datenpunkte und eine zugehörige (optimale) Regressionsgerade, die sich durch Minimierung der Residuenquadratsumme ergibt. Sie können die Punkte verschieben und beobachten, wie sich die Regressionsgerade verändert. Bedienen Sie nun die interaktive Anwendung. Unten finden Sie Aufgaben, die Sie dabei anleiten.

Nutzen Sie den Gittermodus und die Funktion zum Stempeln der aktuell sichtbaren Geraden.

Gleichung der Regressionsgeraden: \(g(x)=\) \(\cdot x\)

Residuenquadratsumme =

Korrelationskoeffizient: \(r\) =

Aufgaben:

(a) Verschieben Sie die Punkte und beobachten Sie, wie sich die Regressionsgerade verändert. Bei welchen Punkten können Sie besonders große Veränderungen beobachten? Bei welchen nicht?
Wie können Sie die Punkte verschieben, sodass sich die Gerade stark verändert bzw. kaum verändert? Überlegen Sie eine Erklärung dafür.

Zu Teil 1 der Fragestellung:

  • Wenn Sie Punkte verschieben, deren \(x\)-Koordinate nahe der Mitte des Intervalls \([x_{\text{min}}, x_{\text{max}}]\) liegen, hat das deutlich kleinere Auswirkungen auf die Steigung der Geraden, als wenn Sie Punkte, verschieben die nahe an \(x_{\text{min}}\) oder \(x_{\text{max}}\) liegen.
  • Das liegt daran, dass Punkte mit \(x\)-Koordinate nah am Rand des Intervalls einmen stärkeren Einfluss auf den Korrelationskoeffizienten \(r_{x,y}= \sum_i \frac{(x_i-\bar{x})(y_i-\bar{y})} {s_x\cdot s_y}\) haben.

Zu Teil 2 der Fragestellung:

  • Werden Punkte zu der Geraden hin oder von der Geraden weg verschoben, dann verändert sich die Regressionsgerade.
  • Verschiebt man die Punkte hingegen parallel zur Geraden, dann ändert sich die Regressionsgerade nicht.
  • Das liegt daran, dass sich durch ein Verschieben eines Punktes entlang der Geraden der Abstand des Punktes von der Geraden nicht verändert.

b) Stempeln Sie die aktuelle Gerade und erzeugen Sie dann einen Ausreißer, indem Sie einen Punkt recht weit von der Geraden weg bewegen. Beobachten Sie dabei die Änderung der Regressionsgeraden. Was fällt Ihnen auf?

  • Obwohl nur ein Ausreißer erzeugt wird, ändern sich die Position der Geraden und insbesondere die Residuenquadratsumme (als Maß für die Güte des angepassten Modells) erheblich.
  • Der Grund dafür ist, dass bei der Anpassung linearer Regressionsmodelle und der Residuenquadratsumme vertikale quadratische Abstände verwendet werden. Daher können schon einzelne Punkte große Auswirkungen auf das angepasste Modell haben.
  • Das zeigt, dass lineare Regressionsmodelle sehr anfällig für Ausreißer sind.

(c) Verschieben Sie die Punkte so, dass für den Korrelationskoeffizienten \(|r|\approx 0.5\) gilt.
Welche Änderungen ergeben sich für die Regressionsgerade? Sie können zum Ausprobieren die Werkzeuge (Punkte auf Gerade setzen, Gittermodus, ...) aktivieren.

  • Ein Korrelationskoeffizient von \(|r| \approx 0.5\) kann auf mehrere Weisen erzeugt werden: Sie können einen oder mehrere extreme Ausreißer erzeugen oder die gesamte Punktewolke so verlagern, dass die Punkte gleichmäßig um die Gerade herum verteilt sind.
  • Im ersten Fall ist die Residuenquadratsumme bei gleichem Wert für \(r\) viel größer als im zweiten Fall. Bei gleichem Korrelationskoeffizienten ist die Anpassung des Modells also besser, wenn die Punkte gleichmäßig um die Gerade herum liegen.
  • Wie schon bei (b) ist auch hier der Grund, dass die Residuenquadratsumme durch vertikale quadratische Abstände der Punkte zur Geraden definiert wird. Auch bei der Anpassung eines Regressionsmodells spielen vertikale quadratische Abstände eine große Rolle. Wie genau die Punkte verteilt sind, hat also erheblichen Einfluss darauf, ob ein Regressionsmodell zur Modellierung des Zusammenhangs zwischen zwei Variabeln und für Prognosen brauchbar ist.
  • Welche Methode, den Wert von \(|r| \approx 0.5\) zu erreichen, haben Sie verwendet? Probieren Sie doch mal die andere Möglichkeit und vergleichen Sie die beiden Fälle.
  • Hinweis: Abhängig vom Kontext der Modellierung kann es in der Praxis sinnvoll sein, einen einzelnen Ausreißer getrennt vom Modell zu analysieren und sich zu fragen, ob ein Modell solche Werte wirklich beschreiben kann, oder ob man sie nicht besser aus der Analyse nehmen sollte.