Ist ein Datensatz gegeben, können verschiedene statistische Berechnungen durchgeführt werden, um den Datensatz zu beschreiben und so Aussagen über die zugrundeliegenden Sachverhalte treffen zu können. Ein solcher Fall liegt vor, wenn die Daten aus gemeinsamen Beobachtungen zweier Größen bzw. Variablen bestehen. Dann stellt sich oft die Frage, inwiefern die Merkmalsausprägungen der einen Variablen abhängig von denen der anderen Variablen sind.
Beispiel: Wenn die Besitzerin einer Eisdiele über mehrere Tage die gemessene Außentemperatur (in °C) sowie die Menge an verkauftem Eis (in kg) notiert, stellt sich die Frage, ob mit höheren Außentemperaturen auch mehr Eis verkauft wird und ob man einen solchen Zusammenhang eventuell quantifizieren kann:
Außentemperatur [°C] | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 |
---|---|---|---|---|---|---|---|---|
Verkauftes Eis [kg] | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 |
Die lineare Regression ist das einfachste Modell, um solche Abhängigkeiten zu beschreiben. Hier wird versucht, den Zusammenhang zwischen zwei Variablen durch eine Gerade zu modellieren. Durch solch ein Modell können schließlich auch Vorhersagen getroffen werden, welchen Wert die abhängige Variable ungefähr annimmt, wenn der Wert der erklärenden Variablen bekannt ist.
Das lineare Regressionsmodell beschreibt den Zusammenhang zwischen einer erklärenden Variablen \(x\) (hier die Temperatur) und einer abhängigen Variablen \(y\) (hier die verkaufte Eismenge). Die abhängige Variable wird als Realisierung einer Zufallsvariablen \(Y\) aufgefasst, die durch die Regressionsgleichung \[ Y = \alpha + \beta x + \varepsilon \] modelliert wird. Hier sind \(\alpha\) und \(\beta\) unbekannte Parameter, die die Regressonsgerade \(y = \alpha + \beta x\) beschreiben. \(\varepsilon\) ist eine Zufallsvariable, die alle Effekte modelliert, die von einer Durchführung des Experiments zur nächsten schwanken, aber nicht durch Änderung von \(x\) erklärt werden können. Diese Störgrößen sind u.i.v. und zentriert. Erstes Ziel einer statistsichen Anlyse besteht darin, die Regressionsparameter \(\alpha\) und \(\beta\) zu schätzen.
In dieser zweiteiligen interaktiven Anwendung lernen Sie die Residuenquadratsumme als Maß für die Güte eines Regressionsmodells kennen. Zudem erkunden Sie, welche Auswirkungen die Veränderung der Daten auf das angepasste Modell haben kann.
Das gängige Maß dafür, wie gut eine Regressionsgerade den Zusammenhang der Varianblen beschreibt, ist die sogenannte Residuenquadratsumme. Dabei wird für jeden Datenpunkt \(P_k(x_k\mid y_k)\), \(k=1,\dots,8\), der vertikale quadratische Abstand zur Geraden ermittelt. Diesen definieren wir als \(\hat\varepsilon^2 :=\big( g(x_k)-y_k \big)^2\). Die Summe dieser Abstände für alle Punkte, also \( \text{SQR}:=\sum_{k=1}^{8}\hat\varepsilon^2 \) nennen wir die Residuenquadratsumme. Je kleiner dieser Wert ist, desto besser passen die Daten zur ausgewählten Geraden.
In der interaktiven Grafik weiter unten sind die Daten aus der obigen Tabelle eingezeichnet. Bedienen Sie nun diese Grafik. Die folgenden Aufgaben leiten Sie dabei an:
Aufgaben:
(a) Schätzen Sie die Parameter \(\alpha\) und
\(\beta\) der Regressionsgeraden \(g(x)=\alpha+\beta\cdot
x\) und geben Sie sie in die Eingabefelder ein. Nutzen Sie
dazu den
Zeichenmodus.
Hinweis: Achten Sie darauf, dass die vertikale Achse
nicht bei \(x=0\) eingezeichnet ist!
Wenn Sie den Zeichenmodus aktiviert und die Hilfsgerade gezeichnet haben, können Sie sie so verschieben, dass die Punkte möglichst gleichmäßig um sie herum verteilt sind. Dann können Sie die Steigung \(\beta\) und den y-Achsen-Abschnitt \(\alpha\) der Geraden mithilfe der Grafik schätzen.
(b) Nach dem Abschicken ist Ihre Gerade nun in der Abbildung zu sehen. Wie gut ist Ihre Schätzung? Betrachten Sie die Grafik und die Residuenquadratsummen, die Sie unter der Grafik sehen.
Liegen die aktuelle und die optimale Residuenquadratsumme nah bei einander, so ist Ihre Schätzung gut. Liegen die beiden weit auseinander, ist Ihre Schätzung weniger gut. Eine Orientierung bietet Ihnen auch die Farbe des Wertes der aktuellen Residuenquadratsumme: Ist der Wert rot, so liegt er recht weit von der optimalen Summe entfernt. Ist die Schrift gelb oder sogar grün, dann handelt es sich um eine bessere Schätzung.
(c) Nutzen Sie die Schieberegler, um Ihre Gerade zu
verändern und der optimalen Regressionsgeraden anzupassen.
Nutzen Sie die Residuenquadratsumme der optimalen Geraden
und Ihrer Geraden, die Sie unter der Abbildung finden.
Klicken Sie schließlich auf den Button „Optimale
Regressionsgerade anzeigen“ und vergleichen Sie Ihre
Gerade mit der nun erscheinenden optimalen
Regressionsgeraden.
\(\alpha=\)
\(\beta=\)
Aktuelle Residuenquadratsumme (Einheit: \(\text{kg}^2\)) =
Optimale Residuenquadratsumme (Einheit: \(\text{kg}^2\)) =
In dieser Grafik sehen Sie zehn zufällige Datenpunkte und eine zugehörige (optimale) Regressionsgerade, die sich durch Minimierung der Residuenquadratsumme ergibt. Sie können die Punkte verschieben und beobachten, wie sich die Regressionsgerade verändert. Bedienen Sie nun die interaktive Anwendung. Unten finden Sie Aufgaben, die Sie dabei anleiten.
Nutzen Sie den Gittermodus und die Funktion zum Stempeln der aktuell sichtbaren Geraden.
Gleichung der Regressionsgeraden: \(g(x)=\) \(\cdot x\)
Residuenquadratsumme =
Korrelationskoeffizient: \(r\) =
Aufgaben:
(a) Verschieben Sie die Punkte und beobachten
Sie, wie sich die Regressionsgerade verändert. Bei
welchen Punkten können Sie besonders große Veränderungen
beobachten? Bei welchen nicht?
Wie können Sie die Punkte verschieben, sodass sich die
Gerade stark verändert bzw. kaum verändert? Überlegen
Sie eine Erklärung dafür.
Zu Teil 1 der Fragestellung:
Zu Teil 2 der Fragestellung:
b) Stempeln Sie die aktuelle Gerade und erzeugen Sie dann einen Ausreißer, indem Sie einen Punkt recht weit von der Geraden weg bewegen. Beobachten Sie dabei die Änderung der Regressionsgeraden. Was fällt Ihnen auf?
(c) Verschieben Sie die Punkte so, dass für
den Korrelationskoeffizienten \(|r|\approx 0.5\)
gilt.
Welche Änderungen ergeben sich für die
Regressionsgerade? Sie können zum Ausprobieren die
Werkzeuge (Punkte auf Gerade setzen, Gittermodus,
...) aktivieren.