Dieses Kapitel behandelt die zweidimensionale deskriptive Datenanalyse. Diese fokussiert sich auf die Untersuchung das Zusammenhangs zweier Merkmale. Dazu führen wir zunächst die zweidimensionale Häufigkeitsverteilung ein und erklären das Konzept von statistisch unabhängigen oder abhängigen Merkmalen. Um die Stärke eines statistischen Zusammenhangs zu quantifizieren kann man Zusammenhangsmaße verwenden. Hierzu besprechen wir verschiedene Kontingenzmaße und Korrelationsmaße. Letztere beschreiben insbesondere die Stärke eines linearen Zusammenhangs zweier mindestens ordinal skalierter Merkmale. Für einen linearen Zusammenhang können wir schließlich ein einfaches lineares Regressionsmodell bestimmen. Begleitet wird das Kapitel von anschaulichen Beispielen und Aufgaben, die teilweise mit R bearbeitet werden können.
den Unterschied zwischen statistisch abhängigen und unabhängigen Merkmalen erklären.
verschiedene Zusammenhangsmaße zur Quantifizierung von Abhängigkeiten berechnen und interpretieren.
ein einfaches lineares Regressionsmodell anwenden und interpretieren.
den Unterschied zwischen Korrelation und Kausalität erläutern.
Hinweis: Die mit einem gekennzeichneten Aufgaben können Sie durch schriftliches Rechnen lösen. Die mit gekennzeichneten Aufgaben setzen Grundkenntnisse der Programmierung mit der statistischen Software R voraus. Sie können R hier installieren, falls Sie R nicht auf Ihrem Rechner installiert haben. Zusätzlich empfiehlt sich die Installation einer integrierten Entwicklungsumgebung (IDE), wie zum Beispiel RStudio. Alternativ zur Installation können Sie die Web-Version webR direkt im Browser verwenden.
1 Einführung
In den vorherigen Kapiteln dieser Lerneinheit haben wir stets die Stichprobe (x_1,\dots,x_n) eines einzelnen Merkmals X betrachtet und ihre Häufigkeitsverteilung untersucht. In statistischen Untersuchungen werden allerdings meist mehrere Merkmale gleichzeitig erfasst und untersucht.
Beispiel 1 (Befragung von 12 Personen)
Es wurden in einer Umfrage 12 Personen nach verschiedenen Merkmalen gefragt. Folgende Tabelle zeigt die Ergebnisse:
Gibt es zwischen auftretenden Merkmalen einen Zusammenhang bzw. Abhängigkeiten?
Abbildung 1: Links sehen wir eine Punktwolke, ohne strukturelle Auffälligkeiten. Dies deutet auf unabhängige Merkmale hin. Rechts sehen wir die generelle Struktur, dass je größer ein x-Wert ist, desto größer ist auch der entsprechende y-Wert. Hier scheint ein Zusammenhang zu bestehen.
Wie stark ist der Zusammenhang?
Abbildung 2: Links sehen wir einen schwachen Zusammenhang, mittig sehen wir einen starken Zusammenhang und rechts sehen wir einen exakten Zusammenhang.
Von welcher funktionalen Form ist der Zusammenhang?
Abbildung 3: Links sehen wir einen positiven linearen Zusammenhang, mittig sehen wir einen negativen linearen Zusammenhang mit einer flacheren Steigung und rechts sehen wir einen quadratischen Zusammenhang.
Anmerkung (Streudiagramm).
Die Grafiken, die oben verwendet wurden, sind sogenannte Streudiagramme (engl.: scatter plots). Mit ihnen lassen sich zweidimensionale Stichproben ((x_1, y_1),\dots, (x_n, y_n)) zweier kardinal skalierter Merkmale X und Y darstellen.
Grundsätzlich ist die Wahl der x- und y-Achse vertauschbar. Wenn wir allerdings einen gerichteten Zusammenhang vermuten, wird das erklärende Merkmal der x-Achse und das erklärte Merkmal der y-Achse zugeordnet.
In Beispiel 3 wird beispielhaft gezeigt, wie ein Streudiagramm mit R gezeichnet werden kann.
In diesem Kapitel beschränken wir uns auf die gemeinsame Analyse zweier Merkmale X und Y. Man kann auch sagen, wir untersuchen die bivariaten oder zweidimensionalen Daten, die zwei Merkmale (X, Y) erfassen. Diese Formulierung betont, dass jede Untersuchungseinheit mit beiden Merkmalen in der Stichprobe \left((x_1, y_1), \dots, (x_n, y_n)\right) vertreten ist.
Beispiel 2 (Fortsetzung: Befragung von 12 Personen)
Mit den multivariaten Daten der Umfrage von Beispiel 1, könnten wir nun z.B. untersuchen, ob es einen Zusammenhang zwischen Körpergröße und Geschlecht gibt.
Da wir noch keine Zusammenhangsmaße kennen, untersuchen wir den Zusammenhang erst einmal grafisch:
Beim Merkmal Geschlecht handelt es sich um ein nominales Merkmal mit zwei verschiedenen Ausprägungen. Wir können den Datensatz bzgl. dieser Merkmalsausprägungen teilen und erhalten zwei einzelne Datensätze, einmal mit den Männern und einmal mit den Frauen. Nun können wir das Merkmal Körpergröße beider Datensätze getrennt darstellen und die Ergebnisse vergleichen. Ist die Körpergröße unabhängig von dem Geschlecht, so sollten sich die Grafiken nicht oder nur kaum voneinander unterscheiden. Wir betrachten Boxplots und Histogramme:
Die Funktion boxplot() hat die Trennung der Daten nach einem nominalen Merkmal integriert, indem wir das Argument formula = y ~ x setzen, wobei y die Stichprobe des kardinalen Merkmals und x die Stichprobe des nominalen Merkmals ist.
boxplot( formula =data$groesse~data$geschlecht, xlab ="Geschlecht", ylab ="Körpergröße in cm")
par(mfrow =c(1, 2))hist(data$groesse[data$geschlecht=="m"], breaks =seq(150, 200, 10), main ="männlich", xlab ="Körpergröße in cm", ylab ="abs. Häufigkeit")hist(data$groesse[data$geschlecht=="w"], breaks =seq(150, 200, 10), main ="weiblich", xlab ="Körpergröße in cm", ylab ="abs. Häufigkeit")
Anhand beider grafischen Darstellungen können wir erkennen, dass sich die Häufigkeitsverteilungen bezüglich ihrer Lage unterscheiden und die Frauen in dieser Stichprobe im Mittel kleiner sind als die Männer. Auch die Streuung scheint sich zu unterscheiden. Dies können wir z.B. an den Boxgrößen der Boxplots erkennen. Auch mithilfe der Berechnung verschiedener Kennzahlen, wie z.B. das arithmetische Mittel und die empirische Varianz, hätten wir diese Unterschiede herausgefunden. Insgesamt deuten sie auf einen Zusammenhang der beiden Merkmale Körpergröße und Geschlecht in dieser Stichprobe hin.
⚠ Beachten Sie: Dieses und die nachfolgenden Beispiele sollen die Inhalte der Lerneinheit illustrieren. Damit die vorgestellten Kennzahlen per Hand berechenbar sind, ist die Stichprobengröße mit n = 12 sehr klein gewählt worden. In einer echten Datenanalyse sollte man bei einer so kleinen Stichprobe zusammen mit einer relativ großen Streuung der einzelnen Merkmale vorsichtig sein die Ergebnisse auf die Grundgesamtheit zu übertragen, da die Unterschiede durch die zufällige Wahl der Stichprobe zustande gekommen sein könnten.
Beispiel 3 (Fortsetzung: Befragung von 12 Personen)
Mit den multivariaten Daten der Umfrage von Beispiel 1, könnten wir ebenfalls untersuchen, ob das Körpergewicht mit der Körpergröße zusammenhängt.
Dieses Mal handelt es sich um zwei kardinal skalierte Merkmale. In diesem Fall können wir ein Streudiagramm zeichnen, um nach Abhängigkeiten zu suchen:
plot( x =data$groesse, y =data$gewicht, pch =16, xlab ="Körpergröße in cm", ylab ="Körpergewicht in kg")
Auf den ersten Blick lässt sich in dieser Stichprobe eine deutliche Struktur erkennen: Große Personen haben tendenziell ein höheres Gewicht als kleine Personen.
2 Zweidimensionale Häufigkeitsverteilung
Wie bei der eindimensionalen Häufigkeitsverteilung betrachten wir die absoluten oder relativen Häufigkeiten des Auftretens von Merkmalsausprägungen. Nun interessieren wir uns allerdings für das gemeinsame Auftreten von Merkmalsausprägungen der Merkmale X und Y.
Sei \left((x_1, y_1), \dots, (x_n, y_n)\right) die Stichprobe zweier gemeinsam beobachteter Merkmale (X, Y). Das Merkmal X besitze endlich viele Merkmalsausprägungen (MA) a_1,\dots, a_l und das Merkmal Y besitze ebenfalls endlich viele Merkmalsausprägungen b_1,\dots, b_k.
Dann bezeichnen wir mit \begin{align*}
H_{X, Y}(a_{j_1}, b_{j_2}) & = H_{j_1,j_2} = \#\{(x_i,y_i) \mid x_i = a_{j_1}, y_i = b_{j_2}\} \\
& = \text{Anzahl der Beobachtungen mit MA } (a_{j_1}, b_{j_2})
\end{align*} die absolute Häufigkeit der Kombination (a_{j_1}, b_{j_2}) in der gegebenen Stichprobe und mit \begin{align*}
h_{X,Y}(a_{j_1}, b_{j_2}) & = h_{j_1,j_2} = \frac{H_{j_1,j_2}}{n} \\
& = \text{Anteil der Beobachtungen mit MA } (a_{j_1}, b_{j_2})
\end{align*} die relative Häufigkeit der Kombination (a_{j_1}, b_{j_2}) in der gegebenen Stichprobe, wobei j_1 = 1,\dots,l und j_2 = 1,\dots, k.
Die Gesamtheit aller Kombinationen (a_{j_1}, b_{j_2}) mit den zugehörigen absoluten oder relativen Häufigkeiten heißt zweidimensionale Häufigkeitsverteilung.
Die zweidimensionale Häufigkeitsverteilung lässt sich in Form einer Häufigkeitstabelle darstellen:
Notation:H_{j_1, j_2} ist eine Abkürzung für H_{X, Y}(a_{j_1}, b_{j_2}). Sie wird verwendet, wenn bereits aus dem Kontext klar ist, dass von den Merkmalen X und Y mit den Ausprägungen a_{j_1} und b_{j_2} gesprochen wird.
Die Summe der j-ten Spalte wird mit H_{\cdot, j} notiert. Der Punkt \cdot im Index ist ein Platzhalter und verdeutlicht, dass wir über alle Ausprägungen des Merkmals X bzgl. der Ausprägung b_j des Merkmals Y aufsummieren. In der Literatur wird statt H_{\cdot, j} auch öfters n_{\cdot, j} geschrieben.
Analoges gilt auch für H_{j, \cdot}, die j-te Zeilensumme.
Notation:h_{j_1, j_2} ist eine Abkürzung für h_{X, Y}(a_{j_1}, b_{j_2}). Sie wird verwendet, wenn bereits aus dem Kontext klar ist, dass von den Merkmalen X und Y mit den Ausprägungen a_{j_1} und b_{j_2} gesprochen wird.
Die Summe der j-ten Spalte wird mit h_{\cdot, j} notiert. Der Punkt \cdot im Index ist ein Platzhalter und verdeutlicht, dass wir über alle Ausprägungen des Merkmals X bzgl. der Ausprägung b_j des Merkmals Y aufsummieren.
Analoges gilt auch für h_{j, \cdot}, die j-te Zeilensumme.
Die Summe aller absoluten Häufigkeiten ergibt die Stichprobengröße n, also \sum_{j_1 = 1}^l \sum_{j_2 = 1}^k H_{j_1,j_2} = n. und die Summe aller relativen Häufigkeiten ergibt 1, also \sum_{j_1 = 1}^l \sum_{j_2 = 1}^k h_{j_1,j_2} = 1.
Die Zeilen- bzw. Spaltensummen der absoluten Häufigkeiten H_{j_1,\cdot} = \sum_{j_2 = 1}^k H_{j_1, j_2} \quad \text{bzw.} \quad H_{\cdot, j_2} = \sum_{j_1 = 1}^l H_{j_1, j_2} entsprechen den absoluten Häufigkeiten des Merkmals X bzw. Y, d.h. H_{j_1,\cdot} = H_X(a_{j_1}) bzw. H_{\cdot, j_2} = H_Y(b_{j_2}). Analog gilt dies für die Zeilen- bzw. Spaltensummen der relativen Häufigkeiten, also h_{j_1,\cdot} = \sum_{j_2 = 1}^k h_{j_1, j_2} = h_X(a_{j_1}) \quad \text{bzw.} \quad h_{\cdot, j_2} = \sum_{j_1 = 1}^l h_{j_1, j_2} = h_Y(b_{j_2}). Die Verteilung eines einzelnen Merkmals wird dann auch Randverteilung genannt.
Merkmale mit sehr vielen Merkmalsausprägungen - wie z.B. stetige, kardinal skalierte Merkmale - klassieren wir zunächst und verwenden dann statt der Merkmalsausprägungen die Klassen, um die Häufigkeitstabelle zu berechnen.
Beispiel 4 (Fortsetzung: Befragung von 12 Personen)
Wir betrachten erneut den Datensatz aus Beispiel 1.
Die Häufigkeitstabellen der Merkmale Geschlecht und Blutgruppe lauten:
In R können wir die Funktion table() verwenden, um die Häufigkeitstabelle zu berechnen. fraction()aus dem Paket MASS verwenden wir für die Darstellung als Brüche:
Zum Klassieren des Merkmals verwenden wir die Funktion ceiling(). Diese rundet eine Zahl stets auf die nächst größere ganze Zahl auf. Wir erhalten die Klassen 1 bis 5, wobei Klasse 1 die Personen mit einer Körpergröße im Intervall [150, 160] (cm) enthält, Klasse 2 die Personen mit einer Körpergröße im Intervall (160, 161] (cm) enthält, usw.:
groesse_klassiert
1 2 3 4 5
m 0 0 1/4 1/6 1/12
w 1/12 1/4 1/12 1/12 0
Wie in den vorherigen Kapiteln verwenden wir in den folgenden Aufgaben, die wir mit der statistischen Software R bearbeiten den Datensatz penguins aus dem R-Paket palmerpenguins(Horst, Hill, und Gorman 2020). Dafür müssen wir das Paket palmerpenguins mit den Funktionen install.packages() und library() installieren und laden.
Aufgabe 1
Betrachten Sie den Datensatz penguins aus dem R-Paket palmerpenguins. Berechnen Sie die zweidimesionalen Häufigkeitstabellen der relativen Häufigkeiten bzgl. der Pinguinarten (species) und Inseln (island) und beschreiben Sie Ihre Ergebnisse.
Zur Erstellung der Häufigkeitstabelle können Sie die Funktion table verwenden.
Mithilfe der Funktion fractions() aus dem R-Paket MASS lassen sich Dezimalzahlen als Brüche darstellen.
Bedingte Häufigkeitsverteilung
Oft fragen wir uns bei gemeinsam beobachteten Merkmalen (X, Y) auch, wie die Verteilung eines Merkmals X aussieht gegeben, dass das andere Merkmal Y eine bestimmte Ausprägung b annimmt. Wir reduzieren also die ursprüngliche Stichprobe \left((x_1, y_1), \dots, (x_n, y_n)\right) auf die Beobachtungen, deren y-Werte gleich b sind, und erhalten (nach Umsortierung) eine Teilstichprobe \left((x_1, b), \dots, (x_{H_Y(b)}, b)\right), deren absoluten oder relativen Häufigkeiten wir nun berechnen.
Die absoluten und relativen Häufigkeiten der bedingte Häufigkeitsverteilung vonX gegeben Y = b sind dann H_{X \mid Y = \,b}(a_{j}) = H_{X,Y}(a_{j}, b) \tag{1} und h_{X \mid Y = \, b}(a_{j}) = \frac{H_{X,Y}(a_{j}, b)}{H_Y(b)} = \frac{h_{X, Y}(a_j, b)}{h_Y(b)}. \tag{2}
Notation: Der vertikale Strich | verdeutlicht, dass alles, was rechts von diesem steht, zur vorausgesetzten Situation, also zur Bedingung gehört.
Beispiel 5 (Fortsetzung: Befragung von 12 Personen)
Wir betrachten erneut den Datensatz aus Beispiel 1.
Die bedingten Häufigkeiten des Merkmals Blutgruppe, gegeben, dass das Geschlecht weiblich ist, lauten:
Vergleichen wir diese eindimensionale Häufigkeitstabelle der absoluten Häufigkeiten mit der zweidimensionalen Häufigkeitstabelle aus Beispiel 4, so sehen wir, dass sie identisch mit der entsprechenden Zeile der Frauen ist.
Bsp.: Die Anzahl aller Personen, die weiblich sind und Blutgruppe A haben, ist H_{X,Y}(\text{A}, \text{w}) = 2 und ist identisch mit der Anzahl der weiblichen Person, die Blutgruppe A haben, H_{X \mid Y = \text{ w}}(\text{A}) = 2.
h_{X \mid Y = \text{ w}}
A
B
AB
0
\sum
w
1/3
1/6
1/6
1/3
1
Vergleichen wir diese eindimensionale Häufigkeitstabelle der relativen Häufigkeiten mit der zweidimensionalen Häufigkeitstabelle aus Beispiel 4, so sehen wir, dass diese voneinander abweichen. Dies liegt daran, dass bei alleiniger Betrachtung der Frauen sich die Stichprobengröße von ursprünglich 12 auf 6 reduziert. Daher ist nun die Zeilensumme gleich 1.
Bsp.: h_{X, Y}(\text{A}, \text{w}) = \frac{1}{6} ist der Anteil aller 12 Personen, die weiblich sind und Blutgruppe A haben, während h_{X \mid Y = \text{ w}}(\text{A}) = \frac{1}{3} der Anteil der 6 weiblichen Personen ist, die Blutgruppe A haben.
Aufgabe 2
Wir betrachten die Merkmale Pinguinart (species) und Insel (island) des Datensatzes penguins aus dem R-Paket palmerpenguins. Folgende Tabelle zeigt die absoluten Häufigkeiten bzgl. beider Merkmale:
Nutzen Sie die Tabelle, um folgende Aufgaben zu lösen:
Wie viele Pinguine sind insgesamt im Datensatz enthalten?
Geben Sie die relativen Häufigkeiten der drei Pinguinarten über alle Inseln hinweg an.
Wir betrachten nun nur noch die Insel Biscoe. Geben Sie die bedingten relativen Häufigkeiten der Pinguinarten an.
3 Unabhängigkeit zweier Merkmale und Kontingenzmaße
Sind die Merkmale Geschlecht und Blutgruppeunabhängig voneinander, dann gibt uns das Wissen, dass eine bestimmte Person weiblich oder männlich ist, keine zusätzliche Information darüber, welche Blutgruppe sie besitzt. Im Gegensatz dazu schätzen wir die Körpergröße einer Person höher ein, wenn wir wissen, dass diese männlich ist, da bekannt ist, dass Männer im Schnitt größer sind als Frauen. Die Merkmale Körpergröße und Geschlecht sind also nicht unabhängig, sondern hängen voneinander ab.
Mithilfe der bedingten Häufigkeiten können wir uns nun überlegen, was es mathematisch bedeutet, wenn zwei Merkmale X und Yin der Stichprobe unabhängig sind. In diesem Fall soll die Verteilung von X nicht vom Wert des Merkmals Y beeinflusst werden (und andersherum).
Definition 2 (Unabhängigkeit)
Das Merkmal X ist vom Merkmal Yin der Stichprobe unabhängig, wenn die bedingten Verteilungen von X gegeben Y = b_{j_2} für alle j_2 = 1,\dots, k gleich der unbedingten Verteilung von X sind, d.h.: h_{X \mid Y = \, b_{j_2}}(a_{j_1}) = h_X(a_{j_1}), \tag{3} für alle j_1 = 1, \dots, l und j_2 = 1, \dots, k.
Bemerkungen:
Unabhängigkeit ist eine symmetrische Eigenschaft. Das bedeutet, wenn X von Y unabhängig ist, so ist auch Y von X unabhängig.
Sind zwei Merkmale nicht unabhängig, so sagen wir, dass sie voneinander abhängen.
Theorem 1
Sei ((x_1, y_1), \dots, (x_n, y_n)) die Stichprobe zweier gemeinsam beobachteter Merkmale (X, Y), die voneinander unabhängig sind, sodass Gleichung 3 aus Definition 2 gilt.
Dann gilt auch h_{X,Y}(a_{j_1}, b_{j_2}) = h_X(a_{j_1}) \cdot h_Y(b_{j_2}), \tag{4} sowie H_{X,Y}(a_{j_1}, b_{j_2}) = \frac{H_X(a_{j_1}) \cdot H_Y(b_{j_2})}{n} , \tag{5} für alle j_1 = 1, \dots, l und j_2 = 1, \dots, k.
Beweis. Wegen Gleichung 2 zur bedingten Häufigkeit und wegen Gleichung 3 aus Definition 2 zur Unabhängigkeit, die wir hier voraussetzen, wissen wir, dass \dfrac{H_{X,Y}(a_{j_1}, b_{j_2})}{H_Y(b_{j_2})} = h_{X \mid Y = b_{j_2}}(a_{j_1}) = h_X(a_{j_1}) für beliebige Merkmalsausprägungen a_{j_1} und b_{j_2} gilt. Insgesamt folgt dann \begin{align*}h_{X,Y}(a_{j_1}, b_{j_2})
&= \dfrac{H_{X,Y}(a_{j_1}, b_{j_2})}{n}
= \dfrac{H_{X,Y}(a_{j_1}, b_{j_2})}{H_Y(b_{j_2})} \cdot \dfrac{H_{Y}( b_{j_2})}{n} \\
&= h_X(a_{j_1}) \cdot h_Y(b_{j_2}).\end{align*} Daraus ergibt sich mittels Definition 1\begin{align*}
H_{X,Y}(a_{j_1}, b_{j_2})
&= n \cdot h_{X,Y}(a_{j_1}, b_{j_2})
= n \cdot h_X(a_{j_1}) \cdot h_Y(b_{j_2}) \\
&= n \cdot \dfrac{H_X(a_{j_1})}{n} \cdot \dfrac{H_Y(b_{j_2})}{n}
= \dfrac{H_X(a_{j_1}) \cdot H_Y(b_{j_2})}{n}.n
\end{align*}
Beispiel 6 (Fortsetzung: Befragung von 12 Personen)
Wir betrachten erneut den Datensatz aus Beispiel 1.
Wir untersuchen nun, ob das Merkmal Geschlecht und das Merkmal Händigkeit in unserer Stichprobe unabhängig sind. Dazu betrachten wir die zugehörige absolute Häufigkeitstabelle:
H_{X,Y}
links
rechts
\sum
m
1
5
6
w
1
5
6
\sum
2
10
12
Mit einem geübten Auge sieht man schnell, dass die bedingte Häufigkeitsverteilungen des Merkmals Händigkeit gegeben, dass das Geschlecht männlich bzw. weiblich ist, und somit auch mit der Randverteilung des Merkmals Händigkeit übereinstimmen. Hierbei hilft es, dass in der Stichprobe gleich viele Frauen und Männer enthalten sind.
Wir können aber auch formal nachrechnen:
\begin{align*}
h_{X \mid Y = \text{w}}(\text{links}) &= h_{X \mid Y = \text{m}}(\text{links}) &= \frac{1}{6} = \frac{2}{12} &= h_X(\text{links}) \\
h_{X \mid Y = \text{w}}(\text{rechts}) &= h_{X \mid Y = \text{m}}(\text{rechts}) &= \frac{5}{6} = \frac{10}{12} &= h_X(\text{rechts}).
\end{align*}
Die Gleichung 3 aus Definition 2 ist also für alle Merkmalsausprägungen (weiblich, männlich sowie Linkshänder, Rechtshänder) erfüllt und es gilt, dass die Merkmale Geschlecht und Händigkeit in dieser Stichprobe unabhängig sind.
In der Realität werden zwei Merkmale aufgrund zufälliger Schwankungen einer Stichprobe selten die Unabhängigkeitsbedingung aus Definition 2 exakt erfüllen. Bei der Überprüfung der Unabhängigkeit begnügen wir uns daher damit, dass die Abweichungen zwischen den gemeinsamen Häufigkeiten und den unter Unabhängigkeit erwarteten gemeinsamen Häufigkeiten nicht zu groß sind. Diese leiten sich aus Gleichung 4 und Gleichung 5 aus Theorem 1 ab:
Sei ((x_1, y_1), \dots, (x_n, y_n)) die Stichprobe zweier gemeinsam beobachteter Merkmale (X, Y). Dann bezeichnen wir mit \tilde{H}_{X, Y}(a_{j_1}, b_{j_2}) = \dfrac{H_X(a_{j_1}) \cdot H_Y(b_{j_2})}{n} die unter Unabhängigkeit erwarteten absoluten Häufigkeiten der Kombination (a_{j_1}, b_{j_2}) in der gegebenen Stichprobe und mit \tilde{h}(a_{j_1}, b_{j_2}) = \dfrac{\tilde{H}_{X, Y}(a_{j_1}, b_{j_2})}{n} = h_X(a_{j_1}) \cdot h_Y(b_{j_2}) die unter Unabhängigkeit erwarteten relativen Häufigkeiten der Kombination (a_{j_1}, b_{j_2}) in der gegebenen Stichprobe, wobei j_1 = 1, \dots, l und j_2 = 1, \dots, k.
Beispiel 7 (Fortsetzung: Befragung von 12 Personen)
Wir betrachten erneut den Datensatz aus Beispiel 1.
Die unter Unabhängigkeit erwarteten gemeinsamen Häufigkeiten der Merkmale Geschlecht und Blutgruppe lauten:
Interpretation: Wir betrachten beispielhaft den ersten Eintrag \tilde{H}_{X,Y}(\text{A}, \text{m}). Wenn in einer Stichprobe mit 12 Personen 6 Personen männlich sind und 5 Personen Blutgruppe A besitzen, dann erwarten wir, wenn die Merkmale unabhängig voneinander sind, dass \frac{5 \cdot 6}{12} = 2.5 Personen sowohl männlich sind als auch Blutgruppe A haben.
\tilde{h}_{X,Y}
A
B
AB
0
\sum
m
5/24
1/12
1/24
1/6
1/2
w
5/24
1/12
1/24
1/6
1/2
\sum
5/12
1/6
1/12
1/3
1
Interpretation: Wir betrachten beispielhaft den ersten Eintrag \tilde{h}_{X,Y}(\text{A}, \text{m}). Wenn in einer Stichprobe die Hälfte aller Personen männlich sind und 5/12 aller Personen Blutgruppe A besitzen, dann erwarten wir, wenn die Merkmale unabhängig voneinander sind, dass \frac{5}{12} \cdot \frac{1}{2} = \frac{5}{24} aller Personen sowohl männlich sind als auch Blutgruppe A haben.
Bemerkungen:
Die Zeilen- und Spaltensummen stimmen mit den Zeilen- und Spaltensummen der Häufigkeitstabellen aus Beispiel 4 stets überein. Die Randverteilungen bleiben also gleich.
Anhand dieses Beispiels können wir sehen, dass die erwarteten Häufigkeiten in der Realität nicht unbedingt erfüllt werden können, da es keine halben Personen, also Untersuchungseinheiten, gibt.
In unserer Stichprobe gibt es gleich viele weibliche wie männliche Personen. Daher erwarten wir, dass beide Geschlechter bzgl. jeder Ausprägung oder Klasse gleich oft vorkommen, wenn das Merkmal Blutgruppe unabhängig vom Geschlecht ist. Wenn also insgesamt 4 Personen Blutgruppe AB haben, dann erwarten wir unter Unabhängigkeit, dass 2 der 4 Personen männlich und 2 der 4 Personen weiblich sind, weil beide Geschlechter gleich oft in der Stichprobe vorkommen.
Aufgabe 3
Betrachten Sie den Datensatz penguins aus dem R-Paket palmerpenguins. Berechnen Sie die unter Unabhängigkeit erwarteten absoluten und relativen Häufigkeiten der Merkmale Pinguinart (species) und Insel (island) und vergleichen Sie diese mit der Häufigkeitstabelle aus Aufgabe 2.
Finden Sie heraus, wie Ihnen die Funktion outer() bei der Berechnung helfen kann.
Kontingenzmaße
Nun stellen wir verschiedene Zusammenhangsmaße vor, die die Stärke des Zusammenhangs anhand der Differenz zwischen der unter Unabhängigkeit erwarteten gemeinsamen Häufigkeiten und den tatsächlich beobachteten Häufigkeiten quantifizieren. Dabei nehmen diese Maße bei vollständiger Unabhängigkeit den Wert Null und bei vollständiger Abhängigkeit einen maximalen Wert an und basieren alle auf der quadratischen Kontingenz\chi^2:
Definition 4 (Quadratische Kontingenz)
Die quadratische Kontingenz ist gegeben durch \chi^2 = \sum_{j_1 = 1}^l \sum_{j_2 = 1}^k \frac{(H_{X,Y}(a_{j_1}, b_{j_2}) - \tilde{H}_{X,Y}(a_{j_1}, b_{j_2}))^2}{\tilde{H}_{X,Y}(a_{j_1}, b_{j_2})}, mit H_{X,Y}(a_{j_1}, b_{j_2}) die beobachteten Häufigkeiten und \tilde{H}_{X,Y}(a_{j_1}, b_{j_2}) die unter Unabhängigkeit erwarteten Häufigkeiten von (X,Y).
Bemerkungen:
Bei vollständiger Unabhängigkeit, also wenn Gleichung 3 aus Definition 2 erfüllt wird, gilt H_{X,Y}(a_{j_1}, b_{j_2}) = \tilde{H}_{X,Y}(a_{j_1}, b_{j_2}) für alle j_1 = 1, \dots, l und j_2 = 1, \dots, k, und somit \chi^2 = 0. Je stärker ein Zusammenhang ist, desto größer wird \chi^2.
Die quadratische Kontingenz \chi^2 ist eine wichtige Größe in der induktiven Statistik und tritt z.B. als Teststatistik beim \chi^2-Unabhängigkeitstest auf.
Allerdings hängt \chi^2 von der Stichprobengröße n ab, sodass sein Wert mit wachsender Stichprobengröße auch bei gleichbleibender Abhängigkeitsstärke wächst. Zusätzlich hängt \chi^2 auch von der Anzahl der möglichen Ausprägungen l und k ab, sodass wir zwei quadratische Kontingenzen, die bzgl. eines Datensatzes und verschiedener Merkmalen berechnet werden, nicht miteinander vergleichen können.
Beispiel 8 (Fortsetzung: Befragung von 12 Personen)
Wir betrachten erneut den Datensatz aus Beispiel 1.
Wir berechnen nun in mehreren Schritten die quadratische Kontingenz \chi^2. Hierzu verwenden wir die Ergebnisse aus Beispiel 4 und Beispiel 7.
Bei beiden Beispielen weicht die quadratische Kontingenz von Null ab. Leider können wir noch nichts über die Stärke des Zusammenhangs sagen, da wir nicht wissen, wie groß der Wert von \chi^2 werden kann. Wir können also ohne Referenz zum maximal möglichen Wert nicht einschätzen, ob 1.2 bzw. 6.3 weit von der Null entfernt liegen, oder nicht. Außerdem können wir auch nicht daraus schließen, dass zwischen Körpergröße und Geschlecht eine stärkere Abhängigkeit besteht als zwischen Blutgruppe und Geschlecht, da sich die maximalen Werte von \chi^2 für unterschiedliche Merkmalskombinationen unterscheiden können. Aus diesem Grund gibt es einige Modifikationen dieser statistischen Größe:
Cramérs Kontingenzmaß skaliert den Phi-Koeffizienten derart, dass die Werte stets im Intervall [0, 1] liegen. Analog tut dies die Korrektur des Pearsons Kontingenzmaß. Aus diesem Grund sind diese beiden Maße zu bevorzugen.
Da Cramérs Kontingenzmaß und das korrigierte Kontingenzmaß nach Pearson stets Werte im Intervall [0, 1] annehmen, lassen sich sowohl die Ergebnisse verschiedener Merkmalskombinationen eines Zusammenhangmaßes als auch die Ergebnisse einer Merkmalskombination beider Zusammenhangsmaße miteinander vergleichen.
Beispiel 9 (Fortsetzung: Befragung von 12 Personen)
Wir betrachten erneut den Datensatz aus Beispiel 1.
Wir berechnen nun die in Definition 5 eingeführten Kontingenzmaße für die Merkmale Blutgruppe und Geschlecht und verwenden dazu die in Beispiel 8 berechnete quadratische Kontingenz:
Da \min(l, k) - 1 = \min(4, 2) - 1 = 1 gilt, wäre der größte Wert, den \Phi annehmen könnte, 1. Deshalb stimmen der Phi-Koeffizient \Phi und Cramérs Kontingenzmaß K_C schon überein:
Da \min(l, k) = \min(4, 2) = 2 und \min(l, k) - 1 = \min(4, 2) - 1 = 1, wäre der größte Wert, den K_P annehmen könnte, \sqrt{\frac{1}{2}} \approx 0.707. Die Korrektur skaliert das Maß derart, dass die Werte im Intervall [0, 1] liegen:
Da \min(l, k) = \min(4, 2) = 2 und \min(l, k) - 1 = \min(4, 2) - 1 = 1, wäre der größte Wert, den K_P annehmen könnte, \sqrt{\frac{1}{2}} \approx 0.707. Die Korrektur skaliert das Maß derart, dass die Werte im Intervall [0, 1] liegen:
Anhand dieses Beispiels sehen wir, dass sich die Ergebnisse der verschiedenen Kontingenzmaße unterscheiden. Insgesamt sind sie sich einig, dass der Zusammenhang zwischen Geschlecht und Blutgruppe deutlich kleiner ist als der Zusammenhang zwischen Geschlecht und Körpergröße.
Weiter sei hier angemerkt, dass unsere Stichprobengröße mit n = 12 sehr klein ist und es daher schwierig ist verlässliche Aussagen zu treffen.
Aufgabe 4
Betrachten Sie den Datensatz penguins aus dem R-Paket palmerpenguins. Berechnen Sie die quadratische Kontingenz, Cramérs Kontingenzmaß und das korrigierte Kontingenzmaß nach Pearson für die Merkmale Pinguinart (species) und Insel (island) und interpretieren Sie Ihr Ergebnis.
Sie können eine Internetrecherche durchführen, um eine Funktion zu finden, die die quadratische Kontingenz berechnet.
Alternativ verwenden Sie die Häufigkeitstabelle aus Aufgabe 2 und Ihre Ergebnisse aus Aufgabe 3 zur Berechnung der quadratischen Kontingenz.
Die in Definition 5 vorgestellten Kontingenzmaße, auch Assoziationsmaße genannt, eignen sich zur Messung des Zusammenhangs zweier nominaler Merkmale.
Sie können - ggf. nach Klassieren - auch für ordinale und kardinale Merkmale verwendet werden. Dann werden allerdings nicht alle Informationen wie z.B. die Ordnung der Merkmalsausprägungen ausgenutzt. Im nächsten Abschnitt beschäftigen wir uns daher nun speziell mit der Analyse von zwei kardinal skalierten Merkmalen.
4 Korrelations- und Regressionsrechnung
Seien X und Y nun also zwei kardinal skalierte Merkmale mit gemeinsamer Stichprobe \left((x_1, y_1), \dots, (x_n, y_n)\right). Um einen ersten Eindruck vom Zusammenhang der beiden Merkmale zu erhalten, können wir uns das zugehörige Streudiagramm ansehen.
Abbildung 4: Links sehen wir eine Punktwolke ohne strukturelle Auffälligkeiten. Dies deutet auf unabhängige Merkmale hin. In der Mitte und rechts sehen wir die generelle Strukter, dass je größer ein x-Wert ist, desto größer ist auch der entsprechende y-Wert. Hier scheint ein Zusammenhang zu bestehen. Dieser ist im mittleren Streudiagramm stärker ausgeprägt als im rechten Streudiagramm.
Können wir in der Grafik eine Struktur erkennen, so deutet dies auf einen Zusammenhang der beiden Merkmale hin. Sehen wir hingegen lediglich eine unstrukturierte Punktwolke, so vermuten wir Unabhängigkeit.
In diesem Kapitel beschränken wir uns nun auf einen speziellen und einfachen Typ des Zusammenhangs: den linearen Zusammenhang. Das bedeutet, dass eine Gerade die Form des Zusammenhangs beschreibt. Wir können hier noch einmal zwischen zwei Arten unterscheiden:
ein positiver (linearer) Zusammenhang: Je größer die Beobachtungen des Merkmals X sind, desto größer sind auch die Beobachtungen des Merkmals Y (siehe Abbildung 5 links).
ein negativer (linearer) Zusammenhang: Je größer die Beobachtungen des Merkmals X sind, desto kleiner sind auch die Beobachtungen des Merkmals Y (siehe Abbildung 5 rechts).
Abbildung 5: Zwei Streudiagramme, die einen positiven (links) und einen negativen (rechts) linearen Zusammenhang zeigen. Zur Verdeutlichung wurde jeweils eine Gerade eingezeichnet, die die Art des Zusammenhangs veranschaulicht.
Anmerkung.
Beachten Sie, dass wir hier stets von einem statistischen Zusammenhang reden. Das bedeutet, dass es z.B. auch zwei Beobachtungen (x_1, y_1) und (x_2, y_2) geben kann, bei denen x_1 < x_2 aber y_1 > y_2 ist, obwohl ein positiver Zusammenhang vorliegt. Für die meisten Beobachtungspaare gilt aber, dass große x-Werte gemeinsam mit großen y-Werten und kleine x-Werte gemeinsam mit kleinen y-Werten auftreten.
In den nächsten zwei Abschnitten beschäftigen wir uns damit die Stärke und Form des linearen Zusammenhangs zu bestimmen.
Um die Stärke und Richtung (positiv oder negativ) eines linearen Zusammenhangs zu ermitteln, können wir sogenannte Korrelationskoeffizienten berechnen. Dies sind Zusammenhangsmaße für mindestens ordinal skalierte Merkmale.
Um die Form eines linearen Zusammenhangs zu ermitteln, also die Steigung und Lage der beschreibenden Gerade, so verwenden wir die einfachste Form der linearen Regression, die einfache lineare Regression. Diese beschreibt den statistischen Einfluss eines erklärenden Merkmals X (auch Einflussgröße genannt) auf ein weiteres Merkmal Y (auch Zielgröße genannt).
Eine Erweiterung der einfachen linearen Regression ist die multiple lineare Regression. Dort sind mehrere Einflussgrößen X_1, \dots X_k zur Beschreibung der Zielgröße Y erlaubt. Mehr Informationen dazu und zu weiteren Regressionmodellen finden Sie z.B. in Fahrmeir, Kneib, und Lang (2009).
4.1 Korrelationsrechnung
Eine erste Maßzahl für die Stärke eines linearen Zusammenhangs zweier Merkmale ist die (korrigierte) empirische Kovarianz:
Definition 6 (Empirische Kovarianz)
Die (korrigierte) empirische Kovarianz zweier kardinal skalierter Merkmale X und Y mit einer Stichprobe \left((x_1, y_1), \dots, (x_n, y_n)\right) ist gegeben durch s_{x,y} = \frac{1}{n - 1} \sum_{i=1}^n \left(x_i - \bar{x}\right)\left(y_i - \bar{y}\right), wobei \bar{x} und \bar{y} die arithmetischen Mittel der beiden Merkmale sind.
Die unkorrigierte empirische Kovarianz\tilde{s}_{x,y} unterscheidet sich von s_{x,y} durch den Vorfaktor \frac{1}{n} statt \frac{1}{n-1}.
Erklärung zur Konstruktion des Maßes:
Wir betrachten ein Streudiagramm und teilen es in vier Quadranten ein, wobei die Grenze durch die arithmetischen Mittel \bar{x} und \bar{y} bestimmt werden (siehe Abbildung 6).
Liegen nun mehr Punkte in den Quadranten I und III, so weist dies auf einen positiven Zusammenhang hin. Liegt die Mehrheit der Punkte in den Quadranten II und IV, so weist dies auf einen negativen Zusammenhang hin.
Abbildung 6: Ein in 4 Quadranten eingeteiltes Streudiagramm zur Veranschaulichung.
Die obige Betrachtung berücksichtigt noch nicht, wie weit ein Punkt (x_i, y_i) von den Quadrantengrenzen entfernt liegt. Dies messen wir über die signierte Fläche \pi_i = \left(x_i - \bar{x}\right)\left(y_i - \bar{y}\right) des Rechteckes mit den Eckpunkten (\bar{x}, \bar{y}) und (x_i, y_i) (siehe Abbildung 7).
Abbildung 7: Ein in 4 Quadranten eingeteiltes Streudiagramm mit zwei eingezeichneten signierten Flächen zur Veranschaulichung.
Liegt Punkt (x_i, y_i) im Quadranten I oder III, so ist das Vorzeichen von \pi_i positiv.
Liegt Punkt (x_i, y_i) im Quadranten II oder IV, so ist das Vorzeichen von \pi_i negativ.
Für Punkte nahe zu einer Grenze des Quandranten ist die Fläche nahe bei 0.
Wenn also alle Beobachtungen gleichmäßig in den vier Quadranten verteilt liegen, so heben sich die signierten Flächeninhalte \pi_i beim Summieren gegenseitig auf und wir erhalten s_{x,y} = \frac{1}{n} \sum_{i = 1}^n \pi_i \approx 0. Liegt die Mehrheit der Punkte dagegen in den Quadranten I und III, so ist in der Regel der aufsummierte Flächeninhalt dieser Punkte größer als der aufsummierte Flächeninhalt der restlichen Punkte, sodass wir s_{x,y} > 0 erhalten und analog für den Fall, dass die meisten Punkte in den Quadranten II und IV liegen, entsprechend s_{x,y} < 0.
Bemerkungen:
Zur Berechnung der empirischen Kovarianz ist die folgende Umformung oft hilfreich:
\sum_{i = 1}^n (x_i - \bar{x})(y_i-\bar{y}) = n \, \overline{xy} - n \, \bar{x}\bar{y},
\tag{6} wobei \overline{xy} = \frac{1}{n}\sum_{i = 1}^n x_i \, y_i bezeichnet.
Die Kovarianz hat die günstigen Eigenschaften, dass
wenn s_{x, y} \approx 0, kein Hinweis auf einen linearer Zusammenhang zwischen X und Y besteht,
wenn s_{x, y} > 0, ein Hinweis auf einen positiven linearen Zusammenhang besteht,
wenn s_{x, y} < 0, ein Hinweis auf einen negativen linearen Zusammenhang besteht.
Allerdings kann die Kovarianz beliebig groß werden, da sie von der Skala der Merkmale abhängt. Es ist daher schwierig die Stärke des Zusammenhangs zu beziffern. Wir normieren also die Kovarianz, sodass die Werte stets in einem Intervall zwischen -1 und 1 liegen, und erhalten so den Korrelationskoeffizienten nach Pearson, auch empirischer Korrelationskoeffizient genannt:
Die Bedingung, dass s_x > 0 und s_y > 0 gelten soll, ist notwendig, damit der Nenner der obigen Gleichung nicht Null wird. Allerdings tritt s_x = 0 nur genau dann auf, wenn alle Beobachtungen bzgl. X die gleiche Merkmalsausprägung einnehmen, also x_1 = \ldots = x_n = \bar{x} gilt. In diesem Fall gilt aber auch schon s_{x,y} = 0. Analog gilt dies für s_y.
Die Empirische Korrelation zweier kardinal skalierter Merkmale X und Y mit einer Stichprobe \left((x_1, y_1), \dots, (x_n, y_n)\right) und sowohl s_x > 0 als auch s_y > 0 ist gegeben durch r_{x,y} = \frac{s_{x,y}}{s_x \cdot s_y} = \frac{\sum_{i=1}^n \left(x_i - \bar{x}\right)\left(y_i - \bar{y}\right)}{\sqrt{\sum_{i=1}^n \left(x_i - \bar{x}\right)^2} \, \sqrt{\sum_{i=1}^n \left(y_i - \bar{y}\right)^2}}, wobei s_x und s_y die empirischen Standardabweichungen der beiden Merkmale sind.
Eigenschaften des Korrelationskoeffizienten:
-1 \le r_{x, y} \le 1, wobei
r_{x,y} < 0 auf einen negativen linearen Zusammenhang,
r_{x,y} > 0 auf einen positiven linearen Zusammenhang,
\vert r_{x,y} \vert = 1 auf einen exakten linearen Zusammenhang der Form y_i = \alpha + \beta x_i für alle i = 1, \dots, n
r_{x,y} = 0 auf keinen linearen Zusammenhang hinweist.
r_{x,y} = 0 bedeutet nicht automatisch, dass es gar keinen Zusammenhang zwischen X und Y gibt.
Um besser zu verstehen, dass der Korrelationskoeffizient nicht jede Form von Abhängigkeit erkennen kann, betrachten wir noch einige Streudiagramme zusammen mit den zugehörigen Werten des Korrelationskoeffizienten:
Abbildung 8: Vier Streudiagramme, die verschiedene Abhängigkeitsstrukturen zeigen, zusammen mit den berechneten empirischen Korrelationskoeffizenten.
Wir können sehen, dass der empirische Korrelationskoeffizient insbesondere nicht-monotone Zusammenhänge kaum erkennt (Abbildung 8 unten) selbst wenn dieser exakt ist (Abbildung 8 unten rechts). Aber auch ein exakter monotoner, aber nicht-linearer Zusammenhang (Abbildung 8 oben rechts) wird schlechter erkannt als ein im Vergleich schwächerer linearer Zusammenhang (Abbildung 8 oben links).
Beispiel 10 (Fortsetzung: Befragung von 12 Personen) Wir betrachten erneut den Datensatz aus Beispiel 1.
In Beispiel 3 haben wir bereits ein Streudiagramm der Körpergröße (Merkmal X) und des Körpergewichts (Merkmal Y) betrachtet und konnten einen linearen Zusammenhang erkennen. Nun quantifizieren wir die Stärke dieses Zusammenhangs mithilfe des empirischen Korrelationskoeffizienten. Die einzelnen Schritte sind in der folgenden Tabelle aufgeschrieben:
\boldsymbol{i}
\boldsymbol{x_i}
\boldsymbol{(x_i-\bar{x})}
\boldsymbol{(x_i-\bar{x})^2}
\boldsymbol{y_i}
\boldsymbol{(y_i-\bar{y})}
\boldsymbol{(y_i-\bar{y})^2}
\boldsymbol{(x_i-\bar{x})(y_i-\bar{y})}
1
170.5
-4.125
17.016
62.2
-8.55
73.103
35.269
2
183.0
8.375
70.141
75.1
4.35
18.922
36.431
3
174.5
-0.125
0.016
62.6
-8.15
66.422
1.019
4
158.0
-16.625
276.391
46.6
-24.15
583.222
401.494
5
167.5
-7.125
50.766
69.9
-0.85
0.722
6.056
6
179.5
4.875
23.766
79.4
8.65
74.823
42.169
7
192.0
17.375
301.891
90.9
20.15
1406.023
350.106
8
177.5
2.875
8.266
80.6
9.85
97.022
28.319
9
186.5
11.875
141.016
86.5
15.75
248.062
187.031
10
161.5
-13.125
172.266
53.9
-16.85
283.923
221.156
11
181.0
6.375
40.641
83.8
13.05
170.302
83.194
12
164.0
-10.625
112.891
57.5
-13.25
175.562
140.781
\boldsymbol{\sum}
2095.5
0.0
1215.067
849.0
0.0
2198.107
1533.025
Aus der zweiten und fünften Spaltensummen lassen sich die arithmetischen Mittel von X und Y ableiten: \begin{align*}
\bar{x} &= \frac{2095.5}{12} = 174.625 \\
\bar{y} &= \frac{849.0}{12} = 70.75
\end{align*} Mithilfe der letzten Spaltensumme lässt sich die korrigierte empirische Kovarianz berechnen: s_{x,y} = \frac{1533.025}{12-1} = 139.366 Mithilfe der vierten und siebten Spaltensummen lassen sich die empirischen Standardabweichungen berechnen: \begin{align*}
s_{x} &= \sqrt{\frac{1215.067}{12-1}} = 10.510 \\
s_y &= \sqrt{\frac{2198.107}{12-1}} = 14.136
\end{align*} Insgesamt erhalten wir den Korrelationskoeffizienten r_{x,y} = \frac{s_{x,y}}{s_x \cdot s_y} = \frac{139.366}{10.510 \cdot 14.136} = 0.938. Es besteht also eine starke positive Korrelation zwischen Körpergröße und Körpergewicht.
In R können wir die empirische Kovarianz mithilfe der Funktion cov() und den empirischen Korrelationskoeffizienten mit der Funktion cor() berechnen:
Ein weiterer Korrelationskoeffizient ist der Rangkorrelationskoeffizient nach Spearman. Dieser misst nicht nur lineare sondern allgemein monotone Zusammenhänge und ist robust gegenüber Ausreißern. Dabei werden zur Berechnung nicht die Beobachtungswerte genutzt, sondern lediglich die Reihenfolge, sogenannte Ränge.
Definition 8 (Rang)
Sei (x_1,\dots,x_n) eine Stichprobe eines mindestens ordinal skalierten Merkmals X und x_{(1)} < x_{(2)} < \dots < x_{(n)} die geordneten Beobachtungen. Gilt x_i = x_{(j)}, d.h. die i-te Beobachtung ist die j-kleinste Beobachtung in der Stichprobe, so definieren wir den Rang von x_i als \text{Rg}(x_i) = j.
Liegen Bindungen vor, d.h. gibt es zwei oder mehr Beobachtungen, mit dem gleichen Wert, so weisen wir ihnen allen das arithmetische Mittel der fraglichen Ränge zu.
Der Rangkorrelationskoeffizient nach Spearman entspricht nun dem empirischen Korrelationskoeffizenten aus Definition 7 angewandt auf die Ränge von X und Y. Da wir die Ränge auch für ordinal skalierte Merkmale berechnen können, kann dieses Maß auch für solche Merkmale verwendet werden:
Definition 9 (Rangkorrelationskoeffizient nach Spearman)
Der Rangkorrelationskoeffizient nach Spearman zweier mindestens ordinal skalierter Merkmale X und Y mit einer Stichprobe \left((x_1, y_1), \dots, (x_n, y_n)\right) ist gegeben durch r^{Sp}_{x,y} = \frac{\sum_{i=1}^n \left(\text{Rg}(x_i) - \overline{\text{Rg}(x)}\right)\left(\text{Rg}(y_i) - \overline{\text{Rg}(y)}\right)}{\sqrt{\sum_{i=1}^n \left(\text{Rg}(x_i) - \overline{\text{Rg}(x)}\right)^2} \, \sqrt{\sum_{i=1}^n \left(\text{Rg}(y_i) - \overline{\text{Rg}(y)}\right)^2}}, wobei \overline{\text{Rg}(x)} = \frac{1}{n} \sum_{i = 1}^n \text{Rg}(x_i) und \overline{\text{Rg}(y)} = \frac{1}{n} \sum_{i = 1}^n \text{Rg}(y_i) sind.
Eigenschaften des Rangkorrelationskoeffizienten:
-1 \le r^{Sp}_{x, y} \le 1, wobei
r^{Sp}_{x,y} < 0 auf einen monoton fallenden Zusammenhang,
r^{Sp}_{x,y} > 0 auf einen monoton wachsenden Zusammenhang,
\vert r^{Sp}_{x,y} \vert = 1 auf einen exakten monotonen Zusammenhang und
r^{Sp}_{x,y} = 0 auf keinen keinen monotonen Zusammenhang hinweist.
Wir schauen uns noch einmal die Streudiagramme dieses Mal mit dem Rangkorrelationskoeffizienten nach Spearman an:
Abbildung 9: Vier Streudiagramme, die verschiedene Abhängigkeitsstrukturen zeigen, zusammen mit den berechneten Rangkorrelationskoeffizenten nach Spearman.
Im Gegensatz zum empirischen Korrelationskoeffizienten ist der Wert des Rangkorrelationskoeffizienten beim exakten monotonen Zusammenhang (Abbildung 9 oben rechts) gleich eins. Ebenfalls wie der empirische Korrelationskoeffizient erkennt er allerdings solche Zusammenhänge kaum, bei denen die Richtung des Zusammenhangs wechselt (Abbildung 9 unten links und rechts).
Beispiel 11 (Fortsetzung: Befragung von 12 Personen) Wir betrachten erneut den Datensatz aus Beispiel 1 und berechnen nun den Rangkorrelationskoeffizienten nach Spearman für die Körpergröße (Merkmal X) und das gewicht (Merkmal Y). Dazu bestimmen wir zunächst einzeln für beide Merkmale einzeln die Ränge (Spalte 3 und Spalte 7).
Mit analogem Vorgehen wie in Beispiel 10 erhalten wir den Rangkorrelationskoeffizienten nach Spearman: r_{x,y}^{Sp} = 0.930. Auch der Rangkorrelationskoefffizient erkennt den starken positiven Zusammenhang der beiden Merkmale.
In R können wir auch den Rangkorrelationskoeffizienten nach Spearman mit der Funktion cor() bestimmen. Dafür müssen wir nur zusätzlich die Methode mit dem Argument method = "spearman" spezifizieren:
cor(x =data$groesse, y =data$gewicht, method ="spearman")
[1] 0.9300699
Ränge können wir außerdem auch mit der Funktion rank() bestimmen. Somit erhalten wir auch wie folgt den Rangkorrelationskoeffizienten:
Betrachten Sie den Datensatz penguins aus dem R-Paket palmerpenguins. Berechnen Sie den empirischen Korrelationskoeffizienten der Merkmale Körpergewicht (body_mass_g) und Schnabeldicke (bill_depth_mm).
Teilen Sie nun den Datensatz getrennt nach den drei Pinguinarten (species) auf und berechnen Sie für jede Art erneut den Korrelationskoeffizienten.
Interpretieren Sie Ihre Ergebnisse und nutzen Sie dazu auch folgende Grafik:
4.2 Einfache lineare Regression
Nachdem wir nun verschiedene Zusammenhangsmaße zur Beschreibung der Stärke vorgestellt haben, wenden wir uns nun der Untersuchung der funktionalen Form zu. Da wir hier einen linearen Zusammenhang annehmen, suchen wir also eine Gerade g(x) = \alpha + \beta \cdot x, die die Stichprobe am besten beschreibt. Dazu müssen wir die unbekannten Parameter \alpha und \beta bestimmen. Kennen wir diese Gerade, so können wir zukünftige Beobachtungen eines Merkmals vorhersagen, falls die Beobachtung des anderen Merkmals uns schon bekannt ist. Die Stärke des Zusammenhangs beeinflusst dabei die Zuverlässigkeit der Vorhersage.
Kleinste-Quadrate Anpassung
Am besten ist offensichtlich eine sehr vage und verschieden interpretierbare Forderung an die gesuchte Gerade.
(a) Möglichst viele Punkte liegen auf der Geraden
(b) Methode der kleinsten Quadrate
Abbildung 10: Zwei mögliche Geraden, die die drei Datenpunkte beschreiben. Während in (a) zwei der drei Punkte exakt auf der Geraden liegen, ist in (b) die Summe der quadratischen vertikalen Abstände, also die roten Flächen, kleiner.
In Abbildung 10 (a) sehen wir eine Gerade, die zwei der drei Punkte exakt trifft, während der dritte Punkt weit von der Geraden entfernt liegt. Üblicherweise wird allerdings die Methode der Kleinsten-Quadrate verwendet. Dabei wird die Gerade so berechnet, dass die quadrierten vertikalen Abstände zwischen den Beobachtungspunkten und der Geraden minimiert werden (siehe Abbildung 10 (b)). Die vertikale Differenz zwischen dem i-ten Punkt und der Gerade g kann beschrieben werden durch e_i = y_i - g(x_i) = y_i - \alpha - \beta \cdot x_i und der quadratische Abstand dieser Beobachtung zur Gerade ist also e_i^2.
Wir bestimmen die Parameter \alpha und \beta der Gerade also so, dass \sum_{i = 1}^n e_i^2 = \sum_{i = 1}^n (y_i - \alpha - \beta \cdot x_i)^2 minimal wird.
Man könnte auch eine andere Bedingung an die Gerade stellen wie z.B. Minimierung der Summe der absoluten Abstände \sum\limits_{i = 1}^n \vert e_i \vert. Es hat sich allerdings gezeigt, dass die Methode der kleinsten Quadrate viele gute Eigenschaften besitzt. Mehr hierzu finden Sie z.B. in Fahrmeir, Kneib, und Lang (2009).
Definition 10 (Regressionsgerade) Die Gerade, für welche die Summe der quadratischen Abweichungen \sum_{i = 1}^n e_i^2 minimal wird, heißt Regressionsgerade von Y bzgl. X nach dem Prinzip der kleinsten Quadrate.
Zur Bestimmung der Regressionsgeraden müssen wir dieses Minimierungsproblem lösen. Die Lösung ist bekannt und der entsprechende Parametervektor (\hat{\alpha}, \hat{\beta}), der zu dieser Lösung gehören, heißt Kleinste-Quadrate-Schätzung (KQ-Schätzung):
Die Bedingung s_x > 0 ist notwendig, damit der Nenner nicht gleich Null ist. Außerdem ist die Bedingung genau dann nicht erfüllt, also s_x = 0, wenn x_1 = \ldots = x_n. In diesem Fall würden alle Punkte im Streudiagramm auf einer vertikalen Gerade liegen.
Theorem 2 (Kleinste-Quadrate-Schätzung)
Die Lösung des Minimierungsproblems aus Definition 10 lautet im Falle von s_x > 0\begin{align}
\hat{\beta} &= \frac{\sum_{i = 1}^n (x_i - \bar{x})(y_i-\bar{y})}{\sum_{i = 1}^n (x_i - \bar{x})^2} = \frac{s_{x,y}}{s_x^2} \\
\hat{\alpha} &= \bar{y} - \hat{\beta} \cdot \bar{x}.
\end{align}\hat{\beta} wird auch Regressionskoeffizient von Y bzgl. X genannt.
Beweis. Die Parameterschätzungen \hat{\alpha} und \hat{\beta} werden so gewählt, dass sie die Funktion f(\alpha, \beta) = \sum_{i = 1}^n (y_i - \alpha - \beta \cdot x_i)^2 minimieren. Um das Minimum der Funktion zu finden, bestimmen wir die Nullstellen der partiellen Ableitungen von f nach \alpha und \beta. \begin{align*} & \frac{\partial}{\partial \alpha} f(\alpha, \beta) = 2\sum_{i = 1}^n (y_i - \alpha - \beta \cdot x_i)\cdot(-1) \overset{!}{=}0 \\
& \Leftrightarrow \quad n \alpha =\sum_{i = 1}^n (y_i -\beta\cdot x_i)\\
& \Leftrightarrow \quad \alpha = \bar{y} - \beta \cdot\bar{x}
\end{align*} Mit \alpha = \bar{y} - \beta \cdot\bar{x} erhalten wir dann: >\begin{align*}
&\frac{\partial}{\partial \beta} f(\alpha, \beta) = 2\sum_{i = 1}^n (y_i - \alpha - \beta \cdot x_i)\cdot(-x_i)\overset{!}{=}0\\
&\Leftrightarrow 2\sum_{i = 1}^n (y_i - \bar{y} + \beta \cdot\bar{x} - \beta \cdot x_i)\cdot(-x_i) = 0 \\
&\Leftrightarrow \sum_{i = 1}^n( \bar{y} x_i - y_i x_i) + \beta\cdot \sum_{i = 1}^n (x_i^2 -\bar{x}x_i ) = 0\\
&\Leftrightarrow \beta \cdot \left(\sum_{i = 1}^n x_i^2 - n \bar{x}^2 \right)= \sum_{i = 1}^n y_i x_i - n \bar{x}\bar{y}\\
&\Leftrightarrow \beta \cdot \sum_{i = 1}^n (x_i -\bar{x})^2 = \sum_{i = 1}^n(x_i - \bar{x})( y_i - \bar{y})\\
&\Leftrightarrow \beta \cdot (n-1)s_x^2 = (n-1)s_{x,y} \\
&\Leftrightarrow \beta = \frac{s_{x,y}}{s_x^2}
\end{align*} Um herauszufinden, ob sich an der Stelle \left(\bar{y} - \frac{s_{x,y}}{s_x^2}\cdot\bar{x}, \frac{s_{x,y}}{s_x^2}\right) ein Minimum befindet, überprüfen wir die Definitheit der Hesse-Matrix. Die Hesse-Matrix ist gegeben durch H_f (\alpha, \beta ) =\begin{pmatrix}
\frac{\partial^2}{\partial \alpha^2} f& \frac{\partial^2}{\partial \alpha \partial \beta}f \\
\frac{\partial^2}{\partial \beta \partial \alpha}f & \frac{\partial^2}{\partial \beta^2} f
\end{pmatrix}
=\begin{pmatrix}
2n & 2 n \bar{x} \\
2 n \bar{x} & 2 \sum_{i = 1}^n x_i^2
\end{pmatrix}. Die Hesse-Matrix ist positiv definit, da für z \in \mathbb{R}^2 mit z \neq 0 gilt \begin{align*}
& \begin{pmatrix}
z_1 & z_2
\end{pmatrix}
\begin{pmatrix}
2n & 2 n \bar{x} \\
2 n \bar{x} & 2 \sum_{i = 1}^n x_i^2
\end{pmatrix}
\begin{pmatrix}
z_1\\ z_2
\end{pmatrix} \\
& = 2n z_1^2 + 4 n \bar{x} z_1 z_2 + 2 z_2^2 \cdot\underbrace{\sum_{i = 1}^n x_i^2}_{= (n-1)s_x^2 + n \bar{x}^2 }\\
& = 2n ( z_1^2 + 2 \bar{x} z_1 z_2 + \bar{x}^2 z_2^2) + 2 (n-1) s_x^2 z_2^2\\
& = \underbrace{2n (z_1 + \bar{x} z_2)^2}_{> 0} + \underbrace{2 (n-1) s_x^2 z_2^2}_{\geq 0} > 0.
\end{align*} Da die Hesse-Matrix positiv definit ist, hat f ein Minimum bei \left(\bar{y} - \frac{S_{x,y}}{s_x^2}\cdot\bar{x}, \frac{S_{x,y}}{s_x^2}\right).
Die Parameterwerte werden mit einem Hut versehen, um zu symbolisieren, dass dies nicht die wahren Werte sind, sondern, dass bei Untersuchung einer anderen Stichprobe die Regressionsgerade und somit auch die Parameterwerte \hat{\alpha} und \hat{\beta} anders aussehen können.
Bemerkungen:
Sei \hat{g}(x) = \hat{\alpha} + \hat{\beta} \cdot x die Regressionsgerade zur Stichprobe \left((x_1, y_1), \dots, (x_n, y_n)\right)
Interpretation der Regressionsgeraden:
\hat{\alpha} ist der y-Achsenabschnitt. D.h. am Punkt (0, \hat{\alpha}) schneidet die Gerade die y-Achse.
\hat{\beta} ist die Steigung der Regressionsgeraden. Erhöhen wir x um 1, so steigt die Gerade um \hat{\beta}, also \hat{g}(x + 1) = \hat{g}(x) + \hat{\beta}.
Zusammenhang zwischen der Regressionsgeraden und der Beobachtungen y_1, \dots, y_n:
\hat{y}_i = \hat{g}(x_i) = \hat{\alpha} + \hat{\beta} \cdot x_i heißt (durch die Regressionsgerade) erklärter Teil der Beobachtung y_i.
\hat{e}_i = y_i - \hat{y}_i heißt Restgröße oder Residuum der Beobachtung y_i.
Insgesamt gilt also, dass die Beobachtung y_i aus dem erklärten Teil und der Restgröße besteht: y_i = \hat{y}_i + \hat{e}_i.
Vorhersage:
Die Regressionsgerade \hat{g} beschreibt einen linearen Zusammenhang zwischen den Merkmalen X und Y. Liegt uns nun eine neue Beobachtung x_{n+1} des Merkmals X vor, so vermuten wir, dass der zugehörige Wert des Merkmals Y in der Nähe der Regressionsgerade liegt und schätzen ihn somit durch \hat{y}_{n+1} = \hat{g}(x_{n+1}).
Der empirische Korrelationskoeffizient r_{x,y} aus Definition 7 beschreibt die Stärke des linearen Zusammenhangs und gibt uns somit einen Anhaltspunkt, wie zuverlässig unsere Vorhersage ist. In der Literatur wird statt des Korrelationskoeffizienten r_{x,y} in der Regel das Bestimmtheitsmaß R^2 verwendet, um die Anpassungsgüte zu bestimmen, da dieses den Anteil der Streuung des Merkmals Y angibt, welcher durch das lineare Modell erklärt wird. Im einfachen linearen Regressionsmodell ist R^2 = r_{x,y}^2.
Beispiel 12 (Fortsetzung: Befragung von 12 Personen) Wir betrachten erneut den Datensatz aus Beispiel 1.
In Beispiel 3 und Beispiel 10 haben wir bereits ein Streudiagramm der Körpergröße (Merkmal X) und des Körpergewichts (Merkmal Y) betrachtet und konnten eine positive Korrelation mithilfe des empirischen Korrelationskoeffizienten feststellen.
Nun passen wir die Regressionsgerade g mithilfe der Kleinste-Quadrate Methode an. Dazu bestimmen wir die Koeffizienten \alpha und \beta.
In Beispiel 10 haben wir schon nützliche Kennzahlen ausgerechnet: \begin{align*}
\bar{x} = 174.625 \quad
\bar{y} = 70.75 \quad
s_{x,y} = 139.366 \quad
s_x = 10.510
\end{align*} Daraus ergeben sich die Koeffizienten: \begin{align*}
\hat{\beta} &= \frac{s_{x,y}}{s^2_x} = \frac{139.366}{10.510^2} = 1.262 \\
\hat{\alpha} &= \bar{y} - \hat{\beta} \cdot \bar{x} = 70.75 - 1.262 \cdot 174.625 = -149.627.
\end{align*} Die Regressionsgerade lautet also \hat{g}(x) = -149.627 + 1.262 \cdot x. Diese Gerade zeichnen wir nun in das Streudiagramm ein:
Code anzeigen
plot( x =data$groesse, y =data$gewicht, pch =16, xlab ="Körpergröße in cm", ylab ="Körpergewicht in kg")abline(a =-149.627, b =1.262, col ="deepskyblue4")
In R können wir die Koeffizienten der Gerade mit der Funktion lm() berechnen:
Zeigen Sie, dass die Punkte (0, \hat{\alpha}) und (\bar{x}, \bar{y}) auf der Regressionsgeraden \hat{g}(x) = \hat{\alpha} + \hat{\beta} \cdot x liegen.
Setzen Sie den x-Wert in die Geradengleichung ein und zeigen Sie, dass dann der gewünschte y-Wert herauskommt.
Aufgabe 7
Die Körpergröße zweier Personen ist 121 bzw. 176 cm. Schätzen Sie mithilfe der berechneten Regressionsgerade aus Beispiel 12 das Körpergewicht beider Personen.
Sind die Schätzungen plausibel? Falls nicht, woran könnte dies liegen?
Aufgabe 8
Betrachten Sie den Datensatz penguins aus dem R-Paket palmerpenguins. Analysieren Sie den linearen Zusammenhang der Merkmale Körpergewicht (body_mass_g) und Schnabeldicke (bill_depth_mm). Berücksichtigen Sie dazu auch die Ergebnisse aus Aufgabe 5.
Aufgabe 9 (Anscombe-Quartett)
Nun betrachten wir den Datensatz anscombe aus dem Paket datasets. Dieser Datensatz besteht aus 8 Spalten mit jeweils 11 Beobachtungen.
Wir unterteilen den Datensatz nun in 4 Datensätze mit jeweils einer x und einer y Variablen. Die Spalten x1 und y1, die Variablen x2 und y2, die Spalten x3 und y3 und die Spalten x4 und y4 bilden jeweils einen bivariaten Datensatz.
Sie können nun nachrechnen, dass alle 4 Datensätze folgende gleiche Kennzahlen besitzen:
arithmetisches Mittel und Varianz von x:
\bar{x} = 9 ~~~~ \text{ und } ~~~~ s^2_x = 11
arithmetisches Mittel und Varianz von y:
\bar{y} = 7.5 ~~~~ \text{ und } ~~~~ s^2_y = 4.1
Korrelationskoeffizient von x und y:
r_{x,y} = 0.82
Regressionsgerade von y bzgl. x:
g(x) = 3.00 + 0.500 \cdot x Betrachten wir hingegen die zugehörigen Streudiagramme, so sehen wir, dass sich die vier Datensätze stark voneinander unterscheiden:
Code anzeigen
plot( x =anscombe$x1, y =anscombe$y1, pch =16, cex =2, xlab ="x1", ylab ="y1", xlim =c(2, 20), ylim =c(4, 14))abline(a =3, b =0.5, col ="deepskyblue4")plot( x =anscombe$x2, y =anscombe$y2, pch =16, cex =2, xlab ="x2", ylab ="y2", xlim =c(2, 20), ylim =c(4, 14))abline(a =3, b =0.5, col ="deepskyblue4")plot( x =anscombe$x3, y =anscombe$y3, pch =16, cex =2, xlab ="x3", ylab ="y3", xlim =c(2, 20), ylim =c(4, 14))abline(a =3, b =0.5, col ="deepskyblue4")plot( x =anscombe$x4, y =anscombe$y4, pch =16, cex =2, xlab ="x4", ylab ="y4", xlim =c(2, 20), ylim =c(4, 14))abline(a =3, b =0.5, col ="deepskyblue4")
Interpretieren Sie die Resultate dieses Beispiels und leiten Sie daraus ab, was Sie bei einer linearen Regression beachten sollten.
5 Korrelation oder Kausalität?
Im vorherigen Abschnitt haben wir den Zusammenhang, auch Korrelation genannt, zweier Merkmale untersucht. Daraus lässt sich allerdings nicht auf Kausalität zwischen den beiden Merkmalen schließen. Wenn wir z.B. herausfinden, dass die Ausprägung a des Merkmals X und die Ausprägung b des Merkmals Y außergewöhnlich oft gemeinsam auftreten, bedeutet dies nicht automatisch, dass eines der beiden Merkmale das andere kausal beeinflusst und somit der Grund oder Auslöser für die Ausprägung des anderen Merkmals ist, sondern es könnte womöglich gar keinen sachlogischen Grund für das gehäufte gemeinsame Auftreten geben oder vielleicht existiert ein weiteres Merkmal Z, welches die beiden Merkmale X und Y beeinflusst:
Beispiel 13 (Babys werden vom Storch gebracht)
In der Vergangenheit konnte eine positive Korrelation zwischen der Population von Storchen und der Geburtenrate von Menschen gefunden werden: Je kleiner die Storchenpopulation ist, desto geringer ist die Geburtenrate.
Tatsächlich besteht kein kausaler Zusammenhang. Die Korrelation wird viel mehr durch ein weiteres Merkmal erklärt: die Industrialisierung
Die Industralisierung hat sowohl einen Einfluss auf die Population der Störche als auch auf die Geburtenrate, da sie zur Verstädterung von Regionen führt.
flowchart TB
A(Industrialisierung) --> B(Storchenpopulation)
A --> C(Geburtenrate)
Abbildung 11: Schema des kausalen Zusammenhangs.
Beispiel 14 (Relativer Alterseffekt)
Es konnte in einer Vielzahl von wissenschaftlichen Untersuchungen ein Zusammenhang zwischen dem Geburtsmonat von Kindern und ihrem Bildungserfolg oder auch sportlichen Erfolg (z.B. im Fussball) in Deutschland (und auch vielen anderen Ländern) gezeigt werden. Dies äußert sich z.B. darin, dass nach dem Abschluss der Grundschule vermehrt Schüler, die in der zweiten Jahreshälfte geboren wurden zum Gymnasium wechseln.
Können wir nun also daraus schließen, dass im November geborene Kinder aufgrund ihres Geburtsmonats erfolgreicher in der Schule sind (also auf eine Art vielleicht intelligenter), als ihre Mitschülerinnen, die z.B. im Juli geboren wurden?
Natürlich nicht! Der wahre Grund dieser Korrelation liegt darin, dass Deutschland einen Stichtag festgelegt hat, um zu entscheiden, wann ein Kind die erste Klasse besucht. Dies führt dazu, dass Kinder einer Klassenstufe einen bis zu fast einem Jahr großen Altersunterschied besitzen. Aber gerade in jungen Jahren entwickeln sich Kinder noch enorm, sodass jüngere Kinder einen Nachteil haben, da von ihnen die gleiche Leistung erwartet wird und sie nicht anders bewertet werden. Das Merkmal, welches den Bildungserfolg also direkt beeinflusst, ist das Alter des Kindes bei Schuleintritt, welches wiederum vom Geburtsmonat und dem Stichtag beeinflusst wird.
flowchart LR
A(Geburtsmonat) --> |Stich- <br> tag| C(Alter bei Schuleintritt)
C --> D(Bildungserfolg)
Abbildung 12: Schema des kausalen Zusammenhangs.
Einen solchen Stichtag gibt es z.B. auch beim Fussball, sodass in einer Altergruppe im Januar geborene Kinder einen körperlichen Vorteil gegenüber im Dezember geborenen Kindern haben und so von ihren Trainerinnen als talentierter empfunden werden könnten und mehr gefördert werden.
Dieser Effekt wird in der Wissenschaft auch relativer Alterseffekt genannt. Die Korrelation ist allerdings nicht sehr stark und nimmt auch mit zunehmenden Alter der Kinder ab.
Beispiel 15 (Erhöhter Margarine-Konsum führt zu einer erhöhten Scheidungsrate)
Abbildung 13: Zusammenhang zwischen Scheidungsrate in der US-amerikanischen Stadt Maine und Margarinekonsum pro Kopf ohne ersichtliche sachlogische Erklärung. Quelle: Vigen (2024). Lizenz: CC-BY 4.0
In der obigen Abbildung sehen wir, dass es eine positive Korrelation zwischen der Scheidungsrate und dem Konsum von Margarine gibt. Ein sachlogischer Zusammenhang ist hier nicht erkennbar: Sowohl sollte der Margarinekonsum keinen Einfluss auf den Zustand einer Ehe und somit auch auf eine mögliche Scheidung haben, also auch umgekehrt sollte eine Scheidung nicht zu einem erhöhten Margarinekonsum führen.
Für die auftretende Korrelation gibt es nun mehrere mögliche Erklärungen. Z.B. könnte es eine dritte unbekannte Variable geben, die beide Merkmale beeinflusst.
flowchart TB
C(?) --> A(Scheidungsrate)
C --> B(Konsum von Margarine)
Abbildung 14: Schema des kausalen Zusammenhangs.
Wahrscheinlicher ist allerdings, dass die gemessene Korrelation durch Zufall entstanden ist und die Merkmale eigentlich unabhängig voneinander sind. Denn wenn wir genügend verschiedene zeitlich geordnete Merkmale miteinander vergleichen, werden wir auch durch Zufall zwei Zeitreihen finden, die einen ähnlichen Verlauf haben. In diesem Fall sollten wir bei einer anderen Stichprobe der beiden Merkmale allerdings keine Korrelation mehr finden können.
flowchart TB
A(Scheidungsrate)
B(Konsum von Margarine)
Abbildung 15: Schema des kausalen Zusammenhangs.
Insgesamt zeigen die drei Beispiele, dass man bei der Interpretation und Einordnung der Ergebnisse vorsichtig seien muss, um keine falschen Rückschlüsse zu ziehen.
6 Zusammenfassung
Die zweidimensionalen Datenanalyse fokussiert sich auf die Untersuchung des Zusammenhangs zweier Merkmale. Hierbei stellt sich die Frage, ob das gemeinsame Auftreten von bestimmten Merkmalsausprägungen überzufällig ist. In diesem Fall spricht man von abhängigen Merkmalen, sonst von unabhängigen Merkmalen. Zur Beschreibung zweidimensionaler Daten kann die gemeinsame zweidimensionale Häufigkeitsverteilung berechnet werden. Interessieren wir uns hingegen für die Verteilung eines Merkmals gegeben, dass das zweite Merkmal eine bestimmte Ausprägung annimmt, so betrachten wir die bedingte Häufigkeitsverteilung. Um den Zusammenhang zweier Merkmale zu untersuchen, kann in einem ersten Schritt die auftretenden gemeinsamen Häufigkeiten mit den unter Unabhängigkeit erwarteten gemeinsamen Häufigkeiten verglichen werden. Dafür können sogenannte Kontingenzmaße verwendet werden, die auf der quadratischen Kontingenz beruhen und einen Hinweis zur Stärke des möglichen Zusammenhangs geben. In diesem Kapitel haben wir den Phi-Koeffizienten, Cramérs Kontingenzmaß, Pearsons Kontingenzmaß und das korrigierte Kontingenzmaß nach Pearson kennengelernt.
Insbesondere bei quantitativen Merkmalen interessiert uns nicht nur die Stärke, sondern auch die Form des Zusammenhangs. Die einfachste Form ist dabei der lineare Zusammenhang. Nehmen wir an, dass ein linearer Zusammenhang zwischen zwei quantitativen Merkmalen vorliegt, so können wir die Stärke mithilfe von Korrelationskoeffizienten wie z.B. den empirischen Korrelationskoeffizienten nach Pearson oder den Rangkorrelationskoeffizienten nach Spearman berechnen. Die Form des Zusammenhangs wird durch eine Regressionsgerade beschrieben, die mithilfe der Kleinste-Quadrate Methode an die Daten angepasst werden kann.
Wir bei einer Analyse ein statistischer Zusammenhang entdeckt, sollte dieser vorsichtig interpretiert werden, da es sich nicht um einen kausalen Zusammenhang handeln muss.
Mit der Funktion table() erhalten wir die Häufigkeitstabelle der absoluten Häufigkeiten. Um die Häufigkeitstabelle der relativen Häufigkeiten zu erstellen, müssen wir noch durch die Stichprobengröße n dividieren. Die Stichprobengröße können wir mit der Funktion nrow() bestimmen. Um das Ergebnis in Brüchen anstelle von Dezimalzahlen anzugeben, können wir die Funktion fractions() verwenden.
# Pakete laden:#install.packages("palmerpenguins")library(palmerpenguins)library(MASS)# Stichprobengroesse:n<-nrow(penguins)# Haeufigkeitstabelle der absoluten Haeufigkeiten:Htable_penguins<-table(penguins$species, penguins$island)# Haeufigkeitstabelle der relativen Haeufigkeiten:Htable_penguins/n
Beschreibung der Ergebnisse: Wir sehen anhand der Häufigkeitstabelle, dass die Beobachtungen sehr unterschiedlich verteilt sind. Zum Beispiel sind in der Stichprobe Adelie Pinguine auf allen drei Inseln vertreten, während Chinstrap Pinguine im Datensatz nur in Verbindung mit der Insel Dream vorkommen.
Achtung: Da wir nicht wissen, wie die Daten erhoben wurden, können wir aus dieser Stichprobe nicht folgern, dass zum Beispiel auf der Insel Biscoe keine Pinguine der Art Chinstrap leben. Es könnte sein, dass stattdessen die Stichprobe genau so gewählt wurde. Von der Stichprobe können wir nur auf die Grundgesamtheit schließen, wenn die Stichprobe zufällig ist, d.h. wenn zufällig Pinguine ausgewählt wurden und somit jeder Pinguin die gleiche Wahrscheinlichkeit hat, in der Stichprobe zu sein.
Wie viele Pinguine sind insgesamt im Datensatz enthalten?
Um das herauszufinden, summieren wir über alle absoluten Häufigkeiten der Häufigkeitstabelle. Dabei ist X das Merkmal Pinguinart mit den Ausprägungen a_1= Adelie, a_2= Chinstrap und a_3= Gentoo, sowie Y das Merkmal Insel mit den Ausprägungen b_1= Biscoe, b_2= Dream und b_3= Torgersen. Dann erhalten wir eine Stichprobengröße von n = \sum\limits_{j_1 = 1}^3 \sum\limits_{j_2 = 1}^3 H_{X,Y}(a_{j_1}, b_{j_2}) = 44 + 56 + 52 + 0 + 68 + 0 + 124 + 0 + 0 = 344. Es sind also 344 Pinguine im Datensatz enthalten.
Geben Sie die relativen Häufigkeiten der drei Pinguinarten über alle Inseln hinweg an.
Hierfür berechnen wir die Zeilensummen der relativen Häufigkeiten. Die relativen Häufigkeiten erhalten wir, indem wir die absoluten Häufigkeiten aus der Häufigkeitstabelle durch die Stichprobengröße von 344 teilen so wie wir es auch schon in der Lösung zu Aufgabe 1 getan haben. Die relative Häufigkeit der Pinguinart Adelie liegt bei h_{X}(\text{Adelie}) = \sum_{j_2 = 1}^3 h_{X, Y}(\text{Adelie}, b_{j_2}) = \frac{44}{344} + \frac{56}{344} + \frac{52}{344} = \frac{152}{344} = \frac{19}{43}. Für die Pinguinart Chinstrap erhalten wir eine relative Häufigkeit von h_{X}(\text{Chinstrap}) = \sum_{j_2 = 1}^3h_{X, Y}(\text{Chinstrap}, b_{j_2}) = 0 + \frac{68}{344} + 0 = \frac{68}{344} = \frac{17}{86}. Bei der Pinguinart Gentoo beträgt die relative Häufigkeit h_{X}(\text{Gentoo}) = \sum_{j_2 = 1}^3 h_{X, Y}(\text{Gentoo}, b_{j_2}) = \frac{124}{344} + 0 + 0 = \frac{124}{344} = \frac{31}{86}.
Wir betrachten nun nur noch die Insel Biscoe. Geben Sie die bedingten relativen Häufigkeiten der Pinguinarten an.
Um die relative Häufigkeit einer Pinguinart gegeben der Insel Biscoe zu berechnen, müssen wir zunächst die absolute Häufigkeit der Insel Biscoe bestimmen. Diese ist gegeben durch die erste Spaltensumme und beträgt H_Y(\text{Biscoe}) = \sum_{j_1 = 1}^3 H_{X, Y}(a_{j_1},\text{Biscoe})= 44 + 0 + 124 = 168. Nun können wir die bedingten relativen Häufigkeiten bestimmen. Für die Pinguinart Adelie erhalten wir h_{X \mid Y = \, \text{Biscoe}}(\text{Adelie}) = \frac{H_{X,Y}(\text{Adelie}, \text{Biscoe})}{H_Y(\text{Biscoe})} = \frac{44}{168} = \frac{11}{42}. Die relative Häufigkeit der Pinguinart Chinstrap gegeben der Insel Biscoe liegt bei h_{X \mid Y = \, \text{Biscoe}}(\text{Chinstrap}) = \frac{H_{X,Y}(\text{Chinstrap}, \text{Biscoe})}{H_Y(\text{Biscoe})} = \frac{0}{168} = 0. Für die Pinguinart Gentoo beträgt die bedingte relative Häufigkeit h_{X \mid Y = \, \text{Biscoe}}(\text{Gentoo}) = \frac{H_{X,Y}(\text{Gentoo}, \text{Biscoe})}{H_Y(\text{Biscoe})} = \frac{124}{168} = \frac{31}{42}.
Die unter Unabhängigkeit erwartete absolute Häufigkeit einer Kombination (a_{j_1}, b_{j_2}) der Merkmale X (hier: Pinguinart) und Y (hier: Insel) ist gegeben durch \tilde{H}_{X, Y}(a_{j_1}, b_{j_2}) = \dfrac{H_X(a_{j_1}) \cdot H_Y(b_{j_2})}{n}. Wir können sie in R mithilfe der Funktion outer() bestimmen. Wenn zwei Vektoren in outer() eingegeben werden, gibt die Funktion eine Matrix zurück, in der jedes Element des ersten Vektors mit jedem Element des zweiten Vektors multipliziert wurde. Daher bestimmen wir mit der Funktion table() zunächst die absoluten Häufigkeiten der verschiedenen Pinguinarten und Inseln und speichern sie jeweils als Vektor.
#install.packages("palmerpenguins")library(palmerpenguins)# absoluten Haeufigkeiten der verschiedenen PinguinartenH_X<-table(penguins$species)# absoluten Haeufigkeiten der verschiedenen InselnH_Y<-table(penguins$island)
Danach müssen wir nur die Vektoren in outer() eingeben und das Ergebnis noch durch die Stichprobengröße dividieren.
# Stichprobengroessen<-sum(H_X)# unter Unabhaengigkeit erwarteten absoluten Haeufigkeitenouter(H_X, H_Y)/n
Die unter Unabhängigkeit erwartete Häufigkeitstabelle unterscheidet sich stark von der beobachteten. Die Merkmale Pinguinart und Inseln sind augenscheinlich also in dieser Stichprobe nicht unabhängig. Allerdings sind uns die genauen Umstände der Datenerhebung unbekannt.
Wir wissen nicht, ob es vorher bereits geplant war, wie viele Pinguine jeder Art auf den verschiedenen Inseln erhoben werden. Somit könnte die beobachtete Häufigkeitstabelle beabsichtigt oder zufällig entstanden sein und wir sollten keine Rückschlüsse auf die Grundgesamtheit ziehen.
Die Quadratische Kontingenz ist gegeben durch \chi^2 = \sum\limits_{j_1 = 1}^l \sum_{j_2 = 1}^k \frac{(H_{X,Y}(a_{j_1}, b_{j_2}) - \tilde{H}_{X,Y}(a_{j_1}, b_{j_2}))^2}{\tilde{H}_{X,Y}(a_{j_1}, b_{j_2})}. In diesem Fall ist l =k=3, X das Merkmal Pinguinart mit den Ausprägungen a_1= Adelie, a_2= Chinstrap und a_3= Gentoo, sowie Y das Merkmal Insel mit den Ausprägungen b_1= Biscoe, b_2= Dream und b_3= Torgersen. Aus den Aufgaben Aufgabe 2 und Aufgabe 3 sind die beobachtete und die unter Unabhängigkeit erwartete Häufigkeitstabelle bereits bekannt.
#install.packages("palmerpenguins")library(palmerpenguins)# Die beobachtete absolute HaeufigkeitstabelleH_beob<-table(penguins$species, penguins$island)# absoluten Haeufigkeiten der verschiedenen PinguinartenH_X<-table(penguins$species)# absoluten Haeufigkeiten der verschiedenen InselnH_Y<-table(penguins$island)# Stichprobengroessen<-sum(H_X)# unter Unabhaengigkeit erwarteten absoluten HaeufigkeitenH_erwartet<-outer(H_X, H_Y)/n# Anzahl verschiedener Pinguinartenl<-length(levels(penguins$species))# Anzahl verschiedener Inselnk<-length(levels(penguins$island))
Mit den Häufigkeitstabellen ergibt sich eine quadratische Kontingenz von:
Mit der quadratischen Kontingenz können wir nun die anderen Kontingenzmaße bestimmen.
Cramérs Kontingenzmaß
Cramérs Kontingenzmaß ist gegeben durch K_C = \dfrac{1}{\min(l, k) - 1}\cdot \sqrt{\dfrac{\chi^2}{n}}. Mit der zuvor berechneten quadratischen Kontingenz und \min(l,k) = 3 beläuft sich Cramérs Kontingenzmaß auf:
Das korrigierte Kontingenzmaß nach Pearson ist gegeben durch K_{P,\text{ korr}} = K_P \cdot \sqrt{\dfrac{\min(l, k)}{\min(l, k) - 1}}= \sqrt{\dfrac{\chi^2}{\chi^2 + n} \cdot \dfrac{\min(l, k)}{\min(l, k) - 1}} . Mit der zuvor bestimmten quadratischen Kontingenz erhalten wir ein korrigiertes Kontingenzmaß nach Pearson von
# Pearsons KontingenzmaßK_P<-sqrt(chi_quadrat/(chi_quadrat+n))# korrigiertes Kontingenzmaß nach PearsonK_P*sqrt(min(l, k)/(min(l, k)-1))
[1] 0.8355824
Insgesamt unterscheiden sich sowohl Cramérs Kontingenzmaß als auch das korrigiertes Kontingenzmaß nach Pearson deutlich von 0. Dies deutet auf einen Zusammenhang zwischen der Pinguinart und der Insel hin. Das korrigierte Kontingenzmaß nach Pearson weist jedoch mit K_{P,\text{ korr}} \approx 0.836 auf einen stärkeren Zusammenhang hin als Cramérs Kontingenzmaß mit K_C \approx 0.467.
In R können wir die empirische Korrelation mit der Funktion cor() berechnen. Hierbei müssen wir jedoch beachten, dass im Datensatz bei den Merkmalen Körpergewicht (body_mass_g) und Schnabeldicke (bill_depth_mm) fehlende Werte (NA) vorhanden sind. Die fehlenden Werte können wir aus der Berechnung entfernen, indem wir use = complete.obs setzen.
cor(penguins$body_mass_g, penguins$bill_depth_mm, use ="complete.obs")
[1] -0.4719156
Betrachten wir alle Pinguinarten gemeinsam, liegt eine negative Korrelation zwischen dem Körpergewicht und der Schnabeldicke vor, da der berechnete Korrelationskoeffizient einen negativen Wert annimmt.
Nun teilen wir den Datensatz mit der Funktion split() auf, um die Korrelation zwischen dem Körpergewicht und der Schnabeldicke für jede Pinguinart einzeln zu bestimmen.
penguins_splitted<-split(penguins, f =penguins$species)
cor(penguins_splitted[[1]]$body_mass_g, penguins_splitted[[1]]$bill_depth_mm, use ="complete.obs")
[1] 0.5761382
cor(penguins_splitted[[2]]$body_mass_g, penguins_splitted[[2]]$bill_depth_mm, use ="complete.obs")
[1] 0.6044983
cor(penguins_splitted[[3]]$body_mass_g, penguins_splitted[[3]]$bill_depth_mm, use ="complete.obs")
[1] 0.719085
Für alle drei Pinguinarten ergibt sich nun ein eindeutig positiver empirischer Korrelationskoeffizient. Dieses Phänomen heißt Simpsons-Paradoxon. Das Paradoxon beschreibt das Verschwinden oder Verändern eines Zusammenhangs, der in allen Gruppen vorhandenen ist, wenn die Gruppen zusammengelegt werden. Eine Ursache für das Simpsons-Paradoxon sind weitere Einflussvariablen, in diesem Fall die Pinguinart, die in der ersten Analyse nicht berücksichtigt wird.
In der Grafik wird deutlich, dass die Pinguinart auch mit dem Gewicht und der Schnabeldicke zusammenhängt. Dadurch, dass die Pinguine der Art Gentoo eher schwerer sind und dünnere Schnäbel haben als die Pinguine der Arten Adelie und Chinstrap, erhalten wir insgesamt eine negative empirische Korrelation.
Um zu überprüfen, ob ein Punkt auf der Regressionsgeraden \hat{g}(x) = \hat{\alpha} + \hat{\beta} \cdot x liegt, müssen wir den x-Wert in die Geradengleichung einsetzen und zeigen, dass der zugehörige y-Wert herauskommt.
Den ersten Punkt, den wir überprüfen wollen ist (0, \hat{\alpha}). Setzen wir also 0 in die Regressionsgerade ein, so erhalten wir \hat{g}(0) = \hat{\alpha} + \hat{\beta} \cdot 0 = \hat{\alpha}. Damit liegt der Punkt (0, \hat{\alpha}) auf der Regressionsgeraden.
Aus Theorem 2 wissen wir, dass \hat{\alpha} = \bar{y} - \hat{\beta} \cdot \bar{x} \quad \quad (\star) gilt. Somit ergibt sich bei der Überprüfung des zweiten Punktes (\bar{x}, \bar{y}): \hat{g}(\bar{x}) = \hat{\alpha} + \hat{\beta} \cdot \bar{x} \overset{(\star)}{=} \bar{y} - \hat{\beta}\cdot \bar{x} + \hat{\beta} \cdot \bar{x} = \bar{y}. Der Punkt (\bar{x}, \bar{y}) liegt damit ebenfalls auf der Regressionsgeraden.
Die Regressionsgerade aus Beispiel 12 lautet \hat{g}(x) = -149.627 + 1.262 \cdot x.
Bei bekanntem x-Wert, sollte der y-Wert einer neuen Beobachtung gemäß des Modells in der Nähe der Regressionsgerade liegen und wir schätzen ihn daher als Punkt auf der Regressionsgeraden.
Bei einer Körpergröße von 121 cm ergibt sich ein geschätztes Körpergewicht von:
-149.627+1.262*121
[1] 3.075
Liegt die Körpergröße bei 176 cm, so erhalten wir ein geschätztes Gewicht von:
-149.627+1.262*176
[1] 72.485
In folgender Grafik wurden die Punkte einmal in rot eingezeichnet:
Code anzeigen
par(mar =c(4, 4, 1, 1))plot( x =data$groesse, y =data$gewicht, pch =16, xlab ="Körpergröße in cm", ylab ="Körpergewicht in kg", xlim =c(120, 200), ylim =c(0, 100))abline(a =-149.627, b =1.262, col ="deepskyblue4")points(x =c(121, 176), y =c(3.075, 72.485), pch =16, col ="darkred")
Während die zweite Schätzung mit 72.5 kg bei einer Körpergröße von 176 cm plausibel erscheint, ist das geschätzte Gewicht von 3.1 kg bei einer Körpergröße von 121 cm sehr unrealistisch. Mithilfe der Grafik können wir erkennen, dass die neue Beobachtung bzgl. des X-Merkmals Körpergröße mit einem Wert von 121 cm weit außerhalb des Bereichs liegt, welchen wir während der Berechnung des Modells, also der Regressionsgerade, betrachtet haben. Somit fließen im Regressionsmodell keine Informationen zu sehr kleinen Personen bzw. Kindern ein.
Dieses Beispiel zeigt, dass es generell nicht empfehlenswert ist, Werte weit außerhalb des beobachteten Bereichs mithilfe des Modells zu schätzen.
In Aufgabe 5 haben wir bereits die Stärke und Richtung des linearen Zusammenhangs untersucht und konnten sehen, dass sich die Richtung des Zusammenhangs zwischen Körpergewicht und Schnabeldicke umkehrt, wenn der Datensatz nach Pinguinart getrennt wird, da sowohl das Gewicht als auch die Schnabeldicke auch von der Pinguinart abhängen.
Daher sollten wir auch den linearen Zusammenhang für jede Pinguinart einzeln zu untersuchen. Dafür erstellen wir mit der Funktion split() für jede Pinguinart einen eigenen Datensatz.
#install.packages("palmerpenguins")library(palmerpenguins)penguins_splitted<-split(penguins, f =penguins$species)
Nun können wir die Regressionsgeraden mithilfe der Funktion lm() für jede Pinguinart einzeln bestimmen und uns mit cor() auch nochmal den empirischen Korrelationskoeffizienten ausgeben lassen.
cor(x =penguins_splitted[[3]]$bill_depth_mm, y =penguins_splitted[[3]]$body_mass_g, use ="complete.obs")
[1] 0.719085
Wir visualisieren die Regressionsgeraden in einer Grafik:
Code anzeigen
plot(x =penguins_splitted[[1]]$body_mass_g, y =penguins_splitted[[1]]$bill_depth_mm, pch =16, col ="#f8766d", xlim =c(2500, 6500), ylim =c(12.5, 22.5), xlab ="Körpergewicht in g", ylab ="Schnabeldicke in mm")abline(a =12.689572, b =0.001529, col ="#f8766d")points(x =penguins_splitted[[2]]$body_mass_g, y =penguins_splitted[[2]]$bill_depth_mm, pch =16, col ="#00ba38", xlim =c(2500, 6500), ylim =c(12.5, 22.5))abline(a =11.754051, b =0.001786, col ="#00ba38")points(x =penguins_splitted[[3]]$body_mass_g, y =penguins_splitted[[3]]$bill_depth_mm, pch =16, col ="#619cff", xlim =c(2500, 6500), ylim =c(12.5, 22.5))abline(a =7.8775, b =0.0014, col ="#619cff")abline(a =22.033946, b =-0.001162, col ="gray40")legend("bottom", inset =c(0, -0.5), xpd=TRUE, legend =c("Adelie", "Chinstrap", "Gentoo", "gesamt"), col =c("#f8766d", "#00ba38", "#619cff", "gray40"), pch =16, lty =1, horiz =T, bty ="n")
Interpretation:
Die Regressionskoeffizienten \hat{\beta}_{\text{Adelie}}, \hat{\beta}_{\text{Chinstrap}} und \hat{\beta}_{\text{Gentoo}}, die die Steigung der Regressionsgeraden beschreiben, liegen alle in einem Bereich zwischen 0.001 und 0.002. Das bedeutet, dass statistisch gesehen ein Pinguin, der 1 g mehr wiegt als ein weiterer Pinguin der gleichen Art, einen um 0.001 bis 0.002 mm dickeren Schnabel besitzt. Wenn wir das hochrechnen, dann ist bei einem Unterschied von 1 kg Körpergewicht die Differenz der Schnabeldicke 1-2 mm.
Die empirischen Korrelationskoeffizienten geben an, das der Zusammenhang in der Gruppe der Gentoo Pinguine am stärksten ist. Dies sehen wir auch in der Grafik, da die Punkte etwas näher um die Regressionsgerade streuen als bei den anderen beiden Gruppen.
Anhand der Grafik sehen wir weiter, dass die Pinguinart Gentoo schwerer ist und dünnere Schäbel besitzt als die beiden anderen Arten.
Hätten wir nicht nach Pinguinart getrennt, so hätten wir die Regressionsgerade \hat{g}(x) = 22.0 - 0.001 \cdot x (siehe graue Linie in der Grafik) für den gesamten Datensatz erhalten. In dem Fall wären wir also davon ausgegangen, dass der Schnabel um ca. 1 mm dünner ist, wenn der Pinguin unabhängig von der genauen Pinguinart 1 kg schwerer ist. Gleichzeitig gibt der Korrelationskoeffizient für den gesamten Datensatz (r_{x,y} = -0.47) an, dass der Zusammenhang etwas niedriger ist als bei der Betrachtung mit getrennten Gruppen.
Obwohl sich die Datensätze stark voneinander unterscheiden (siehe Grafik), erhalten wir für alle vier Datensätze den gleichen Korrelationskoeffizient und die gleiche Regressionsgerade, sowie weitere gleiche Kennzahlen.
Dies verdeutlicht uns zunächst einmal wie sinnvoll es ist außer zusammmenfassende Kennzahlen auch Grafiken anzusehen, um die Struktur der Daten zu verstehen.
Weiter zeigt uns das Beispiel, dass die Annahme eines linearen Zusammenhangs grundlegend zutreffen muss, um aus der berechnet Regressionsgerade und dem Korrelationskoeffizienten zuverlässige Schlüsse ziehen zu können. Dies ist hier im Datensatz 2 und 4 (rechts in der Abbildung) nicht der Fall. Hier beschreibt die Regressionsgerade die Daten schlecht, obwohl der Korrelationskoeffizient einen hohen Wert aufweist. Beim Datensatz 4 (unten rechts in der Abbildung) sehen wir insbesondere, dass die Beobachtungen nur zwei verschiedene x-Werte annehmen. Es ist daher zweifelhaft, ob hier der durch die Regressionsgerade beschriebene lineare Zusammenhang besteht. Schließlich zeigt uns der Datensatz 3 (unten links in der Abbildung), welchen Einfluss ein einzelner großer Außreiser haben kann: Die Gerade beschreibt die meisten Beobachtungen noch recht gut, allerdings ist die Steigung verzerrt.
Diese Lerneinheit “Deskriptive Statistik” wurde von Roland Fried und Christina Mathieu unter Mithilfe von Merle Mendel und Klemens Schmidt an der Technischen Universität Dortmund entwickelt. Es ist lizenziert unter der CC-BY-SA 4.0 Lizenz und ist verfügbar auf ORCA.nrw.
Horst, Allison Marie, Alison Hill, und Kristen B. Gorman. 2020. palmerpenguins: Palmer Archipelago (Antarctica) penguin data. https://doi.org/10.5281/zenodo.3960218.