Hypothesentest und Konfidenzintervalle

Zusammenfassung
In diesem Kapitel behandeln wir einen Hypothesentest und Konfidenzintervalle für die einfache lineare Regression. Wir erklären, wie Konfidenzintervalle berechnet werden und wie die Hypothese getestet werden kann, dass die Regressionsgerade eine vorgegebene Steigung \beta_0 aufweist. Insbesondere werden wir erklären, wie die Hypothese getestet werden kann, dass die erklärende Variable keinen Einfluss auf die abhängige Variable hat.

Lernziele: Am Ende des Kapitels können Sie

  • den t-Test für die Hypothese \beta = \beta_0 auf konkrete Daten anwenden und das Ergebnis korrekt interpretieren.

  • Konfidenzintervalle für die Modellparameter berechnen.

1 T-Test für Regressionskoeffizienten

Im Zusammenhang mit dem linearen Regressionsmodell kann man diverse Hypothesen über die Modellparameter testen. Wir wollen an dieser Stelle zunächst die wichtigste Nullhypothese H_0:\beta=0 betrachten, d.h. dass die Steigung der Regressionsgeraden gleich 0 ist. Diese Nullhypothese bedeutet, dass die erklärende Variable x keinen Einfluss auf die abhängige Variable y hat. Je nach Sachkontext wird man diese Nullhypothese gegen die zweiseitige Alternativhypothese H_1: \beta\neq 0 oder gegen eine der einseitigen Alternativhypothesen H_1:\beta>0 bzw. H_1:\beta<0 testen. Die einseitige Alternativhypothese H_1: \beta>0 ist relevant, wenn wir von vornherein sicher sein können, dass die erklärende Variable keinen negativen Einfluss auf die abhängige Variable haben kann. Analog ist die einseitige Alternativhypothese H_1: \beta<0 relevant, wenn die erklärende Variable keinen positiven Einfluss auf die abhängige Variable haben kann. Gibt uns der Sachkontext keine derartige Vorinformation, so sollten wir immer die zweiseitige Alternativhypothese wählen.

Als Teststatistik zum Testen der Nullhypothese H_0:\beta=0 bietet sich zunächst die geschätzte Steigung \widehat{\beta} der Regressionsgeraden an. Um beurteilen zu können, ob \widehat{\beta} signifikant von 0 abweicht, standardisieren wir mit der Standardabweichung und erhalten so Z:= \sqrt{\sum_{i=1}^n(x_i-\bar{x})^2}\frac{\widehat{\beta}}{\sqrt{\sigma^2}} Z hat unter der Hypothese eine N(0,1)-Verteilung. Leider können wir Z noch nicht als Teststatistik verwenden, da wir den Parameter \sigma^2 nicht kennen. Diesen Makel können wir dadurch beheben, dass wir \sigma^2 durch den Schätzer s_{y|x}^2 ersetzen. Allerdings verändern wir dadurch die Verteilung von Z, da wir eine zusätzliche Quelle der Streuung einführen.

Definition 1 (T-Test) Wir testen die Nullhypothese H\colon\beta=0 mithilfe der T-Teststatistik T:= \sqrt{\sum_{i=1}^n (x_i-\bar{x})^2} \frac{\widehat{\beta}}{\sqrt{s_{y|x}^2}}. Diese Teststatistik hat unter der Nullhypothese eine t_{n-2}-Verteilung. Je nach Wahl der Alternativhypothese deuten entweder große oder kleine Werte von T auf eine Abweichung von der Nullhypothese in Richtung der Alternative oder sowohl große als auch kleine Werte. Im Einzelnen verfahren wir wie folgt:

  • H_1: \beta>0: Wir verwerfen die Nullhypothese zum Signifikanzniveau \alpha_{0}, wenn T>t_{n-2,1-\alpha_{0}}
  • H_1:\beta<0: Wir verwerfen die Nullhypothese zum Signifikanzniveau \alpha_{0}, wenn T<t_{n-2,\alpha_{0}}
  • H_1:\beta\neq 0: Wir verwerfen die Nullhypothese zum Signifikanzniveau \alpha_{0}, wenn T<t_{n-2,\alpha_{0}/2} \text{ oder } T>t_{n-2,1-\alpha_{0}/2}

Anmerkung. Gelegentlich möchte man die Hypothese testen, dass die Steigung der Regressionsgeraden einen vorgegebenen Wert \beta_0 hat. Als Teststatistik verwendet man folgende naheliegende Variation T=T_{\beta_0}:= \sqrt{\sum_{i=1}^n (x_i-\bar{x})^2} \frac{\widehat{\beta} -\beta_0}{\sqrt{s_{y|x}^2}}. Unter der Nullhypothese H_0:\beta=\beta_0 hat T eine t_{n-2}-Verteilung. Bei der zweiseitigen Alternative A:\beta\neq \beta_0 verwerfen wir die Nullhypothese wenn T\leq -t_{n-2,1-\alpha_{0}/2} oder T\geq t_{n-2,1-\alpha_{0}/2}. Bei der einseitigen Alternative A:\beta>\beta_0 verwerfen wir H wenn T\geq t_{n-2,1-\alpha_{0}}. Lautet die einseitige Alternative A:\beta<\beta_0, so verwerfen wir die Hypothese, wenn T\leq -t_{n-2,1-\alpha_{0}}.

Anmerkung. Die hier verwendeten Formeln für die T-Teststatistik kann man so umschreiben, dass man zur Berechnung von T nicht die Originaldaten benötigt, sondern nur die Zusammenfassungen \bar{x},\bar{y},s_x^2, s_y^2 und r_{x,y}. Es gilt \sum_{i=1}^n (x_i-\bar{x})^2 =(n-1)s_x^2 sowie \begin{split} s_{y|x}^2&=\frac{1}{n-2} \sum_{i=1}^n (y_i-\hat{\alpha}-\hat{\beta}x_i)^2 \\ &= \frac{1}{n-2} (1-r_{x,y}^2) \sum_{i=1}^n (y_i-\bar{y})^2 = \frac{n-1}{n-2} (1-r_{x,y}^2)\, s_y^2, \end{split} \tag{1} wobei wir die Definitionen von s_x^2 und s_y^2 sowie die Identität \sum_{i=1}^n (y_i-\hat{\alpha}-\hat{\beta}x_i)^2 = (1-r_{x,y}^2) \sum_{i=1}^n (y_i-\bar{y})^2. verwendet haben. Damit erhalten wir die folgende Formel für die T-Teststatistik zum Testen der Nullhypothese H_0:\beta=\beta_0: T=(\hat{\beta}-\beta_0) \frac{\sqrt{\sum_{i=1}^n (x_i-\bar{x})^2} }{ \sqrt{s_{y|x}^2} } = (\hat{\beta}-\beta_0) \sqrt{ \frac{(n-1)s_x^2}{\frac{n-1}{n-2} (1-r_{x,y}^2)s_y^2 } }= (\hat{\beta}-\beta_0) \sqrt{ \frac{(n-2)\, s_x^2}{ (1-r_{x,y}^2)s_y^2 } }.

Beispiel 1 Professor D. interessiert sich für die Abhängigkeit des Energieverbrauchs seiner Fernwärmeheizung von der morgendlichen Außentemperatur. Im November 2019 hat er dazu an 13 aufeinanderfolgenden Tagen die Außentemperatur (in Grad Celsius) um 7:00 morgens sowie den Energieverbrauch (in kWh) an diesem Tag abgelesen. Er liest die Daten wie folgt in R ein:

Daten <- data.frame(
  Temperatur = c(7.4, 7.8, 4.7, 3.0, 5.7, 12.4, 10.6, 11.1, 10.0, 9.5, 8.0, 6.0, 4.3),
  Energie = c(66, 101, 101, 119, 125, 103, 87, 62, 76, 91, 95, 96, 114)
  )
attach(Daten)
Daten

Wir wollen jetzt die Nullhypothese H_0:\beta=0 testen, d.h. dass die morgendliche Außen temperatur keinen Einfluss auf den Energieverbrauch hat. Im Sachkontext der Abhängigkeit des Energieverbrauchs der Heizung von der morgendlichen Außentemperatur macht nur die Alternativhypothese H_1:\beta<0 Sinn – wenn die Außentemperatur überhaupt einen Einfluss auf den Energieverbrauch hat, dann kommt nur eine monoton fallende Regressionsgerade in Frage. Wir berechnen die Teststatistik für den T-Test aus den Zusammenfassungen \bar{x},\bar{y},s_x^2, s_y^2 und r_{x,y} T=\hat{\beta}\, \sqrt{ \frac{(n-2)\, s_x^2}{ (1-r_{x,y}^2)s_y^2 } } = \frac{s_y}{s_x} r_{x,y} \, \sqrt{ \frac{(n-2)\, s_x^2}{ (1-r_{x,y}^2)s_y^2 } } =- \sqrt{\frac{(n-2)\, r_{x,y}^2 } {1-r_{x,y}^2}}=-\sqrt{\frac{11\cdot 0.6^2}{1-0.6^2 } } = -2.49. Der kritische Wert für den einseitigen T-Test zum Signifikanzniveau \alpha_{0}=0.05 ist in diesem Fall t_{11,0.05}=-1.80. Da der beobachtete Wert der Teststatistik kleiner als der kritische Wert ist, verwerfen wir die Nullhypothese H_0: \beta=0 zu Gunsten der Alternativhypothese H_1:\beta<0. Wir können also davon ausgehen, dass die morgendliche Außentemperatur einen negativen Einfluss auf den Energieverbrauch der Heizung hat.

Ergänzend berechnen wir noch den p-Wert, der in diesem Fall gegeben ist durch p=P_{H_0}(T\leq -2.49)=0.015. Bei Gültigkeit der Nullhypothese würden wir also einen kleineren oder gleichen als den beobachteten Wert der Teststatistik mit einer Wahrscheinlichkeit von 0.015 erhalten. Der p-Wert ist das kleinste Signifikanzniveau, zu dem wir die Nullhypothese noch verwerfen. Bei unseren Daten ist p<0.05, im Einklang damit, dass wir die Nullhypothese verworfen haben.

In der Praxis werden wir den T-Test fast immer mit Hilfe statistischer Software ausführen. In R verwenden wir dazu den Befehl lm und erhalten:

summary(lm(Energie ~ Temperatur))

Call:
lm(formula = Energie ~ Temperatur)

Residuals:
    Min      1Q  Median      3Q     Max 
-30.384  -6.058   2.917   5.361  26.381 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  125.638     13.033   9.640 1.07e-06 ***
Temperatur    -3.953      1.587  -2.492   0.0299 *  
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 15.89 on 11 degrees of freedom
Multiple R-squared:  0.3608,    Adjusted R-squared:  0.3027 
F-statistic: 6.208 on 1 and 11 DF,  p-value: 0.02995

Wir können jetzt den Wert der T-Teststatistik im Abschnitt Coefficients in der Zeile Temperatur und der Spalte t value ablesen. Bis auf Rundungsfehler erhalten wir denselben Wert t=-2.49, den wir bereits von Hand berechnet hatten. Der p-Wert p=0.0299, den wir in der Spalte mit der Überschrift Pr(>|t|) finden, ist der p-Wert zur zweiseitigen Alternativhypothese H_1:\beta\neq 0 und ist daher das doppelte des p-Werts zur einseitigen Alternativhypothese.

Aufgabe 1 Betrachten Sie den Datensatz trees, der in R standardmäßig vorhanden ist. Er enthält die beiden Merkmale Girth (Umfang des Stamms) und Height (Höhe des Baums). Wir wollen die Hypothese untersuchen, dass der Umfang des Stamms nicht von der Höhe des Baums abhängig ist. Berechnen Sie mit R den Wert der passenden Teststatistik. Wird die Hypothese zu einem Niveau von 5% verworfen?

2 Konfidenzintervalle für Regressionsparameter

Mithilfe der Ergebnisse, die wir über die Verteilung der Schätzer zusammengetragen haben, können wir jetzt Konfidenzintervalle für die drei Parameter des linearen Regressionsmodells herleiten.

Definition 2 (Konfidenzintervall für \beta) Der bedeutendste Parameter eines linearen Modells ist \beta, also die Steigung der Regressionsgeraden, weil dieser Parameter beschreibt, wie das Ergebnis des Experiments auf eine Änderung der erklärenden Variablen reagiert. Als Ausgangspunkt für die Bestimmung des Konfidenzintervalls nehmen wir die Tatsache, dass \hat{\beta} eine N(\beta, \frac{\sigma^2}{\sum_{i=1}^n (x_i-\bar{x})^2})-Verteilung hat. Also hat \frac{\hat{\beta}-\beta}{\sigma} \sqrt{\sum_{i=1}^n (x_i-\bar{x})^2} eine N(0,1)-Verteilung. Wenn wir jetzt den unbekannten Parameter \sigma^2 durch den Schätzer s_{y|x}^2 ersetzen, so verändert dies die Verteilung in eine t_{n-2}-Verteilung und somit gilt mit Wahrscheinlichkeit 1-\alpha_{0}, dass - t_{n-2,1-\alpha_{0}/2} \leq \frac{\hat{\beta}-\beta}{\sqrt{s_{y|x}^2}} \sqrt{\sum_{i=1}^n (x_i-\bar{x})^2} \leq t_{n-2,1-\alpha_{0}/2}. Durch Umformungen erhalten wir hieraus das folgende 1-\alpha_{0}-Konfidenzintervall für \beta: \Big[ \hat{\beta}- t_{n-2,1-\alpha_{0}/2} \frac{\sqrt{s_{y|x}^2}}{\sqrt{\sum_{i=1}^n (x_i-\bar{x})^2}} , \hat{\beta}+t_{n-2,1-\alpha_{0}/2} \frac{\sqrt{s_{y|x}^2}}{\sqrt{\sum_{i=1}^n (x_i-\bar{x})^2}} \Big]. Die Länge des Konfidenzintervalls ist umgekehrt proportional zu \sqrt{\sum_{i=1}^n (x_i-\bar{x})^2}; je breiter gestreut die x-Werte sind, umso präziser kann man die Steigung der Regressionsgeraden berechnen.

Definition 3 (Konfidenzintervall für \alpha) Jetzt nehmen wir als Ausgangspunkt die Tatsache, dass \hat{\alpha} eine N(\alpha, \frac{\sigma^2 \sum_{i=1}^n x_i^2}{n\sum_{i=1}^n (x_i-\bar{x})^2})-Verteilung hat. Entsprechend hat \frac{\hat{\alpha} -\alpha}{\sigma} \frac{ \sqrt{ n \sum_{i=1}^n (x_i-\bar{x})^2} }{ \sqrt{ \sum_{i=1}^n x_i^2}} eine N(0,1)-Verteilung. Ersetzen wir hier \sigma^2 durch den Schätzer s_{y|x}^2, so erhalten wir eine t_{n-2}-verteilte Zufallsvariable. Mit denselben Überlegungen und Umformungen wie beim Konfidenzintervall für \beta erhalten wir schließlich das folgende 1-\alpha_{0}-Konfidenzintervall für den Parameter \alpha \Big[\hat{\alpha}-t_{n-2,1-\alpha_{0}/2} \sqrt{s_{y|x}^2} \left( \frac{\sum_{i=1}^n x_i^2}{n \sum_{i=1}^n (x_i-\bar{x})^2}\right)^{1/2}, \hat{\alpha}+t_{n-2,1-\alpha_{0}/2} \sqrt{s_{y|x}^2} \left( \frac{\sum_{i=1}^n x_i^2}{n \sum_{i=1}^n (x_i-\bar{x})^2}\right)^{1/2} \Big].

Definition 4 (Konfidenzintervall für \sigma^2) Bei der Suche nach einem Konfidenzintervall für die Varianz des Fehlerterms verwenden wir die Tatsache, dass (n-2) s_{y|x}^2/\sigma^2 eine \chi_{n-2}^2-Verteilung hat, und daher mit Wahrscheinlichkeit 1-\alpha_{0} gilt, dass \chi^2_{n-2,\alpha_{0}/2} \leq (n-2)\frac{s_{y|x}^2}{\sigma^2} \leq \chi^2_{n-2,1-\alpha_{0}/2}. Durch Umformen erhalten wir ein 1-\alpha_{0}-Konfidenzintervall für \sigma^2: \left[(n-2)s_{y|x}^2 / \chi^2_{n-2,1-\alpha_{0}/2}, (n-2) s_{y|x}^2/ \chi^2_{n-2,\alpha_{0}/2} \right].

Anmerkung. Die Formeln für die obigen drei Konfidenzintervalle kann man so umschreiben, dass zu ihrer Auswertung nur die Zusammenfassungen \bar{x},\bar{y}, s_x^2,s_y^2, r_{x,y} benötigt werden. Wir zeigen dies exemplarisch für das Konfidenzintervall für \beta. Wegen Gleichung 1 erhalten wir \frac{s_{y|x}^2}{\sum_{i=1}^n (x_i-\bar{x})^2} =\frac{1-r_{xy}^2}{n-2}\frac{s_y^2}{s_x^2}, und somit ergibt sich das Konfidenzintervall \left[\hat{\beta}-t_{n-2,0.025} \sqrt{\frac{ (1-r_{xy}^2)s_y^2}{(n-2) s_x^2 }}, \hat{\beta} + t_{n-2,0.025} \sqrt{\frac{ (1-r_{xy}^2)s_y^2}{(n-2) s_x^2 }} \right]

Aufgabe 2 Betrachten Sie noch einmal die Daten aus Beispiel 1 und bestimmen Sie dazu ein 95%-Konfidenzintervall für \beta.

Konfidenzintervalle für die Regressionsparameter \alpha und \beta kann man relativ einfach aus dem R-Output ermitteln. Beide Konfidenzintervalle haben die Struktur \text{Schätzwert} \pm t_{n-2,1-\alpha_{0}/2} \cdot \text{geschätzte Standardabweichung des Schätzers}. Schauen wir nun noch einmal auf die R-Ausgabe:


Call:
lm(formula = Energie ~ Temperatur)

Residuals:
    Min      1Q  Median      3Q     Max 
-30.384  -6.058   2.917   5.361  26.381 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  125.638     13.033   9.640 1.07e-06 ***
Temperatur    -3.953      1.587  -2.492   0.0299 *  
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 15.89 on 11 degrees of freedom
Multiple R-squared:  0.3608,    Adjusted R-squared:  0.3027 
F-statistic: 6.208 on 1 and 11 DF,  p-value: 0.02995

Die geschätzte Standardabweichung des Schätzers findet man in der Spalte mit der Überschrift Std. Error direkt neben dem Schätzwert. Das Quantil der t_{n-2}-Verteilung kann man in Tabellen finden oder auch mit dem R-Befehl qt(0.975, n - 2) bestimmen. Für die oben betrachteten Daten erhalten wir t_{11,0.975}=2.20 und damit das 95\%-Konfidenzintervall [-7.44 , -0.46] für \beta.

Aufgabe 3 Bestimmen Sie ein 95%-Konfidenzintervall für \alpha aus den Daten aus Beispiel 1, indem Sie die passenden Werte aus der R-Ausgabe ablesen und die Struktur der Formel wie oben beschrieben ausnutzen.

Lösungen der Aufgaben

Der passende R-Befehl lautet:

summary(lm(Girth ~ Height, data = trees))

Call:
lm(formula = Girth ~ Height, data = trees)

Residuals:
    Min      1Q  Median      3Q     Max 
-4.2386 -1.9205 -0.0714  2.7450  4.5384 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)   
(Intercept) -6.18839    5.96020  -1.038  0.30772   
Height       0.25575    0.07816   3.272  0.00276 **
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 2.728 on 29 degrees of freedom
Multiple R-squared:  0.2697,    Adjusted R-squared:  0.2445 
F-statistic: 10.71 on 1 and 29 DF,  p-value: 0.002758

Hier kann im Abschnitt Coefficients in der Zeile Height und Spalte t value der Wert der Teststatistik zu 3.272 abgelesen werden. In der Spalte Pr(>|t|) lesen wir einen p-Wert von 0.00276 ab, sodass die Hypothese zu einem Niveau von 5% verworfen wird.

zurück zu Aufgabe 1

Die Grenzen des 95%-Konfidenzintervalls sind \hat{\beta}\pm t_{11,0.025}\sqrt{\frac{(1-r_{x,y}^2)\,s_y^2}{11\, s_x^2} } =-3.95\pm 2.2\, \sqrt{\frac{(1-0.6^2)\cdot 362.08}{11\cdot 8.36}}=-3.95\pm 3.49, und somit ergibt sich das 95%-Konfidenzintervall [-7.44 , -0.46 ]. Dieses Konfidenzintervall ist groß, zum einen, weil die Anzahl der Beobachtungen relativ klein ist, und zum anderen, weil die Daten weit um die Regressionsgerade streuen, was sich in einem relativ kleinen Korrelationskoeffizienten widerspiegelt.

zurück zu Aufgabe 2

Zunächst machen wir eine lineare Regression mit R und erhalten:

summary(lm(Energie~Temperatur, data=Daten))

Call:
lm(formula = Energie ~ Temperatur, data = Daten)

Residuals:
    Min      1Q  Median      3Q     Max 
-30.384  -6.058   2.917   5.361  26.381 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  125.638     13.033   9.640 1.07e-06 ***
Temperatur    -3.953      1.587  -2.492   0.0299 *  
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 15.89 on 11 degrees of freedom
Multiple R-squared:  0.3608,    Adjusted R-squared:  0.3027 
F-statistic: 6.208 on 1 and 11 DF,  p-value: 0.02995

Gemäß der Struktur der Formel für das 95%-Konfidenzintervall für \alpha ergibt sich also \hat{\alpha} \pm t_{11,0.975} \cdot \text{geschätzte Standardabweichung für $\hat{\alpha}$} = 125.6 \pm 2.2 \cdot 13 = 125.6 \pm 28.6 und somit das 95%-Konfidenzintervall [97 , 154.2] für \alpha.

zurück zu Aufgabe 3

Autor:innen

Die Lerneinheit “Hypothesentest und Konfidenzintervalle” wurde von Herold Dehling und Daniel Meißner an der Ruhr-Universität Bochum entwickelt. Es ist lizenziert unter der CC-BY-SA 4.0 Lizenz und ist verfügbar auf ORCA.nrw.