Der Einfluss der Klassenbreite auf das Histogramm

Das Histogramm ist eine grafische Zusammenfassung eindimensionaler reellwertiger Daten, durch die man sehr schnell erkennen kann, wie die Daten verteilt sind. Unter anderem kann man im Histogramm schnell erkennen, in welchem Bereich die Daten liegen und wo man besonders viele oder besonders wenige Daten findet.

Um das Histogramm zu definieren muss man zuvor eine Klasseneinteilung vornehmen, indem man den Wertebereich in \(K\) disjunkte Intervalle \((a_{k-1}, a_k] \) mit \(1\leq k\leq K\) und \(a_0 \lt a_1 \lt \ldots \lt a_K\) unterteilt, wobei die äußeren Grenzen \(a_0\) und \(a_K\) so gewählt sind, dass alle Daten \(x_1, \dots, x_n\) in dem Interval \((a_0,a_K]\) liegen. Das Histogramm ist dann eine Treppenfunktion, die auf jedem der Intervalle \((a_{k-1},a_k]\) konstant ist und dort den folgenden Wert annimmt \[ h_n(x)=\frac{\# \{ 1\leq i\leq n: a_{k-1}< x_i \leq a_k \}}{n(a_k-a_{k-1})}, \; x\in (a_{k-1},a_k]. \] Wir zählen also, wie viele Beobachtungen in dem Intervall \((a_{k-1},a_k]\) liegen und teilen anschließend durch \(n(a_k-a_{k-1})\). Um zu verstehen, weshalb wir das Histogramm so definieren, bemerken wir erst, dass \[ \frac{\# \{ 1\leq i\leq n: a_{k-1}< x_i \leq a_k \}}{n} \] den Anteil der Daten angibt, der in dem Intervall \((a_{k-1},a_k]\) liegt. Dies kann man als Schätzer für die Wahrscheinlichkeit einer Beobachtung in diesem Intervall auffassen. Anschließend teilen wir noch durch die Intervalllänge und erhalten dadurch eine empirische Dichte der Daten.

Nicht alle Autoren und auch nicht alle statistischen Pakete definieren das Histogramm so wie wir. Vielfach wird nicht durch \(n(a_k-a_{k-1})\) geteilt, und somit nur die Anzahl der Beobachtungen in jedem Intervall dargestellt. Wenn alle Klassen gleich lang sind, hat ein so definiertes Histogramm exakt dieselbe Form; es unterscheiden sich nur die Werte auf der Ordinate. Viele Argumente sprechen für unsere Definition des Histogramms. Das wichtigste Argument ist, dass das Histogramm nur so einen Schätzer der Dichtefunktion der den Daten zugrundeliegenden Verteilung liefert.

Die Wahl der Klasseneinteilung

Die entscheidende Herausforderung bei der Berechnung des Histogramms liegt in der Wahl der Klasseneinteilung, die durch die Intervallgrenzen \(a_0 \lt a_1 \lt \ldots \lt a_K\) festgelegt wird. Statistische Pakete wählen die Klassen automatisch, jedenfalls wenn man nicht explizit eigene Klassengrenzen vorgibt. Wir wollen in dieser Anwendung zeigen, wie die Wahl der Klassen das Aussehen des Histogramms beeinflusst und wie man die Klassengrenzen entsprechend optimal wählen sollte.

Meist wählt man alle Klassen gleich lang, sodass die Klassenbreite durch die Formel \[ b=\frac{a_K-a_0}{K} \] gegeben ist. Man kann jetzt entweder die Anzahl der Klassen festlegen oder aber die Klassenbreite, und dann den jeweils anderen Parameter mit der obigen Formel berechnen.

Wir betrachten einmal folgendes Beispiel: Ein:e Professor:in hat das Gewicht von allen 24 Tüten Schokolinsen aus einer Großpackung bestimmt; hier sind die Ergebnisse:

46.12 46.26 46.02 45.21 46.20 46.68
45.47 46.08 46.12 44.45 45.59 46.86
46.73 45.75 47.46 45.92 46.14 45.66
45.84 47.13 45.55 46.19 46.18 45.78

In dieser Darstellung kann man nicht viel erkennen. Mit etwas Suchen findet man das Gewicht der leichtesten Packung (44.45 g) und der schwersten Packung (47.46 g) — das Nenngewicht beträgt 45 g. Das Histogramm ist schon viel aufschlußreicher. Die interaktive Anwendung ist mit dem obigen Datensatz voreingestellt. Versuchen Sie nun mithilfe der Anwendung folgende Fragen zu beantworten:

Beobachtungsaufgaben:
  1. Variieren Sie die Klassenbreite mit Hilfe des Schiebereglers. Was fällt Ihnen auf? Bei welcher Klassenbreite erkennen Sie mehr Feinstruktur? Bei welcher Klassenbreite wird das Histogramm glatter?
  2. Angenommen, wir wiegen morgen die 24 Kleinpackungen aus einer anderen Großpackung, die in derselben Fabrik abgefüllt wurden. Wird das Histogramm dem der heutigen Daten ähnlich sein? Hängt die Antwort eventuell von der Klassenbreite ab?

Mit abnehmender Klassenbreite kann man mehr von der Feinstruktur in den Daten erkennen. Umgekehrt wird das Histogramm glatter, wenn die Klassenbreite zunimmt.

Bei kleiner Klassenbreite hat man nur wenige Daten in einer Klasse und entsprechend ist die statistische Unsicherheit groß, was darin zum Asudruck kommt, dass das Histogramm zu künftigen Daten stark vom aktuellen Histogramm abweichen wird. Diesen Effekt können Sie auch selber beobachten, wenn Sie das unten vorgeschlagene Experiment mit zufälligen Daten wiederholt durchführen.

Faustregeln für die optimale Wahl der Klasseneinteilung

In der Literatur findet man vor allem drei Regeln für die optimale Wahl der Klasseneinteilung:

  1. Die Regel von Sturges (1926) bezieht sich auf die Anzahl der Klassen; \[ K=1+ \left\lceil{\log_2 n}\right\rceil, \] wobei \(\log_2 n\) der Logarithmus zur Basis \(2\) ist und \(\left\lceil{\log_2 n}\right\rceil \) die kleinste ganze Zahl bezeichnet, die größer oder gleich \(\log_2 n\) ist.
  2. Die Regel von Scott (1979) ist eine Regel für die Klassenbreite \(b\), festgelegt durch \[ b=\frac{3.5 \cdot s_x}{n^{1/3}}, \] wobei \(s_x\) die empirische Standardabweichung der Daten ist, also die Wurzel aus der Stichprobenvarianz.
  3. Die Regel von Diaconis und Freedman (1981) ist ebenfalls eine Regel für die Klassenbreite: \[ b=\frac{2\, \mathrm{IQR}}{n^{1/3}}, \] wobei \(\mathrm{IQR}\) der Interquartilsabstand ist.

Bestimmen Sie die Klassenbreiten bzw. die Zahl der Klassen für die Gewichte der 24 Tüten mittels der obigen drei Faustregeln. Erstellen Sie zum Vergleich Histogramme mit der doppelten (halben) Anzahl an Klassen.

Experimente mit eigenen Daten

Sie können in dieser Anwendung auch eigene Daten eingeben und dazu das Histogramm erstellen lassen. Sammeln Sie eigene Daten, die Sie anschließend hier eingeben. Einige Ideen:

  1. Gewicht von Früchten eines Baumes (Äpfel, Kastanien) oder der Kartoffeln unter einer Pflanze.
  2. Länge der Rotphase an einer Ampel
  3. Tägliche Anreisezeit zur Uni
  4. Tägliche Aktienrenditen an \(n\) aufeinanderfolgenden Börsentagen: Ist \(x_t\) der Aktienkurs einer Aktie am Ende des Tages \(t\), so definiert man die Rendite für diesen Tag durch \[ r_t=\frac{x_t-x_{t-1}}{x_{t-1}}. \] Die Rendite gibt an, welchen Gewinn man an diesem Tag pro investiertem Euro gemacht hätte, wenn man diese Aktie am Vorabend gekauft hätte.

Bestimmen Sie jeweils die optimale Klassenbreite mit Hilfe der oben genannten Faustregeln.

Experimente mit zufälligen Daten

In der schließenden Statistik fassen wir die Daten als Realisierungen von Zufallsvariablen \(X_1,\ldots,X_n\) mit einer unbekannten Verteilung auf. Bei dieser Sichtweise ist das Histogramm auch die Realisierung einer Zufallsvariablen, die bei jeder Durchführung des Experiments ein anderes Aussehen hat. Um dies zu visualisieren, ziehen wir hier Zufallszahlen und bestimmen jedesmal dazu das Histogramm.

Beobachtungsaufgaben:
  1. Wählen Sie eine feste Stichprobengröße [\(n=50\) oder \(n=100\) sind eine gute Wahl], ziehen Sie anschließend \(n\) Zufallszahlen und betrachten Sie das zugehörige Histogramm. Wiederholen Sie dieses Experiment mehrfach bei fester Klassenbreite [z. B. gemäß der Regel von Scott, wobei Sie zur Vereinfachung anstelle der Stichprobenvarianz die theoretische Varianz der Verteilung nehmen können].
  2. Variieren Sie die Stichprobengröße \(n\) und lassen Sie dabei zunächst die Klassenbreite fest. Was fällt Ihnen auf, z.B. hinsichtlich der Variabilität der Histogramm-Ordinaten bei wiederholten Ausführungen des Experiments. Wie ändert sich der Abstand des Histogramms von der Dichtefunktion in Abhängigkeit von der Stichprobengröße? [Um einen Effekt zu erkennen, empfiehlt es sich, die Stichprobengröße zu vervierfachen, also etwa \(n=50\) und \(n=200\)].
  3. Variieren Sie bei einer festen Stichprobengröße [\(n=200\) oder \(n=400\) sind eine gute Wahl] die Klassenbreite. Was beobachten Sie, z.B. hinsichtlich des Abstands des Histogramms zur Dichtefunktion und der Variabilität der Histogramm-Ordinaten bei wiederholter Durchführung des Experiments.

Das Histogramm verändert sich bei jeder Ziehung, obwohl der zugrundeliegende Zufallsmechanismus stets derselbe ist. Diese Änderungen vermitteln einen Eindruck davon, wie groß die statistische Unsicherheit hinter dem Histogramm ist.

Mit zunehmender Stichprobengröße nimmt die Variabilität der Histogramm-Ordinaten ab und das Histogramm nähert sich der Dichtefunktion an. Allerdings ist der Abstand selbst bei Stichproben der Größe \(n = 200\) immer noch recht groß.

Bei zunehmender Klassenbreite wird die Variabilität der Histogramm-Ordinaten kleiner, weil wir mehr Beobachtungen in jeder Klasse haben. Zugleich bekommt man nur eine recht grobe Approximation der Dichtefunktion durch eine Treppenfunktion.