Eine statistische Untersuchung

Deskriptive Statistik

Zusammenfassung
Dieses Kapitel dient der Einführung in eine deskriptive statistische Analyse. Dazu werden zunächst die Schritte und Grundbegriffe einer statistischen Untersuchung eingeführt. Bei statistischen Analysen untersuchen wir sogenannte Merkmale. Diese werden auf verschiedenen Skalenniveaus gemessen, die hier vorgestellt werden. Begleitet wird das Kapitel von anschaulichen Beispielen und Aufgaben, die teilweise mit R bearbeitet werden können.

Lernziele: Am Ende des Kapitels können Sie

  • die grundlegenden Schritte einer statistischen Analyse erläutern.
  • die Begriffe Untersuchungseinheit, Grundgesamtheit, Stichprobe, Merkmal und Merkmalsausprägungen erklären und Beispiele benennen.
  • die Unterschiede zwischen den Merkmalstypen erklären, Beispiele benennen und den passenden Merkmalstypen zuordnen.
  • quantitative Merkmale klassieren.

Hinweis: Die mit einem gekennzeichneten Aufgaben können Sie durch schriftliches Rechnen lösen. Die mit gekennzeichneten Aufgaben setzen Grundkenntnisse der Programmierung mit der statistischen Software R voraus. Sie können R hier installieren, falls Sie R nicht auf Ihrem Rechner installiert haben. Zusätzlich empfiehlt sich die Installation einer integrierten Entwicklungsumgebung (IDE), wie zum Beispiel RStudio. Alternativ zur Installation können Sie die Web-Version webR direkt im Browser verwenden.

1 Einführung

Das Ziel einer statistischen Untersuchung ist das Gewinnen von Informationen aus erhobenen oder gesammelten Daten und häufig auch die Übertragung des Wissens dieser sogenannten Stichprobe auf die Allgemeinheit, auch Grundgesamtheit genannt.

flowchart LR
A[Daten] --- B(statistische <br> Techniken)
B --> C[Informationen]
Abbildung 1: Schema – Daten beinhalten Informationen.

Daten enthalten also Informationen, die wir mit statistischen Techniken herauslesen können. Beispielsweise kennen wir den Wert einer Aktie während des letzten Jahres. Die Daten sind also die Aktienwerte verknüpft mit den zugehörigen Zeitpunkten. Nun können wir diese Werte grafisch darstellen oder die mittlere Wachstumsrate berechnen und erhalten die Information, ob und wie stark der Wert der Aktie im letzten Jahr gestiegen oder gesunken ist.

Eine typische statistische Analyse könnte wie folgt aussehen:

  1. Überlegen einer Fragestellung oder Hypothese

  2. Erheben oder Sammeln von Daten

  3. Datenaufbereitung

  4. Deskriptive Analyse

  5. Modellbasierte Analyse

  6. Bericht oder Präsentation der Ergebnisse

Diese Schritte können bei Bedarf wiederholt werden.

Thema: Körpergröße von Handball- und Basketballspielern

  1. Hypothese: Basketballspieler sind im Mittel größer als Handballspieler

  2. Sammeln von Daten in Sportdatenbanken. Z.B. Bundesligaspieler und Bundesligaspielerinnen oder Spieler und Spielerinnen von anderen Ligen.

  3. Kommen die Daten aus verschiedenen Datenbanken, müssen diese erst einmal zu einem Datensatz zusammengeführt werden. Ist das Merkmal Körpergröße immer in der gleichen Einheit notiert? Wie gehen wir mit fehlenden Werten um? Welche zusätzlichen Merkmale, sogenannte Kovariablen (Geschlecht, Vereinszugehörigkeit, usw.), notieren wir?

  4. Mithilfe von Kennzahlen, wie z.B. arithmetischen Mittel (Durchschnitt), Maximum oder Minimum, und grafischen Darstellungen verschaffen wir uns einen Überblick über die Daten. Um einen ersten Eindruck über die Hypothese zu bekommen, berechnen wir den Durchschnitt aller Baskeballspieler und aller Handballspieler nach Sportart getrennt.
    Hier könnte zum Beispiel herauskommen, dass in dieser Stichprobe männliche Basketballspieler im Schnitt 1,98 Meter und männliche Handballspieler 1,95 Meter groß sind. Hier sind also Basketballspieler im Schnitt 3 cm größer als Handballspieler.
    ⚠ Achtung: Man sollte in dieser Analyse die Sportler nach Geschlecht trennen, da bekannt ist, dass Frauen im Schnitt kleiner als Männer sind. Wenn z.B. in der Basketballstichprobe 10% Frauen enthalten sind, aber in der Handballstichprobe 40% Frauen, dann wird man allein schon wegen der Verteilung des Geschlechts einen Größenunterschied zwischen den Gruppen feststellen, welcher nichts mit der Sportart zutun hat.

  5. Mithilfe von statistischen Modellen und Hypothesentests können wir berechnen, ob sich der oben gefundene Unterschied durch Zufälligkeiten in der Stichprobe erklären lässt, d.h. bei der Wahl von anderen Daten vielleicht kein oder sogar ein gegenteiliger Unterschied gefunden wird. In unserem Beispiel gehen wir davon aus, dass dies nicht der Fall ist. Dann nehmen wir an, dass unsere Hypothese stimmt. Man sagt auch, dass man einen statistisch signifikanten Größenunterschied zwischen den Vergleichsgruppen gefunden hat.

  6. Im Bericht legen wir unsere Hypothese dar und beschreiben die Vorgehensweise der Analyse. Je nach Adressaten werden die Daten (ausführlich) beschrieben und die verwendeten Methoden erklärt. Die Ergebnisse werden erläutert und im Kontext der Fragestellung interpretiert. Man kann einen Ausblick geben zu weiteren Fragen, die sich im Laufe der Untersuchung ergeben haben, z.B. ob unterschiedliche Ligen eine Rolle spielen. Schließlich erklären wir auch die Limitation der Untersuchung. In unserem Beispiel könnte man anmerken, dass wir lediglich den Profisport betrachtet haben und dass man beim Laien- und Freizeitsport möglicherweise andere Resultate erhalten würde.

Dies ist der erste Teil einer mehrteiligen Lerneinheit über deskriptive Statistik. In den folgenden Kapiteln werden wir nach der Einführung von grundlegenden Begriffen, die wir benötigen, Methoden der deskriptiven Statistik kennenlernen, sodass wir den 4. Schritt einer statistischen Untersuchung durchführen können.

2 Grundbegriffe der statistischen Untersuchung

Zunächst führen wir folgende drei Begriffe und ihre Synonyme ein: Untersuchungseinheit, Grundgesamtheit und Stichprobe. Diese beschreiben, für wen oder was wir uns in der statistischen Analyse interessieren.

Definition 1 (Untersuchungseinheit, Grundgesamtheit und Stichprobe)

  • Ein Einzelobjekt oder Individuum einer statistischen Untersuchung wird als Untersuchungseinheit bezeichnet. Sie werden auch Informations- oder Merkmalsträger genannt.

  • Die Menge aller Untersuchungseinheiten nennen wir Grundgesamtheit oder Population.

  • Eine Stichprobe bezeichnet eine Teilmenge der Grundgesamtheit, die erfasst und statistisch untersucht wird. Die Anzahl an Untersuchungseinheiten in einer Stichprobe ist die Stichprobengröße oder der Stichprobenumfang.

Die Untersuchungseinheiten sind also einzelne Objekte, die die Informationen enthalten, die uns interessieren, und die Grundgesamtheit ist eine Menge, die all diese Objekte enthält. Wenn wir die Informationen aller Untersuchungseinheiten der Grundgesamtheit kennen, können wir die Untersuchungsfrage bestmöglich beantworten. In den meisten Fällen ist es aber nicht möglich über die Grundgesamtheit alle Information zu erhalten, da eine sogenannte Vollerhebung zu teuer, zeitaufwendig oder schlicht unmöglich ist. Stattdessen wird dann eine Teilmengen der Grundgesamtheit, eine sogenannte Stichprobe untersucht.

Beispiel 1 (Alter von Studienanfängerinnen und Studienanfängern)

  • Untersuchungsfrage: Wie alt sind Studenten und Studentinnen an Universitäten in NRW zu Beginn Ihres Studiums?

  • Untersuchungseinheit: eine (ehemalige) Studentin / ein (ehemaliger) Student einer nordrhein-westfälischen Universität

  • Grundgesamtheit: alle (ehemaligen) Studentinnen und Studenten aller nordrhein-westfälischen Universitäten

  • Stichprobe: 100 aktuelle Studentinnen und Studenten, die auf dem Campus zufällig ausgewählter Universitäten befragt wurden

⚠ Beachten Sie: Selbst wenn wir die Daten der Grundgesamtheit hätten, erhielten wir keine exakte Zahl als Antwort, wie z.B. 19, da das Alter der Studentinnen und Studenten variiert und nicht alle 19 Jahre alt sind. Stattdessen erhalten wir die sogenannte Häufigkeitsverteilung, die für jedes Alter die Anzahl der Personen angibt, die so alt sind. Daraus könnten wir dann das exakte Durchschnittsalter oder bestimmte andere Kennzahlen berechnen.

In der Statistik möchten wir nach einer deskriptiven Analyse die Ergebnisse von der untersuchten Stichprobe auf die Grundgesamtheit übertragen.
Dies ist allerdings Teil der induktiven oder schließenden Statistik, während in der deskriptiven Statistik, die wir in diesem Kapitel behandeln, lediglich die Stichprobe beschrieben wird.

Anmerkung (Induktive Statistik).

In der induktiven Statistik werden durch die Analyse von Stichproben allgemeingültige Aussagen über die Grundgesamtheit getroffen. Hierbei werden mathematische Modelle, die auf stochastischen Gesetzmäßigkeiten basieren, verwendet, um Unsicherheiten solcher Schätzungen angeben zu können.

Wenn z.B. in einer Studie mit 1000 Teilnehmerinnen und Teilnehmern herausgefunden wird, dass diese im Durchschnitt 35485€ im Jahr verdienen, dann schätzen wir das Durchschnittseinkommen für die Grundgesamtheit auch in einem Bereich um dieser 35485€ ein. Allerdings ist das wahre Durchschnittseinkommen in der Grundgesamtheit sehr wahrscheinlich nicht exakt 35485€, sondern weicht sicherlich davon ab. Wie groß diese Abweichung sein könnte, kann mithilfe der Methoden der induktiven Statistik bestimmt werden.

Um Rückschlüsse auf die Grundgesamtheit zu ziehen, verwendet die induktive Statistik oft das Konzept der Zufallsstichprobe. Das bedeutet, dass jede Untersuchungseinheit die gleiche Wahrscheinlichkeit hat in der Stichprobe zu sein und sich die Stichprobe nicht strukturell von der Grundgesamtheit unterscheidet.

Ein Gegenbeispiel wäre z.B., wenn wir nur in Innenstädte lebende Personen nach ihrem Jahreseinkommen befragen. Dann können wir daraus nicht einfach Rückschlüsse auf die Jahreseinkommen in ganz Deutschland schließen, da die Einkommen je nach Wohnform unterschiedlich verteilt sind.

Es ist daher sinnvoll bei der Planung einer statistischen Untersuchung die Untersuchungseinheiten hinsichtlich des Untersuchungsziels durch sachliche, räumliche und zeitliche Kriterien zu identifizieren und differenzieren.

Beispiel 2 (Fortsetzung: Alter von Studienanfängerinnen und Studienanfängern)

Wir führen Beispiel 1 fort:

Die Untersuchungsfrage lautete: Wie alt sind Studenten und Studentinnen an Universitäten in NRW zu Beginn Ihres Studiums?

  • Kriterien:

    • sachlich: Studiengang (z.B. Mathematik, Lehramt, Ingenieurwesen), angestrebter Abschluss (Bachelor, Master)
    • räumlich: Universität (z.B. TU Dortmund, HHU Düsseldorf, …), Ort der Befragung (vielleicht sind ältere Studierende seltener auf dem Campus, da sie nebenbei arbeiten müssen)
    • zeitlich: Jahr des Studienbeginns (in NRW wurde 2013 die Zeit bis zum Abitur von 13 auf 12 Schuljahre reduziert, 2011 wurde die Wehrpflicht aufgehoben)

Aufgabe 1

Überlegen Sie sich eine oder mehrere statistische Fragestellungen und geben Sie dazu die passende Untersuchungseinheit, Grundgesamtheit und eine geeignete Stichprobe wie in Beispiel 1 an. Zählen Sie außerdem sachliche, räumliche und zeitliche Kriterien für Ihre Fragestellungen auf.

Im Folgenden werden wir auch immer wieder Aufgaben mit der statistischen Software R bearbeiten. Dazu verwenden wir oft den Datensatz penguins aus dem R-Paket palmerpenguins1, der Größenmessungen für 344 Pinguine enthält (Horst, Hill, und Gorman 2020). Für die Bearbeitung der Aufgaben müssen wir das Paket palmerpenguins mit den Funktionen install.packages() und library() installieren und laden.

Aufgabe 2

Machen Sie sich mit dem Datensatz penguins vertraut, indem Sie sich den Datensatz geeignet ausgeben lassen und die Hilfeseite aufrufen.

Überlegen Sie sich eine Fragestellung, die Sie mit den gegebenen Daten untersuchen könnten und überlegen Sie, was die Untersuchungseinheiten, was die Grundgesamtheit und was die Stichprobe ist. Benennen Sie sachliche, räumliche und zeitliche Kriterien, mit denen Sie die Untersuchungseinheiten differenzieren können.

  • Mit der Funktion help() können Sie die Hilfeseite beliebiger Funktionen und Objekte aufrufen.

  • Die Funktion head() gibt Ihnen die obersten 6 Zeilen eines Datensatzes aus.

  • Probieren Sie außerdem die Funktion str() aus.

Weitere Information erhalten Sie außerdem, wenn Sie die angegebene Quelle zum Paket lesen.

3 Merkmale und Merkmalstypen

Unser eigentliches Interesse gilt nicht den Untersuchungseinheiten selbst, sondern ihren Eigenschaften.

Definition 2 (Merkmale und Merkmalsausprägungen)

Als Merkmal werden Eigenschaften oder Größen der Untersuchungseinheiten bezeichnet, die in einer statistischen Untersuchung erhoben werden. Merkmalsausprägungen sind die möglichen Werte oder Kategorien, die ein Merkmal annehmen kann.

  • Univariate Daten erfassen ein Merkmal X pro Merkmalsträger.
  • Bivariate Daten erfassen zwei Merkmale (X, Y) pro Merkmalsträger.
  • Multivariate Daten erfassen m Merkmale (X_1, \dots, X_m) pro Merkmalsträger, m > 2.

Beispiel 3 (Fortsetzung: Alter von Studienanfängerinnen und Studienanfängern)

Wir führen Beispiel 1 fort:

Die Untersuchungsfrage lautete: Wie alt sind Studenten und Studentinnen an Universitäten in NRW zu Beginn Ihres Studiums?

  • Merkmal: Alter (in ganzen Jahren) zum Zeitpunkt des Studiumbeginns

  • Merkmalsausprägungen: 17, 18, 19, 20, usw.

Bemerkungen:

  • Notation:

    • Merkmale werden mit großen lateinischen Buchstaben notiert, z.B. X, Y, Z.

    • Erhobene Merkmalsausprägungen werden mit kleinen lateinischen Buchstaben notiert, z.B. x, y, z.

    • Wenn also von einer Stichprobe (x_1, \dots, x_n) eines Merkmals X gesprochen wird, beinhaltet unsere Stichprobe n Untersuchungseinheiten und x_i ist die Merkmalsausprägung der i-ten Untersuchungseinheit zum Merkmal X.

  • Bivariate oder multivariate Daten bestehen aus mehreren Merkmalen. Im weiteren Verlauf dieses Kapitels beschränken wir uns zunächst auf die Analyse eines einzelnen Merkmals. Es handelt sich dann um eine univariate Datenanalyse.

  • Als Merkmalsausprägungen kommen nicht nur natürliche oder reelle Zahlen in Frage:

    • Beruf: Pfleger, Arzt, Handwerker, Statistiker, etc.
    • Geschlecht: weiblich, männlich, divers
    • Schulnote: sehr gut, gut, befriedigend, ausreichend, mangelhaft, ungenügend

Merkmale werden in verschiedene Typen mit unterschiedlichen mathematischen Eigenschaften eingeteilt. Eine erste grobe Unterteilung sind qualitative und quantitative Merkmale. Diese kann man noch feiner unterteilen in nominal, ordinal und kardinal skalierte Merkmale. Man sagt auch ‚Die Merkmalsausprägungen liegen auf einer Nominal-, Ordinal- oder Kardinalskala’ oder ‚Das Merkmal wird auf einer Nominal-, Ordinal- oder Kardinalskala gemessen’.

Definition 3 (Skalenniveaus)

  • Ein Merkmal heißt qualitativ oder kategorial, wenn es eine Eigenschaft bezeichnet. Es zeichnet sich dadurch aus, dass man mit den Merkmalsausprägungen keine Rechenoperationen wie Addieren oder Multiplizieren durchführen kann. Genauer heißt ein qualitatives Merkmal

    • nominal oder nominal skaliert, wenn es sich bei den Merkmalsausprägung lediglich um Kategorien handelt, die sich nicht ordnen lassen.
      Beispiele: Beruf, Geschlecht, Haarfarbe

    • ordinal oder ordinal skaliert, wenn sich die Merkmalsausprägungen sinnvoll ordnen lassen.
      Beispiele: Nutri-Score, Schulnoten, akademische Abschlüsse

  • Ein Merkmal heißt quantitativ, wenn seine Ausprägungen ganzzahlige oder reellwertige Messwerte sind. Diese kann man ordnen und es können Rechenoperationen durchgeführt werden. Solche Merkmale werden auch metrisch, kardinal oder kardinal skaliert genannt.
    Beispiele: Alter, Körpergröße, Temperatur

  • Die Kardinalskala kann weiter unterteilt werden in die Intervallskala und Verhältnisskala. Bei der letzteren besitzt das Merkmal einen natürlichen Nullpunkt und man kann Aussagen treffen wie ‚doppelt so groß’ oder ‚doppelt so viel’. Bei Merkmalen auf der Intervallskala kann lediglich der Abstand zweier Ausprägungen gemessen werden.  Beispiel für Intervallskala: Zeitpunkte (Datum), IQ-Werte
    Beispiel für Verhältnisskala: Zeitdauer, Entfernung, Gewicht

  • Merkmale mit nur zwei Ausprägungen heißen auch dichotom oder binär.

  • Nominale Merkmale: Unterscheidung verschiedener Merkmalsausprägungen (=, \neq)
    Ordinale Merkmale: Unterscheidung und Ordnung verschiedener Merkmalsausprägungen (=, \neq, <, >)
    Kardinale Merkmale: Unterscheidung, Ordnung und Abstände von Merkmalsausprägungen (=, \neq, <, >, +, -), ggf. auch Verhältnisse von Merkmalsausprägungen (\cdot, :)

Eine andere Art der Klassifizierung ist die Unterteilung in diskrete und stetige Merkmale. Diese Kategorisierung bezieht sich auf die Anzahl der möglichen unterschiedlichen Merkmalsausprägungen.


Ein Zahlenraum ist überabzählbar, wenn er nicht endlich oder abzählbar ist. Eine abzählbare Menge lässt sich dadurch beschreiben, dass die Werte durchnummeriert werden können. Dies gilt z.B. offensichtlich für die natürlichen Zahlen, aber auch für die ganzen und rationalen Zahlen2. Für den Zahlenraum der reellen Zahlen lässt sich hingegen keine Nummerierung aller Elemente finden.3

Definition 4 (Diskrete und stetige Merkmale)

  • Ein Merkmal heißt diskret, wenn es endlich viele oder höchstens abzählbar unendlich viele verschiedene Merkmalsausprägungen gibt, d.h. ihre Ausprägungen lassen sich mithilfe der natürlichen Zahlen abzählen.
    Beispiele: Beruf, Geschlecht, Schulnoten, Punkte in einer Prüfung

  • Ein Merkmal heißt stetig, wenn es überabzählbar viele Werte annehmen kann, z.B. jede reelle Zahl in einem Intervall.
    Beispiele: Körpergröße, Temperatur, Alter

Bemerkungen:

  • Messungen von stetigen Merkmalen sind wegen der jeweiligen Messgenauigkeit diskret.
    Beispiele: Alter von Personen wird in ganzen Jahren gemessen. Die Körpergröße wird auf volle Zentimeter gerundet.
    Trotzdem behandeln wir solche Merkmale in der Praxis gerne als stetig, wenn die Messgenauigkeit „hinreichend genau” ist, sodass sehr viele verschiedene Messwerte auftreten können.

  • Die Unterscheidung von Merkmalstypen ist wichtig, da unterschiedliche statistische Methoden zur Verfügung stehen. Mehr dazu in den folgenden Teilen.

Beispiel 4 (Fortsetzung: Alter von Studienanfängerinnen und Studienanfängern)

Wir führen Beispiel 5 fort:

Die Untersuchungsfrage lautete: Wie alt sind Studenten und Studentinnen an Universitäten in NRW zu Beginn Ihres Studiums?

  • Merkmal: Alter (in ganzen Jahren) zum Zeitpunkt des Studienbeginns

  • Merkmalsausprägungen: 17, 18, 19, 20, usw.

  • Merkmalstyp: diskret und kardinal skaliert, (genauer gesagt ein Merkmal auf der Verhältnisskala)

Erklärung: Das Merkmal ist diskret, da es in ganzen Jahren gemessen wird und somit endlich viele Merkmalsausprägungen besitzt. Es wird auf der Kardinalskala gemessen, da es sich um quantitative Werte handelt, deren Abstände interpretierbar sind: eine 20 Jahre alte Studentin ist 3 Jahre jünger als ein 23 Jahre alter Student. Genauer gesagt wird sogar auf der Verhältnisskala gemessen, da Aussagen wie ‚Eine 40 Jahre alter Student ist doppelt so alt wie ein 20 Jahre alte Studentin.’ sinnvoll sind. 0 ist hier ein natürlicher Nullpunkt, auch wenn kein Erstsemester jemals 0 Jahre alt sein wird.

Aufgabe 3

Stellen Sie sich vor, dass Sie eine Umfrage auf dem Campus Ihrer Universität durchführen. Geben Sie Beispiele für

  • ein dichotomes Merkmal,
  • ein nominales Merkmal mit mehr als zwei Ausprägungen,
  • ein ordinales Merkmal und
  • ein kardinales Merkmal an.

Geben Sie außerdem für jedes Merkmal mind. zwei verschiedene Merkmalsausprägungen an.

Aufgabe 4

Der Datensatz penguins enthält 8 Merkmale. Geben Sie für jedes Merkmal die Merkmalsausprägungen an. Falls es mehr als 5 verschiedene sind, reicht eine Auswahl. Überlegen Sie sich nun für jedes Merkmal den passenden Merkmalstyp.


Der Datensatz penguins ist in R als tibble bzw. data.frame gespeichert. Man kann eine Spalte daher mithilfe des Spaltennamens „ansprechen”.

# aus Gründen der Übersicht wird hier die Funktion head() verwendet
head(penguins$island)
[1] Torgersen Torgersen Torgersen Torgersen Torgersen Torgersen
Levels: Biscoe Dream Torgersen

oder wie bei Matrizen über die Angabe der Spaltennummer

penguins[, 2]

Mithilfe der Funktion unique() werden uns nur unterschiedliche Einträge ausgegeben:

unique(penguins$island)
[1] Torgersen Biscoe    Dream    
Levels: Biscoe Dream Torgersen
# oder
unique(penguins[, 2])

Bei der Wahl des Merkmaltyps sollte man sich verschiedene Fragen stellen:

  • Kann man die Merkmalsausprägungen ordnen?
  • Kann man Rechenoperationen wie Addieren und Subtrahieren durchführen?
  • Kann ich die Distanz zwischen zwei Merkmalsausprägungen interpretieren?
  • Gibt es unendlich viele Merkmalsausprägungen? Wenn ja, sind es abzählbar viele?

Schauen Sie auch einmal in Abbildung 2. Dort sind die Merkmalstypen zusammengefasst.

4 Klassieren quantitativer Merkmale

In manchen Situationen ergibt es Sinn quantitative Merkmale mit vielen Merkmalsausprägungen zu klassieren. In diesem Fall fasst man die Merkmalsausprägungen in Klassen zusammen. Dabei muss jede mögliche Ausprägung genau einer Klasse zugeordnet werden können. Das Ergebnis nennt man auch klassiertes Merkmal. Kann man die gewählten Klassen ordnen, so ist das klassierte Merkmal nun ordinal skaliert.

Beispiel 5 (Lernerfolg)

  • Frage: Wie gut haben Studentinnen und Studenten den Inhalt einer Vorlesung verstanden?

  • Merkmal: Punktzahl einer Klausur
    mit Merkmalsausprägungen im Intervall [0, 60]

  • Klassiertes Merkmal: Klausurnoten
    mit Klassen: 5 = [0, 20]; 4 = (20, 30]; 3 = (30, 40]; 2 = (40, 50]; 1 = (50, 60]

Sei X also ein quantitatives Merkmal mit Ausprägungen in einem Intervall [u, o] \subseteq \mathbb{R}. Möchten wir eine Klassierung mit l Klassen durchführen, wählen wir eine Partition k_0 < k_1 < \dots < k_l mit k_0 \le u und k_l \ge o, sodass eine Merkmalsausprägung a zur j-ten Klasse gehört, wenn a im Intervall (k_{j-1}, k_j] liegt, also a \in (k_{j-1}, k_j].

Definition 5 (Klassengrenzen, Klassenbreite und Klassenmitte)

Mit der obigen Konstruktion der Klassen heißen k_{j-1} und k_{j} die Klassengrenzen der j-ten Klasse und noch genauer ist k_{j-1} die untere Klassengrenze und k_j die obere Klassengrenze.

Die Differenz der Klassengrenzen k_j - k_{j-1} heißt Klassenbreite der j-ten Klasse und die Mitte der j-ten Klasse \tilde{a}_j = \frac{k_{j-1} + k_j}{2} wird Klassenmitte genannt.

Bemerkung:

  • Wir haben die Klassen als links-offene Intervalle (k_{j-1},k_j] definiert. Oft wird bei der untersten Klasse die untere Grenze eingeschlossen [k_0, k_1]. Außerdem könnten auch rechts-offene Intervalle [k_{j-1},k_j) als Klassen verwendet werden.

  • Beim Klassieren eines Merkmals müssen wir uns Gedanken darüber machen, wie viele Klassen wir definieren möchten. Eine Faustregel besagt, dass die Anzahl der Klassen zwischen 5 und 20 liegen sollte.

  • Weiter müssen wir die Klassengrenzen festlegen:

    • Möglichkeit 1: Äquidistante Klassenbreiten, d.h. alle Klassen haben dieselbe Breite.

    • Möglichkeit 2: Wir wählen die Klassen so, dass in jeder Klasse ungefähr gleich viele Beobachtungen liegen.

    Natürlich sind auch andere Einteilungen möglich. Die Wahl sollte zum Kontext oder Fragestellung passen. Hierbei sollte man sich besonders Gedanken über die Randklassen machen.

  • Die Klassen müssen disjunkt sein und den gesamten Wertebereich überdecken, d.h. eine (beobachtete) Merkmalsausprägung muss eindeutig einer Klasse zugeordnet werden können.

  • Das klassierte Merkmal mit den Klassen als Merkmalsausprägungen ist nun ordinal skaliert.

Aufgabe 5

Fügen Sie zum Datensatz penguins ein weiteres Merkmal hinzu, indem Sie das Merkmal Gewicht (body_mass_g) in drei Klassen einteilen. Die Klassen sind wie folgt definiert:

  • „leicht” = [2500, 3500]
  • „mittel” = (3500, 5500]
  • „schwer” = (5500, 6500]

Überlegen Sie sich, wie Sie mit fehlenden Werten NA im Datensatz umgehen. Berechnen oder nennen Sie zusätzlich die Klassengrenzen, Klassenbreite und Klassenmitten wie in Definition 5 definiert.

Die Funktion ifelse() könnte Ihnen bei der Klasseneinteilung helfen. Folgendes Beispiel hilft Ihnen vielleicht die Funktionsweise von ifelse() zu verstehen:

x <- c(1, 1, 0, 0, 1, 0, NA)
x == 1
[1]  TRUE  TRUE FALSE FALSE  TRUE FALSE    NA
ifelse(x == 1, "eins", "null")
[1] "eins" "eins" "null" "null" "eins" "null" NA    

Sie können eine neue Spalte einem Datensatz data der Klasse data.frame auf folgende Weise hinzufügen: data$<Spaltenname> <- <Vektor / Liste der Länge nrow(data)>. <Beschreibung> bedeutet, dass Sie hier Ihren eigenen Code einfügen müssen.

Anmerkung (Klassieren von nominalen Merkmalen).

Es ist auch möglich nominal skalierte Merkmale zu gruppieren, in dem man die Merkmalsausprägungen sinnvoll in Gruppen einteilt. Dann kann man allerdings keine Klassenbreite oder Klassenmitte berechnen und das gruppierte Merkmal ist erneut nominal skaliert.

Beispiel:

Automarken mit den Merkmalsausprägungen: Audi, Ford, Honda, Mercedes, Toyota, VW, etc.

Gruppierung z.B. nach Herkunftsland mit den Ausprägungen: australisch, chinesisch, deutsch, marokkanisch, US-amerikanisch, etc.

5 Zusammenfassung

Bei einer statistischen Analyse verwenden wir Techniken und Methoden, um Informationen aus selbst erhobenen oder gesammelten Daten herauszulesen. Zu Beginn einer solchen Untersuchung steht meistens eine Fragestellung oder Hypothese, die untersucht werden soll. Die Grundgesamtheit (z.B. Erstsemester an der TU Dortmund) beinhaltet dann alle Objekte, sogenannte Untersuchungseinheiten (z.B. ein einzelner Erstsemester), die uns interessieren und Informationen zur Fragestellung beinhalten. In den meisten Fällen steht zur Analyse aber nur eine Teilmenge der Grundgesamtheit zur Verfügung. Diese nennen wir Stichprobe (z.B. Teilnehmerinnen und Teilnehmer einer Veranstaltung im ersten Semester). Merkmale (z.B. Alter, Geschlecht, Lieblingsschulfach) sind Eigenschaften, die an den Untersuchungseinheiten beobachtet werden können. Daher nennt man letztere auch manchmal Merkmalsträger statt Untersuchungseinheit. Der beobachtete Wert oder die Ausprägung eines Merkmals wird dann Merkmalsausprägung (z.B. 19 Jahre, weiblich, Mathematik) genannt.

Merkmale werden nach verschiedenen Typen unterschieden, da je nach Typ unterschiedliche statistische Methoden für die Analyse zur Verfügung stehen. In Abbildung 2 sind die verschiedenen Merkmalstypen zusammengefasst.

flowchart TD
A(Merkmal) --> B[qualitativ / kategorial]
A --> C[quantitativ / metrisch]
B --> D[nominal]
B --> E[ordinal]
C --> F[kardinal]
D --> G[diskret]
E --> G
F --> G
F --> H[stetig]
Abbildung 2: Merkmalstypen im Überblick

Merkmale mit vielen möglichen Merkmalsausprägungen kann man klassieren, indem eine geeignete Partition des Wertebereichs gewählt wird, sodass jede Ausprägung genau einer Klasse zugeordnet werden kann. Dies führt dazu, dass das klassierte Merkmal nur noch ordinal skaliert ist.

Lösungen der Aufgaben

Folgende Fragestellungen könnten Sie sich überlegt haben:

  • Frage: Wie lang ist der Arbeitsweg der Berufstätigen im Ruhrgebiet?

  • Untersuchungseinheit: eine berufstätige Person aus dem Ruhrgebiet

  • Grundgesamtheit: alle berufstätigen Personen aus dem Ruhrgebiet

  • Stichprobe: 300 aktuell berufstätige Personen aus dem Ruhrgebiet, die in zufällig ausgewählten Innenstädten des Ruhrgebiets befragt wurden

  • Kriterien:

    • sachlich: Beruf (z.B. Koch, Pfleger, Lehrer), wöchentliche Arbeitszeit (z.B. 40 Stunden, 30 Stunden)
    • räumlich: Wohnort (z.B. Dortmund, Bochum, Essen), Arbeitsort
    • zeitlich: Befragungsuhrzeit (z.B. 8 Uhr, 12 Uhr, 16 Uhr), Wochentag (z.B. Montag, Samstag)
  • Frage: Wie viel Geld geben Fahrgäste der Deutschen Bahn für eine Zugfahrt aus?

  • Untersuchungseinheit: ein (ehemaliger) Fahrgast der Deutschen Bahn

  • Grundgesamtheit: alle (ehemaligen) Fahrgäste der Deutschen Bahn

  • Stichprobe: 150 Fahrgäste, die an zufällig ausgewählten Bahnhöfen befragt wurden

  • Kriterien:

    • sachlich: Status der Fahrgäste (z.B. Kinder, Erwachsene, Studierende)
    • räumlich: Zuggattung (ICE, RE, S-Bahn)
    • zeitlich: Befragungzeit, Wochentag

Zurück zu Aufgabe 1

Mehr Informationen über den Datensatz können wir auf der Hilfeseite des Datensatzes erhalten. Um diese aufzurufen, können wir die Funktion help() verwenden.

# install.packages("palmerpenguins")
library(palmerpenguins)

help("penguins")

Auf der Hilfeseite werden die verschiedenen Merkmale einmal erklärt. Außerdem sind zu kategorialen Merkmalen oder kardinalen Merkmalen mit nur wenigen Ausprägungen die verschiedenen Ausprägungen angegeben. Um sich den Datensatz anzugucken, können wir uns mit der Funktion head() die ersten sechs Zeilen des Datensatzes ausgeben lassen.

head(penguins)

Mögliche Fragestellung:

  • Frage: Wie schwer sind die Pinguine auf dem Palmer-Archipel?

  • Untersuchungseinheit: ein einzelner Pinguin auf dem Palmer-Archipel

  • Grundgesamtheit: alle Pinguine auf dem Palmer-Archipel

  • Stichprobe: die 344 erhobenen Pinguine

  • Kriterien:

    • sachlich: Pinguinart (Adelie, Chinstrap, Gentoo), Geschlecht (männlich, weiblich)
    • räumlich: Erhebungsinsel (Biscoe, Dream or Torgersen)
    • zeitlich: Erhebungsjahr (2007, 2008, 2009)

Zurück zu Aufgabe 2

  • Dichotome Merkmale: Brillenträger (ja, nein), BAföG-Empfänger (ja, nein)

  • Nominale Merkmale: Studienfach (z.B. Mathematik, Biologie, Wirtschaftswissenschaften), Nationalität (z.B. deutsch, indisch, türkisch), Blutgruppe (A, B, AB, 0)

  • Ordinale Merkmale: höchster Bildungsabschluss (z.B. Mittlere Reife, Abitur, Bachelor), Zufriedenheit mit Studium (z.B. unzufrieden, zufrieden, sehr zufrieden), Arbeitsaufwand des Studienfachs (z.B. niedrig, mittel, hoch)

  • Kardinale Merkmale: Körpergröße (z.B. 162 cm, 183 cm), Entfernung des Wohnortes in Kilometern (z.B. 5 km, 30 km), Alter (z.B. 18 Jahre, 25 Jahre)

Zurück zu Aufgabe 3

  • Pinguinart (species):

    • Ausprägungen: Adélie, Chinstrap und Gentoo
    • Merkmalstyp: nominal
  • Insel (island):

    • Ausprägungen: Biscoe, Dream und Torgersen
    • Merkmalstyp: nominal
  • Schnabellänge (bill_length_mm):

    • Ausprägungen: 39.1, 39.5, 40.4, …
    • Merkmalstyp: kardinal
  • Schabeldicke (bill_depth_mm):

    • Ausprägungen: 18.7, 20.6, 15.2, …
    • Merkmalstyp: kardinal
  • Flügellänge (flipper_length_mm):

    • Ausprägungen: 181, 195, 225, …
    • Merkmalstyp: kardinal
  • Körpergewicht (body_mass_g):

    • Ausprägungen: 3750, 4675, 5400, …
    • Merkmalstyp: kardinal
  • Geschlecht (sex):

    • Ausprägungen: female und male
    • Merkmalstyp: dichotom
  • Jahr (year):

    • Ausprägungen: 2007, 2008 und 2009
    • Merkmalstyp: kardinal

Die kardinalen Merkmale Schnabellänge, Schnabeldicke, Flügellänge und Körpergewicht sind theoretisch stetige Merkmale. Durch die eingeschränkte Messgenauigkeit (höchstens eine Nachkommastelle) werden sie trotzdem diskret gemessen.

Zurück zu Aufgabe 4

Um herauszufinden, ob die drei Klassen alle beobachteten Gewichte abdecken, können wir uns mit den Funktionen min() und max() das niedrigste und das höchste beobachtete Gewicht ausgeben lassen. Da NAs in dem Datensatz vorliegen, muss na.rm = TRUE gesetzt werden.

# install.packages("palmerpenguins")
library(palmerpenguins)

min(penguins$body_mass_g, na.rm = TRUE)
[1] 2700
max(penguins$body_mass_g, na.rm = TRUE)
[1] 6300

Die Klassen decken folglich den gesamten Wertebereich ab Nun wollen wir das neue Merkmal erstellen. Dazu verwenden wir die Funktion ifelse():

Klassen <- ifelse(penguins$body_mass_g <= 3500, "leicht",
              ifelse(penguins$body_mass_g <= 5500, "mittel", "schwer"))

Jetzt speichern wir Klassen als weiteres Merkmal des Datensatzes ab. Hierzu erstellen wir einen neuen Datensatz. Dem neuen Merkmal wird der Name body_mass_class gegeben.

penguins_expanded <- penguins
penguins_expanded$body_mass_class <- Klassen

Zum Schluss überprüfen wir, ob das Erstellen des neuen Merkmals funktioniert hat.

penguins_expanded[, c("body_mass_g", "body_mass_class")]

Klassengrenzen, Klassenbreiten und Klassenmitten:

  • Klasse [2500, 3500]:
    • Klassengrenzen: 2500 und 3500
    • Klassenbreite: 3500 - 2500 = 1000
    • Klassenmitte: (2500 + 3500) / 2 = 3000
  • Klasse (3500, 5500]:
    • Klassengrenzen: 3500 und 5500
    • Klassenbreite: 2000
    • Klassenmitte: 4500
  • Klasse (5500, 6500]:
    • Klassengrenzen: 5500 und 6500
    • Klassenbreite 1000
    • Klassenmitte 6000

Zurück zu Aufgabe 5

Autor:innen

Diese Lerneinheit “Deskriptive Statistik” wurde von Roland Fried und Christina Mathieu unter Mithilfe von Merle Mendel und Klemens Schmidt an der Technischen Universität Dortmund entwickelt. Es ist lizenziert unter der CC-BY-SA 4.0 Lizenz und ist verfügbar auf ORCA.nrw.

Literatur

Horst, Allison Marie, Alison Hill, und Kristen B. Gorman. 2020. palmerpenguins: Palmer Archipelago (Antarctica) penguin data. https://doi.org/10.5281/zenodo.3960218.

Fußnoten

  1. Weitere Informationen zum palmerpenguins Datensatz finden Sie auf https://allisonhorst.github.io/palmerpenguins.↩︎

  2. Ein Beispiel wie die rationalen Zahlen durchnummeriert werden können, lässt sich im Wikipediaartikel https://de.wikipedia.org/wiki/Cantors_erstes_Diagonalargument#Vorgehen_bei_Cantors_erstem_Diagonalargument nachlesen.↩︎

  3. Ein Beweis kann man im Wikipediaartikel https://de.wikipedia.org/wiki/Cantors_zweites_Diagonalargument#Beweis_der_Überabzählbarkeit_der_reellen_Zahlen nachlesen.↩︎