Abschnittsübersicht

    • Dieser Selbstlernkurs Grundlagen der Statistik mit R deckt grundlegende Themenbereiche der Statistik ab, wie sie typischerweise in der Bachelorphase an Hochschulen gelehrt werden. Er ist im Projekt DigStat - Digitale Lerneinheiten in der Statistik in Zusammenarbeit von vier Arbeitsgruppen an vier Universitäten in Nordrhein-Westfalen entstanden. Mehr Informationen zu DigStat finden Sie auf der Projektwebseite.

      Aufbau

      Der Kurs ist in fünf Lerneinheiten gegliedert. Jede Lerneinheit besteht aus digitalen Skripten und STACK-Aufgaben.

      Die erste Lerneinheit bietet einen schnellen und praxisnahen Einstieg in die Statistik-Software R. Sie können R hier installieren, falls Sie R nicht auf Ihrem Rechner installiert haben. Zusätzlich empfehlen wir die Installation einer integrierten Entwicklungsumgebung (IDE), wie zum Beispiel RStudio. Alternativ zur Installation können Sie die Web-Version webR direkt im Browser verwenden.

      Die weiteren Lerneinheiten erklären grundlegende statistische Methoden und Verfahren, illustrieren diese mit passenden Beispielen und zeigen, wie man sie in R anwendet. Sobald die Grundlagen von R bekannt sind, können alle Lerneinheiten unabhängig voneinander bearbeitet werden, innerhalb einer Lerneinheit bauen die Kapitel jedoch aufeinander auf.

      Lernziele

      Die erfolgreiche Bearbeitung der Grundlagen der Statistik mit R verfolgt die folgenden übergeordneten Lernziele:

      • Sie können grundlegende Fragestellungen der Statistik beschreiben, einschlägige statistische Methoden und Verfahren benennen und sie auf reale Datensätze anwenden.
      • Sie können Daten aus verschiedenen Datenquellen in R aufbereiten, indem Sie mithilfe entsprechender Befehle ein R-Skript schreiben, um die anschließende statistische Analyse durchzuführen.
      • Sie können verschiedene statistische Verfahren zur Lösung eines Problems gegenüberstellen, indem Sie die Rahmenbedingungen und mathematischen Modellannahmen vergleichen, um entsprechende Grenzen dieser Verfahren abzuschätzen und ein für den vorliegenden Datensatz geeignetes Verfahren zu identifizieren.
      • Sie können einschätzen, inwiefern der Einsatz eines statistischen Verfahrens gerechtfertigt ist, indem Sie die mathematischen Modellannahmen bei einer konkreten Datenlage überprüfen, um die Aussagekraft der Ergebnisse, beispielsweise einer Studie, im Sinne der Statistical Literacy kritisch zu beurteilen.

      Spezifische Lernziele einer Lerneinheit werden jeweils zu deren Beginn im Detail beschrieben.

      Zielgruppe

      Grundlagen der Statistik mit R ist an alle gerichtet, die die Grundlagen der Statistik mathematisch verstehen und anwenden wollen. Dieser Kurs eignet sich sowohl für das Selbststudium als auch für den Einsatz in Lehrveranstaltungen, etwa zur Vor- oder Nachbereitung von Vorlesungen oder zur Vorbereitung auf Prüfungen. Die Themen sind insbesondere für Studierende der folgenden Studiengänge interessant:

      • Mathematik und Statistik
      • Data Science und Datenjournalismus
      • Ingenieurwissenschaften
      • Physik, Informatik, Pharmazie, Psychologie

      Danksagung

      Das Projekt DigStat - Digitale Lerneinheiten in der Statistik wurde im Rahmen der Förderlinie OERContent.nrw vom Ministerium für Kultur und Wissenschaft NRW gemeinsam mit der Digitalen Hochschule NRW gefördert.

      Wir bedanken uns außerdem bei zahlreichen Studierenden und Dozierenden, die unsere Materialien verwendet und kontrolliert haben.

    • Dieses Dokument enthält Informationen zur Verwendung der im Rahmen des Projekts DigStat veröffentlichten Materialien in Lehrveranstaltungen sowie zu ihrer Weiterentwicklung. Es richtet sich insbesondere an Dozierende, welche diese Materialien in ihrer Lehre einsetzen möchten.
    • Allgemeine Informationen zur Lerneinheit
      Klicken Sie hier für mehr Informationen zu den Inhalten, Lernzielen und Voraussetzungen.
      Inhalt

      Die Lerneinheit Einführung in R bietet einen praxisnahen Einstieg in die Anwendung der Statistik-Software R. Sie besteht aus 4 Kapiteln:

      • Einführung
      • Wie bekomme ich meine Daten in R hinein?
      • Erste Befehle anhand eines Datensatzes
      • Datenanalyse mit R

      Lernziele

      Am Ende dieser Lerneinheit können Sie

      • die unterschiedlichen Elemente der Benutzeroberflächen von R, RStudio und WebR identifizieren. Sie kennen die Vor- und Nachteile der verschiedenen Tools für die Datenanalyse.
      • Daten in R importieren. Sie sind in der Lage, Daten manuell durch Eingabe von Vektoren und Dataframes in R zu importieren, vorhandene Datensätze aus eigenen Dateien automatisiert einzulesen sowie Zusatzpakete mit Datensätzen aus R zu installieren.
      • Daten erkunden und filtern. Sie können Datensätze aus Zusatzpaketen installieren, grundlegende Funktionen zur Datenerkundung anwenden sowie Operatoren und logische Verknüpfungen zur Filterung der Daten gezielt einsetzen.
      • numerische Datenanalysen durchführen. Sie können numerische Zusammenfassungen erstellen, um zentrale Kenngrößen eines Datensatzes zu bestimmen und damit wesentliche Eigenschaften der Daten zu analysieren.
      • grafische Zusammenfassungen von Datensätzen erzeugen. Sie können grafische Darstellungen wie Säulen-, Histogramm- und Streudiagramme mithilfe des ggplot2-Pakets erzeugen, um die Verteilung und Beziehungen der Daten visuell zu analysieren.

      Voraussetzungen

      Für diese Lerneinheit sind keine speziellen Vorkenntnisse erforderlich. Die Einführung in die Arbeit mit R erfolgt anhand beispielhafter Aufgaben, die grundlegende Konzepte abdecken. Einfaches Interesse und die Bereitschaft, sich mit den Beispielen auseinanderzusetzen, sind alles, was Sie hier benötigen.

      Autor:innen

      Diese Lerneinheit wurde von Herold Dehling, Michael Kallweit, Daniel Meißner, Farhad Razeghpour und Katrin Rolka unter Mithilfe von Christian Müller an der Ruhr-Universität Bochum entwickelt.

    • Dieses Skript bietet Ihnen einen praxisnahen Einstieg in die Anwendung von R. Mithilfe theoretischer Erklärungen, praktischer Beispiele und Aufgaben lernen Sie, R für die Verarbeitung, Visualisierung und Interpretation von Daten einzusetzen.
    • In dieser Aufgabe nutzen Sie R, um die Häufigkeiten von Merkmalen in einer Datenmenge zu bestimmen. Dabei wenden Sie grundlegende statistische Auswertungsmethoden an.
    • In dieser Aufgabe nutzen Sie R, um die Quartile in der Verteilung eines Merkmals zu berechnen und den Interquartilsabstand zu bestimmen. Außerdem interpretieren Sie die Aussagekraft des Interquartilsabstands in Bezug auf die Streuung der Werte in einer Datenmenge.
    • In dieser Aufgabe verwenden Sie R, um zentrale statistische Kenngrößen wie den Mittelwert, die Standardabweichung und die Spannweite anhand eines Datensatzes zu berechnen.
    • Allgemeine Informationen zur Lerneinheit
      Klicken Sie hier für mehr Informationen zu den Inhalten, Lernzielen und Voraussetzungen.
      Inhalt

      Die Lerneinheit Deskriptive Statistik behandelt grundlegende Methoden für eine einfache deskriptive Datenanalyse. Sie besteht aus 6 Kapiteln:

      • Eine statistische Untersuchung
      • Häufigkeitsverteilung
      • Grafische Darstellungen einer Häufigkeitsverteilung
      • Kennzahlen für die Lage
      • Kennzahlen für die Streuung, Schiefe und Wölbung
      • Zweidimensionale Datenanalyse

      Lernziele

      Am Ende dieser Lerneinheit können Sie

      • einfache eindimensionale Datensätze deskriptiv analysieren, um mithilfe dessen kontextabhängige Fragestellungen zu beantworten. Dazu gehört, dass Sie eine geeignete Grafik zur Darstellung der Häufigkeitsverteilung aussuchen und diese auf Lage, Streuung, Schiefe und Wölbung der Häufigkeitsverteilung untersuchen.
      • einfache Methoden auf zweidimensionale Datensätze anwenden, um diese auf mögliche Zusammenhänge der beiden Merkmale zu untersuchen. Dabei können Sie außerdem den Unterschied zwischen statistischer Korrelation und Kausalität erklären.
      • die Limitationen einer deskriptiven Datenanalyse benennen. So können Sie erklären, warum die Ergebnisse einer deskriptiven Analyse mit Unsicherheiten behaftet sind, wenn Sie diese auf die Grundgesamtheit übertragen möchten.

      Voraussetzungen

      Diese Lerneinheit basiert auf den Inhalten der Veranstaltung "Deskriptive Statistik" für Erstsemester der Bachelorstudiengänge B.Sc. Statistik und B.Sc. Data Science an der TU Dortmund. Sie fordert lediglich grundlegende Mathematikkenntnisse. Stochastikkenntnisse sind hingegen in dieser Lerneinheit nicht notwendig.

      Autor:innen

      Diese Lerneinheit zur deskriptiven Statistik wurde von Christina Mathieu und Roland Fried unter Mithilfe von Merle Mendel und Klemens Schmidt an der Technischen Universität Dortmund entwickelt.

    • Kapitel 1: Eine statistische Untersuchung
    • Dieses Kapitel dient der Einführung in eine deskriptive statistische Analyse. Dazu werden zunächst die Schritte und Grundbegriffe einer statistischen Untersuchung eingeführt. Bei statistischen Analysen untersuchen wir sogenannte Merkmale. Diese werden auf verschiedenen Skalenniveaus gemessen, die hier vorgestellt werden.
    • In dieser Aufgabe sollen Sie noch einmal die Grundbegriffe einer statistischen Untersuchung rekapitulieren, indem Sie einen Lückentext ausfüllen.
    • In dieser Aufgabe ordnen Sie verschiedenen Merkmalen das zugeörige Skalenniveau zu.
    • Kapitel 2: Häufigkeitsverteilung
    • In diesem Kapitel wird das Konzept der Häufigkeitsverteilung eines Merkmals mit gegebener Stichprobe beschrieben, die dazu dient Daten sinnvoll zusammenzufassen. Dazu werden absolute und relative Häufigkeiten von Merkmalsausprägungen eingeführt.
    • In dieser Aufgabe berechnen Sie absolute und relative Häufigkeiten.
    • Kapitel 3: Grafische Darstellungen einer Häufigkeitsverteilung
    • In diesem Kapitel werden eine Reihe von grafischen Methoden zur Darstellung von Häufigkeitsverteilungen beschrieben. Diese müssen je nach Merkmalstyp passend gewählt werden. Bei den grafischen Darstellungen handelt es sich um: Stab- und Balkendiagramm, Kreisdiagramm, Histogramm, Häufigkeitspolygon und die empirische Verteilungsfunktion. Weiter wird ein kurzer Überblick über die Kerndichteschätzung und den Boxplot gegeben.
    • In dieser Aufgabe klassieren Sie zunächst eine nominal skalierte Stichprobe und berechnen die absoluten und relativen Häufigkeiten der Klassen. Schließlich überlegen Sie noch welches Balkendiagramm zur den gegebenen Daten gehört.
    • In dieser Aufgabe klassieren Sie eine gegebene Stichprobe nach gegebenen Voraussetzungen und berechnen die relativen Häufigkeiten sowie die Häufigkeitsdichte (d.h. Balkenhöhe der Histogrammbalken) der einzelnen Klassen.
    • In dieser Aufgabe zeichnen Sie eine empirische Verteilungsfunktion für eine gegebene Stichprobe.
    • In dieser Aufgabe wird Ihnen eine empirische Verteilungsfunktion gezeigt und Sie müssen Fragen zu der zugrundeliegenden Stichprobe beantworten.
    • Kapitel 4: Kennzahlen für die Lage
    • In diesem Kapitel wird das Konzept von Kennzahlen vorgestellt. Diese reduzieren die Informationen einer Stichprobe auf eine Zahl, welche dann eine gewisse Eigenschaft beschreibt. Wir beschäftigen uns besonders mit Kennzahlen der Lage und stellen dazu den Modalwert, das arithmetische Mittel, das geometrische Mittel, den Median und das \(p\)-Quantil vor. Außerdem wird der Boxplot eingeführt, welcher eine auf 5 Kennzahlen beruhende grafische Darstellung der Häufigkeitsverteilung ist.
    • In dieser Aufgabe liegen klassierte Daten vor und es muss ein arithmetisches Mittel berechnet werden. Dieses wird mit dem exakten arithmetischen Mittel der Ursprungsstichprobe verglichen.
    • In dieser Aufgabe werden verschiedene Lagemaße berechnet und entschieden in welchem Kontexten diese angewendet werden können.
    • In dieser Aufgabe wird das arithmetische Mittel und der Median berechnet und die Ergebnisse miteinander verglichen.
    • In dieser Aufgabe soll eine Wegstrecke optimiert werden. Dabei kann die Eigenschaft eines bestimmten Lagemaßes genutzt werden.
    • In dieser Aufgabe werden verschiedene Quantile für zwei Merkmale und Stichproben berechnet. Zusätzlich werden Sie Verständnisfragen zu Quantilen beantworten.
    • In dieser Aufgabe sehen Sie einen Boxplot und müssen dazu eine passende Stichprobe angeben.
    • In dieser Aufgabe sehen Sie einen Boxplot und müssen einige Fragen zu der zugrundeliegenden Stichprobe beantworten.
    • In dieser Aufgabe wird Ihnen eine Stichprobe gegeben und Sie müssen die Kennzahlen, die Sie zum Zeichnen eines verfeinerten Boxplots benötigen, angeben. Sie erhalten zum Schluss grafisches Feedback zu Ihrer Eingabe.
    • Kapitel 5: Kennzahlen für die Streuung, Schiefe und Wölbung
    • In diesem Kapitel wird das Thema Kennzahlen aus dem vorherigen Kapitel fortgesetzt. Kennzahlen reduzieren eine Stichprobe auf einen einzelnen Wert, der eine Eigenschaft der Häufigkeitsverteilung beschreibt. Wir konzentrieren uns nun auf Streuungsmaße und stellen dazu die Spannweite, den pp-Quantilsabstand, die empirische Varianz und Standardabweichung, die mediane absolute Distanz und die Entropie vor. Weiter besprechen wir die Schiefe und Wölbung von unimodalen Häufigkeitsverteilungen und geben jeweils eine Kennzahl dazu an.
    • In dieser Aufgabe werden Sie verschiedene Streuungsmaße berechnenen und zu diesen Verständnisfragen beantworten.
    • In dieser Aufgabe vergleichen wir die mittlere Jahrestemperaturen zweier Orte.
    • In dieser Aufgabe werden Sie anhand verschiedener Histogramme Fragen zur Schiefe und Wölbung beantworten.
    • Kapitel 6: Zweidimensionale Datenanalyse
    • Dieses Kapitel behandelt die zweidimensionale deskriptive Datenanalyse. Diese fokussiert sich auf die Untersuchung das Zusammenhangs zweier Merkmale. Dazu führen wir zunächst die zweidimensionale Häufigkeitsverteilung ein und erklären das Konzept von statistisch unabhängigen oder abhängigen Merkmalen. Um die Stärke eines statistischen Zusammenhangs zu quantifizieren kann man Zusammenhangsmaße verwenden. Hierzu besprechen wir verschiedene Kontingenzmaße und Korrelationsmaße. Letztere beschreiben insbesondere die Stärke eines linearen Zusammenhangs zweier mindestens ordinal skalierter Merkmale. Für einen linearen Zusammenhang können wir schließlich ein einfaches lineares Regressionsmodell bestimmen.
    • Diese Aufgabe beschäftigt sich mit der Abhängigkeit oder Unabhängigkeit von zweier in einer Stichprobe enthaltenen Merkmale.
    • Diese Aufgabe beschäftigt sich mit den bedingten Häufigkeiten einer zweidimensionalen Stichprobe.
    • In dieser Aufgabe werden Sie den Korrelationskoeffizient nach Pearson und den Korrelationskoeffizient nach Spearman berechnen sowie Verständnisfragen zu diesen beantworten.
    • In dieser Aufgabe werden die Koeffizienten \(\alpha\) und \(\beta\) einer Regressionsgerade Schritt-für-Schritt berechnet.
    • In dieser Aufgabe werden die Koeffizienten \(\alpha\) und \(\beta\) einer Regressionsgerade berechnet und eine Vorhersage für eine neue Beobachtung getroffen.
    • Allgemeine Informationen zur Lerneinheit
      Klicken Sie hier für mehr Informationen zu den Inhalten, Lernzielen und Voraussetzungen.
      Inhalt

      Die Lerneinheit Schätztheorie behandelt grundlegende mathematische Methoden zur Schätzung unbekannter Parameter auf Grundlage von Daten. Sie besteht aus 4 Kapiteln:

      • Schätzer
      • Schätzmethoden
      • Gütekriterien für Punktschätzer
      • Konfidenzintervalle

      Lernziele

      Am Ende dieser Lerneinheit können Sie

      • Schätzprobleme in einem Sachkontext modellieren, indem Sie den Sachkontext durch ein statistisches Modell beschreiben, um das Schätzproblem mathematisch zu analysieren.
      • einen Schätzer konstruieren, indem Sie die Maximum-Likelihood-Methode oder die Momentenmethode anwenden, um mithilfe dieses Schätzers aus gegebenen Daten einen Schätzwert für einen unbekannten Modellparameter zu berechnen.
      • einen Schätzer anhand verschiedener Qualitätskriterien beurteilen, indem Sie Kenngrößen wie den Bias und den MSE berechnen, um ihn mit anderen Schätzern zu vergleichen.
      • Konfidenzintervalle bei normalverteilten Daten berechnen, indem Sie die entsprechenden Formeln für Ein- oder Zweistichprobenprobleme anwenden, um Schätzunsicherheiten zu quantifizieren.
      • asymptotische Eigenschaften einer Folge von Schätzern oder Konfidenzintervallen visualisieren, indem Sie in R zufällige Daten simulieren, um die Auswirkungen großer Stichprobenumfänge auf die Schätzgenauigkeit und -präzision zu untersuchen.

      Voraussetzungen

      Für diese Lerneinheit benötigen Sie Grundkenntnisse aus einer einführenden Bachelor-Vorlesung zur Stochastik oder Wahrscheinlichkeitsrechnung. Insbesondere werden die folgenden Themen als bekannt vorausgesetzt: Verteilungen von Zufallsvariablen und Zufallsvektoren, bedingte Wahrscheinlichkeiten, stochastische Unabhängigkeit, Produkte von Verteilungen, Erwartungswert und Varianz, Gesetz der großen Zahlen, Normalverteilung und zentraler Grenzwertsatz.

      An manchen Stellen sind Beispiele und Aufgaben enthalten, für deren Verständnis und Bearbeitung Sie elementare Kenntnisse in der Statistik-Software R sowie der Paketsammlung tidyverse benötigen.

      Autor:innen

      Diese Lerneinheit wurde von Axel Bücher, Kathrin Möllenhoff und Christian Müller an der Heinrich-Heine-Universität Düsseldorf entwickelt.

    • Kapitel 1: Schätzer
    • In diesem Kapitel behandeln wir den theoretischen Rahmen und das grundlegende Vorgehen der Schätztheorie. Wir übertragen Sachkontexte in statistische Modelle und definieren den Begriff des Schätzers.
    • In dieser Aufgabe lernen Sie, einen gegebenen Sachkontext durch ein statistisches Modell zu beschreiben. Der Sachkontext ist hier die Lebensdauer von Glühlampen.
    • In dieser Aufgabe lernen Sie, einen gegebenen Sachkontext durch ein statistisches Modell zu beschreiben. Der Sachkontext ist hier die Anzahl der in einer Stadt zugelassenen Taxis.
    • In dieser Aufgabe lernen Sie, einen gegebenen Sachkontext durch ein statistisches Modell zu beschreiben. Der Sachkontext ist hier die Messung der Stromstärke in einer elektrischen Schaltung.
    • In dieser Aufgabe lernen Sie, eine Schätzfunktion zu verwenden, um aus einer Stichprobe einen Schätzwert zu berechnen. Der Sachkontext ist hier die Lebensdauer von Glühlampen.
    • In dieser Aufgabe lernen Sie, eine Schätzfunktion zu verwenden, um aus einer Stichprobe einen Schätzwert zu berechnen. Der Sachkontext ist hier die Anzahl der in einer Stadt zugelassenen Taxis.
    • Kapitel 2: Schätzmethoden
    • In diesem Kapitel behandeln wir mathematische Verfahren, mit denen Schätzer konstruiert werden können. Wir erklären jeweils das Prinzip, das dem Verfahren zugrunde liegt, und wenden es auf ausführlich durchgerechnete Beispiele an.
    • In dieser Aufgabe lernen Sie, einen Maximum-Likelihood-Schätzer zu berechnen. Die Zufallsvariablen folgen hier einer Gammaverteilung.
    • In dieser Aufgabe lernen Sie, einen Maximum-Likelihood-Schätzer zu berechnen. Die Zufallsvariablen folgen hier einer geometrischen Verteilung.
    • In dieser Aufgabe lernen Sie, einen Maximum-Likelihood-Schätzer zu berechnen. Die Zufallsvariablen folgen hier einer Gumbel-Verteilung.
    • In dieser Aufgabe lernen Sie, einen Maximum-Likelihood-Schätzer zu berechnen. Die Zufallsvariablen folgen hier einer Normalverteilung.
    • In dieser Aufgabe lernen Sie, einen Maximum-Likelihood-Schätzer zu berechnen. Die Zufallsvariablen folgen hier einer Pareto-Verteilung.
    • In dieser Aufgabe lernen Sie, einen Maximum-Likelihood-Schätzer zu berechnen. Die Zufallsvariablen folgen hier einer Poisson-Verteilung.
    • In dieser Aufgabe lernen Sie, einen Maximum-Likelihood-Schätzer zu berechnen. Die Zufallsvariablen folgen hier einer Weibull-Verteilung.
    • In dieser Aufgabe lernen Sie, den Momentenschätzer für den Parameter einer Exponentialverteilung zu berechnen.
    • In dieser Aufgabe lernen Sie, die Momentenschätzer für die beiden Parameter einer Gammaverteilung zu berechnen.
    • In dieser Aufgabe lernen Sie, den Momentenschätzer für den Parameter einer geometrischen Verteilung zu berechnen.
    • In dieser Aufgabe lernen Sie, die Momentenschätzer für die beiden Parameter einer kontinuierlichen Gleichverteilung zu berechnen.
    • In dieser Aufgabe lernen Sie, die Momentenschätzer für die beiden Parameter einer Lomax-Verteilung zu berechnen.
    • Kapitel 3: Gütekriterien für Punktschätzer
    • In diesem Kapitel behandeln wir mathematische Kriterien, mit denen die Qualität von Punktschätzern beurteilt werden kann. Wir untersuchen diese Eigenschaften eines Schätzers theoretisch und visualisieren sie mithilfe von Simulationen in R.
    • In dieser Aufgabe lernen Sie, einen Schätzer auf Erwartungstreue zu überprüfen und einen erwartungstreuen Schätzer zu konstruieren.
    • In dieser Aufgabe lernen Sie, gegebene Schätzer auf Erwartungstreue zu überprüfen und im Sinne der Effizienz zu vergleichen.
    • In dieser Aufgabe lernen Sie, gegebene Schätzer auf Erwartungstreue zu überprüfen und im Sinne der MSE-Effizienz zu vergleichen.
    • In dieser Aufgabe lernen Sie, den MSE von verschiedenen Schätzern im Bernoulli-Modell zu berechnen und die Schätzer auf MSE-Konsistenz zu überprüfen.
    • In dieser Aufgabe lernen Sie, in der mathematischen Modellierung einer Interview-Situation einen erwartungstreuen Schätzer zu konstruieren und diesen mit einem bereits bekannten Schätzer im Sinne der Effizienz zu vergleichen.
    • Kapitel 4: Konfidenzintervalle
    • In diesem Kapitel behandeln wir die Berechnung von Konfidenzintervallen, mit denen Schätzunsicherheiten quantifiziert werden. Wir leiten für verschiedene Schätzprobleme Formeln zur Berechnung von Konfidenzintervallen her und visualisieren sie mithilfe von Simulationen in R.
    • In dieser Aufgabe lernen Sie, aus gegebenen Daten ein Konfidenzintervall für einen unbekannten Erwartungswert zu berechnen. Der Sachkontext ist hier die Qualitätskontrolle bei der Abfüllung von reinem Ethanol.
    • In dieser Aufgabe lernen Sie, aus gegebenen Daten ein Konfidenzintervall für einen unbekannten Erwartungswert zu berechnen. Der Sachkontext ist hier die Zubereitung einer isotonischen Kochsalzlösung.
    • In dieser Aufgabe lernen Sie, in einem Zweistichprobenproblem aus gegebenen Daten ein Konfidenzintervall für die Differenz der beiden unbekannten Erwartungswerte zu berechnen. Der Sachkontext ist hier die Qualitätskontrolle bei der Produktion von Tabletten eines bestimmten Arzneimittels.
    • In dieser Aufgabe lernen Sie, eine untere Schranke für den Stichprobenumfang zu berechnen, sodass ein Konfidenzintervall zu einer gegebenen Irrtumswahrscheinlichkeit eine vorher festgelegte Genauigkeit einhält. Der Sachkontext ist hier die Qualitätskontrolle bei der Abfüllung von reinem Ethanol.
    • In dieser Aufgabe lernen Sie, eine untere Schranke für den Stichprobenumfang zu berechnen, sodass ein Konfidenzintervall zu einer gegebenen Irrtumswahrscheinlichkeit eine vorher festgelegte Genauigkeit einhält. Der Sachkontext ist hier die Zubereitung einer isotonischen Kochsalzlösung.
    • In dieser Aufgabe lernen Sie, aus gegebenen Daten ein Konfidenzintervall für eine unbekannte Varianz zu berechnen. Der Sachkontext ist hier die Qualitätskontrolle bei der Abfüllung von reinem Ethanol.
    • In dieser Aufgabe lernen Sie, aus gegebenen Daten ein Konfidenzintervall für eine unbekannte Varianz zu berechnen. Der Sachkontext ist hier die Zubereitung einer isotonischen Kochsalzlösung.
    • Allgemeine Informationen zur Lerneinheit
      Klicken Sie hier für mehr Informationen zu den Inhalten, Lernzielen und Voraussetzungen.
      Inhalt

      Die Lerneinheit Statistische Hypothesentests behandelt allgemeine Grundlagen der Test-Theorie. Außerdem werden Tests verschiedenen Typs eingeführt und deren Anwendung an Beispielen verdeutlicht. Sie besteht aus 9 Kapiteln:

      • Inhaltliche Einführung und Grundbegriffe
      • Gauß-Test als einführendes Beispiel für parametrische Tests
      • Einstichproben-t-Test
      • Zweistichproben-t-Test (unverbunden)
      • t-Tests für verbundene Stichproben
      • Hypothesentests in der linearen Regression und Simpson's Paradox
      • F-Test
      • Mann-Whitney-U-Test als Beispiel für einen nicht-parametrischen Test
      • Chi-Quadrat-Unabhängigkeitstest als Beispiel für einen semi-parametrischen Test

      Die folgende Abbildung zeigt die Bezüge zwischen den genannten Kapiteln. Knotenpunkte mit abgerundeten Ecken symbolisieren Unterthemen, die in dem hierarchisch höher angesiedelten Kapitel behandelt werden. Die Pfeile geben eine grobe Orientierung, in welcher Reihenfolge die Kapitel bearbeitet werden sollten. Verbindungen ohne Pfeil stellen Spezialfälle der darüberliegenden Tests dar.

      aufbau.png
      Lernziele

      Am Ende dieser Lerneinheit können Sie

      • die grundlegenden Begriffe im Kontext statistischen Testens benennen.
      • die Unterschiede zwischen parametrischen und nichtparametrischen Tests erläutern.
      • zu einem vorliegenden Datensatz die passende Testart auswählen und einen entsprechenden Test anwenden.

      Voraussetzungen

      Grundkenntnisse in Wahrscheinlichkeitsrechnung werden vorausgesetzt. Beispielsweise sollten Binomial- und Normalverteilung bekannt sein.

      Autor:innen

      Diese Lerneinheit wurde von Riko Kelter, Alexander Schnurr und Susanne Spies unter Mithilfe von Annika Hirth an der Universität Siegen entwickelt.

    • Das einführende Video zur Lerneinheit Statistische Hypothesentests gibt einen Überblick über Aufbau und Inhalt der Materialien und mögliche Einsatzszenarien.
    • Kapitel 1: Inhaltliche Einführung
    • Das Video gibt eine Einführung in die Theorie statistischer Hypothesentests. Es erläutert grundlegende Konzepte und Objekte, die in der Theorie statistischen Testens nötig sind. Weiterführende Informationen finden sich auch im Kapitel zum Gauß-Test, das einen Einstieg in die Arbeit mit den restlichen Materialien bietet und viele der im Video angeschnittenen Konzepte aufgreift.
    • Wir behandeln in diesem Kapitel das Thema statistische Signifikanz von Hypothesentests und p-Werte. In der Auswertung von wissenschaftlichen Studien sind diese Begriffe von zentraler Bedeutung und sorgen nach wie vor oft für Missverständnisse. Ein solides Verständnis vom Konzept statistischer Signifikanz und p-Werten ist daher unerlässlich, um statistische Ergebnisse korrekt interpretieren zu können.
    • In dieser Aufgabe lernen Sie, wie Sie den p-Wert eines Hypothesentests interpretieren.
    • In dieser Aufgabe lernen Sie, wie Sie einen Binomialtest zur Überprüfung einer Hypothese verwenden. In Aufgabenteil (a) stellen Sie eine Hypothese auf. In Teil (b) führen Sie den Test durch. Dazu können sie R verwenden.
    • Kapitel 2: Gauß-Test
    • Wir behandeln in diesem Kapitel den Gauss-Test als einführendes Beispiel für einen parametrischen Hypothesentest. Die Herleitung der Teststatistik sowie praktische Beispiele veranschaulichen, wie der Test in R angewendet wird.
    • In dieser Aufgabe lernen Sie in fünf Teilaufgaben, wie Sie einen Zweistichproben-Gaußtest zur Überprüfung einer Hypothese verwenden.
    • In dieser Aufgabe lernen Sie in fünf Teilaufgaben, wie Sie einen Einstichproben-Gauß-Test zur Überprüfung einer Hypothese verwenden.
    • In dieser Aufgabe lernen Sie, wie Sie mithilfe eines Gauß-Tests den Mittelwert einer Stichprobe überprüfen.
    • In dieser Aufgabe lernen Sie, wie Sie mithilfe eines Gauß-Tests den Mittelwert zweier Stichproben vergleichen.
    • In dieser Aufgabe lernen Sie, wie Sie den Z-Test anwenden.
    • Kapitel 3: Einstichproben-t-Test
    • Wir behandeln in diesem Kapitel den Einstichproben-t-Test. Der Hypothesentest ist unter den am häufigsten in der Praxis eingesetzten parametrischen Tests. Der Einstichproben-t-Test verallgemeinert den Gauß-Test für eine Stichprobe und setzt die Varianz ebenfalls als unbekannt voraus. Ein praktisches Beispiel veranschaulicht, wie der t-Test in R angewendet wird.
    • In dieser Aufgabe lernen Sie in fünf Teilaufgaben, wie Sie einen zweiseitigen Einstichproben-t-Test zur Überprüfung einer Hypothese verwenden.
    • In dieser Aufgabe lernen Sie, wie Sie ein Konfidenzintervall berechnen. In Aufgabenteil (a) bestimmen Sie den dazugehörigen Standardfehler. In Teil (b) bestimmen Sie die Intervallgrenzen.
    • In dieser Aufgabe lernen Sie in fünf Teilaufgaben, wie Sie einen einseitigen Einstichproben-t-Test zur Überprüfung einer Hypothese verwenden und auswerten.
    • Kapitel 4: Zweistichproben-t-Test (unverbunden)
    • Wir behandeln in diesem Kapitel den t-Test für zwei unverbundene Stichproben. Dieser ist einer der am häufigsten in der Praxis eingesetzten parametrischen Hypothesentests. Die Unterschiede zwischen Student’s und Welch’s t-Test werden diskutiert und die Teststatistik motiviert und erläutert. Praktische Beispiele veranschaulichen, wie der Test in R angewendet wird.
    • In dieser Aufgabe lernen Sie in fünf Teilaufgaben, wie Sie einen Zweistichproben-t-Test zur Überprüfung einer Hypothese verwenden.
    • Kapitel 5: t-Test für verbundene Stichproben
    • Wir behandeln in diesem Kapitel den t-Test für zwei verbundene Stichproben. Der Hypothesentest ist unter den am häufigsten in der Praxis eingesetzten parametrischen Tests. Der t-Test für zwei verbundene Stichproben wird beispielsweise angewandt, wenn zwei Messungen derselben Individuen beziehungsweise Beobachtungseinheiten zu unterschiedlichen Zeitpunkten gemacht wurden und diese Messungen damit nicht mehr unabhängig voneinander sind. Es wird gezeigt, dass der t-Test für zwei verbundene Stichproben sich auf den Einstichproben-t-Test zurückführen lässt, die Teststatistik wird motiviert und erläutert. Ein praktisches Beispiel veranschaulicht, wie der t-Test für zwei verbundene Stichproben in R angewendet wird.
    • In dieser Aufgabe lernen Sie, wie Sie einen zweiseitigen Zweistichproben-t-Test zur Überprüfung einer Hypothese verwenden.
    • Kapitel 6: Hypothesentests in der linearen Regression
    • Wir behandeln in diesem Kapitel den t-Test für Regressionskoeffizienten im linearen Regressionsmodell.
    • In dieser Aufgabe lernen Sie in fünf Teilaufgaben, wie Sie einen t-Test für Regressionskoeffizienten zur Überprüfung einer Hypothese verwenden.
    • In dieser Aufgabe lernen Sie in zwei Teilaufgaben, wie Sie einen t-Test für Regressionskoeffizienten zur Überprüfung einer Hypothese verwenden.
    • Kapitel 7: Der F-Test
    • Wir behandeln in diesem Kapitel den F-Test für zwei Stichproben. Dieser eignet sich dazu, zwei Stichproben aus unterschiedlichen, normalverteilten Populationen auf Unterschiede in den Varianzen zu prüfen.
    • In dieser Aufgabe lernen Sie, wie Sie einen einseitigen F-Test zur Überprüfung einer Hypothese zur Varianz zweier Stichproben anwenden.
    • Kapitel 8: Ein nicht-parametrischer Test
    • Wir behandeln in diesem Kapitel den Mann-Whitney-U-Test für zwei unverbundene Stichproben, welcher eine nichtparametrische Alternative zum t-Test für zwei unverbundene Stichproben darstellt. Wir erläutern die Idee hinter dem Test, zeigen die Durchführung in R anhand eines Anwendungsbeispiels und diskutieren Vor- und Nachteile sowie die Voraussetzungen des Tests.
    • In dieser Aufgabe lernen Sie, wie Sie einen U-Test zur Überprüfung einer Hypothese zur Verteilung zweier Merkmale verwenden.
    • Kapitel 9: Ein semi-parametrischer Test
    • Wir behandeln in diesem Kapitel den Chi-Quadrat-Unabhängigkeitstest und dessen Anwendung in Kontingenztafeln.
    • In dieser Aufgabe lernen Sie in drei Teilaufgaben, wie Sie einen Chi-Quadrat-Unabhängigkeitstest zur Überprüfung einer Hypothese verwenden.
    • In dieser Aufgabe lernen Sie in fünf Teilaufgaben, wie Sie einen Chi-Quadrat-Unabhängigkeitstest zur Überprüfung einer Hypothese verwenden.
    • Allgemeine Informationen zur Lerneinheit
      Klicken Sie hier für mehr Informationen zu den Inhalten, Lernzielen und Voraussetzungen.
      Inhalt

      Die Lerneinheit Lineare Regression behandelt das einfache und das multiple lineare Regressionsmodell sowie die Implementation in R. Sie besteht aus 4 Kapiteln:

      • Einfache lineare Regression
      • Hypothesentests und Konfidenzintervalle bei der einfachen linearen Regression
      • Multiple lineare Regression
      • Bestimmtheitsmaß und F-Test

      Lernziele

      Am Ende dieser Lerneinheit können Sie

      • Experimente modellieren, deren Ergebnisse vom Wert einer oder mehrerer erklärenden Variablen und vom Zufall abhängen.
      • die Kleinste-Quadrate-Methode zur Schätzung der Parameter im linearen Regressionsmodell erklären und anwenden.
      • Hypothesentests über die unbekannten Parameter durchführen.
      • das Bestimmtheitsmaß \(R^2\) erklären und interpretieren.
      • eine Streuungszerlegung durchführen, das Ergebnis interpretieren und den F-Test anwenden.
      • praktische Berechnungen zu konkreten Daten mithilfe von R durchführen und die Ergebnisse interpretieren.

      Voraussetzungen

      Die Bearbeitung dieser Lerneinheit setzt Kenntnisse im Umfang der Lerneinheiten zur Schätz- und Testtheorie sowie Grundkenntnisse in R voraus. Zusätzlich sind Kenntnisse der Analysis und der Linearen Algebra erforderlich.

      Autor:innen

      Diese Lerneinheit wurde von Herold Dehling und Daniel Meißner unter Mithilfe von Elias Kaiser an der Ruhr-Universität Bochum entwickelt.

    • Kapitel 1: Einfache lineare Regression
    • In diesem Kapitel behandeln wir die einfache lineare Regression. Wir erklären das zugrunde liegende statistische Modell und wie mithilfe der Kleinste-Quadrate-Methode Schätzwerte für die Parameter der Regressionsgeraden ermittelt werden können.
    • In dieser Aufgabe lernen Sie, wie Sie eine Regressionsgerade bestimmen, indem Sie die Steigung und den \(y\)-Achsenabschnitt aus zusammengefassten Daten schätzen. Weiter lernen Sie, wie man Konfidenzintervalle für die Parameter bestimmt.
    • In dieser Aufgabe lernen Sie, wie Sie eine lineare Regression mithilfe von R ausführen. Zur Bearbeitung der Aufgabe ist R nicht notwendig.
    • Kapitel 2: Hypothesentest und Konfidenzintervalle bei der einfachen linearen Regression
    • In diesem Kapitel behandeln wir einen Hypothesentest und Konfidenzintervalle für die einfache lineare Regression. Wir erklären, wie Konfidenzintervalle berechnet werden und wie die Hypothese getestet werden kann, dass die Regressionsgerade eine vorgegebene Steigung \(\beta_0\)​ aufweist. Insbesondere werden wir erklären, wie die Hypothese getestet werden kann, dass die erklärende Variable keinen Einfluss auf die abhängige Variable hat.
    • In dieser Aufgabe lernen Sie, wie Sie in einem einfachen linearen Modell einen Hypothesentest zum Einfluss der unabhängigen Variable auf die abhängige Variable durchführen.
    • In dieser Aufgabe lernen Sie, wie Sie die lineare Abhängigkeit zwischen zwei Variablen mithilfe einer R-Ausgabe bestimmen.
    • Kapitel 3: Multiple lineare Regression
    • In diesem Kapitel stellen wir das multiple lineare Regressionsmodell vor, das zur Modellierung von Experimenten dient, bei denen das Ergebnis von mehreren erklärenden Variablen abhängt. Zur Schätzung der Parameter werden wir die Kleinste-Quadrate-Methode vorstellen, die Eigenschaften des Schätzers analysieren und Konfidenzintervalle bestimmen. Weiter werden wir zeigen, wie man Daten mithilfe des multiplen linearen Regressionsmodells in R analysieren kann.
    • In dieser Aufgabe lernen Sie, wie man die Designmatrix eines linearen Regressionsmodells angibt, wie man den Kleinste-Quadrate-Schätzer bestimmt und wie man einen künftigen Wert der abhängigen Variablen zu vorgegebenen Werten der erklärenden Variablen vorhersagen kann.
    • Kapitel 4: Bestimmtheitsmaß und F-Test
    • In diesem Kapitel stellen wir zunächst zum multiplen linearen Regressionsmodell das Bestimmtheitsmaß \(R^2\) vor, das auch unter dem Namen multipler Korrelationskoeffizient bekannt ist. Das Bestimmtheitsmaß gibt an, welcher Anteil der Streuung in den Ergebnissen der Experimente durch das Modell erklärt wird. Weiter werden wir den F-Test vorstellen, mit dessen Hilfe wir Hypothesen über die Parameter im multiplen linearen Regressionsmodell testen können. Schließlich werden wir erklären, wie man die vorgestellten Verfahren in R bei gegebenen Daten ausführen kann.
    • In dieser Aufgabe lernen Sie, wie Sie in einem linearen Regressionsmodell zu einem gegebenen Datensatz das Bestimmtheitsmaß mithilfe von R berechnen und wie Sie einen F-Test für die Hypothese, dass einige der erklärenden Variablen keinen Einfluss auf die abhängige Variable haben, durchführen.