Der Satz von Bayes und bedingte Wahrscheinlichkeiten

In dieser interaktiven Anwendung werden der Satz von Bayes sowie bedingte Wahrscheinlichkeiten anhand von Baumdiagrammen motiviert. Zusätzlich betrachten wir die Sensitivität und Spezifität diagnostischer Tests in der Medizin als Anwendungsbeispiel.

Der Satz von Bayes

Wir motivieren den Satz von Bayes anhand eines Beispiels aus der Epidemiologie. Angenommen in der Grippesaison hat zu einem bestimmten Zeitpunkt eine von 6 Personen der Bevölkerung das Grippevirus. Nehmen wir weiter an, dass ein Test das Virus in einer Speichelprobe mit 60 Prozent Wahrscheinlichkeit nachweisen kann sofern die Person infiziert ist, und das jeder 5. Test ein falsch-positives Ergebnis liefert, wenn die Person nicht infiziert ist.
Frage: Mit welcher Wahrscheinlichkeit ist eine Person tatsächlich infiziert ist, wenn während der Grippesaison ihr Speicheltest auf das Virus positiv anschlägt?
Dazu benötigen wir etwas Notation: Wir bezeichnen mit \(E\) das Ereignis, dass eine Person mit dem Grippevirus infiziert ist. Mit \(H\) bezeichnen wir das Ereignis, dass die Person ein positives Testergebnis erhält.

Beobachtungsauftrag 1
Wir wollen die Situation zunächst als Baumdiagramm darstellen. Zeichnen Sie sich das zugehörige Baumdiagramm mit Hilfe der obigen Notation auf, welches die Situation modelliert. Wenn Sie fertig sind, klicken sie auf das untere Feld, um ihre Lösung mit der Musterlösung abzugleichen.


Offensichtlich gilt $$P(E)=1/6, P(\bar{E})=5/6 \text{ und } P_E(H)=3/5, P_{\bar{E}}(H)=1/5$$ Damit ergeben sich \(P_E(\bar{H})=2/5\) und \(P_{\bar{E}}(\bar{H})=4/5\). Um unsere Frage zu beantworten, benötigen wir die bedingte Wahrscheinlichkeit von \(E\) gegeben \(H\), also \(P_{H}(E)\). Bekannt ist lediglich \(P_{E}(H)\). Wir gelangen also zu dem Umkehrproblem, aus bekanntem \(P_{E}(H)\) die Wahrscheinlichkeit \(P_{H}(E)\) zu berechnen. Wenn die Wahrscheinlichkeiten \(P(H)\) und \(P(H\cap E)\) bekannt wären, wäre das Problem gelöst. Dann könnten wir einfach die Definition \(P_{H}(E)=\frac{P(H\cap E)}{P(H)}\) verwenden. Leider sind die Wahrscheinlichkeiten \(P(E\cap H)\) und \(P(H)\) in unserem Beispiel unbekannt.
Bevor wir die Aufgabe rein rechnerisch lösen, möchten wir zunächst Baumdiagramme als Hilfsmittel verwenden.

Beobachtungsauftrag 2
In Beobachtungsauftrag 1 haben wir bereits das Baumdiagramm zur Modellierung der Situation angefertigt. Tragen Sie nun die Werte für \(P(E)\), \(P(\bar{E})\), \(P_E(H)\) und \(P_{\bar{E}}(H)\) in das Baumdiagramm ein, und berechnen Sie die Schnittwahrscheinlichkeiten \(P(E\cap H)\), \(P(\bar{E}\cap H)\), \(P(\bar{E}\cap \bar{H})\) und \(P(E\cap \bar{H})\). Verwenden Sie hierfür die 1. Pfadregel und 2. Pfadregel (vergleichen Sie hierzu auch die interaktive Anwendung zu Baumdiagrammen, wenn Ihnen die Pfadregeln und der Satz von der totalen Wahrscheinlichkeit unbekannt sind). Berechnen Sie anschließend die Wahrscheinlichkeiten \(P(H\cap E)\) und \(P(H)\) mit Hilfe des Baumdiagramms, um letztlich \(P_H(E)\) als Antwort auf unsere Frage zu berechnen.
Wenn Sie fertig sind, klicken sie auf das untere Feld, um ihre Lösung mit der Musterlösung abzugleichen.


Rechnerische Lösung
Ohne graphische Hilfsmittel erhält man aus der Definitionsgleichung von \(P_{H}(E)\) unter Verwendung des Produktsatzes und, da \(E\) und \(\bar{E}\) eine Zerlegung von \(\Omega\) bilden, unter Verwendung des Satzes von der totalen Wahrscheinlichkeit $$P_H(E):=\frac{P(H\cap E)}{P(H)}=\frac{P(E)\cdot P_E(H)}{P(E)\cdot P_E(H)+P(\bar{E})\cdot P_{\bar{E}}(H)}=\frac{\frac{1}{6}\cdot \frac{3}{5}}{\frac{1}{6}\cdot \frac{3}{5}+\frac{5}{6}\cdot \frac{1}{5}}=\frac{\frac{3}{30}}{\frac{8}{30}}=\frac{3}{8}=0.375$$ Die Wahrscheinlichkeit dass eine Person tatsächlich infiziert ist, wenn während der Grippesaison ihr Speicheltest auf das Virus positiv anschlägt beträgt damit \(37.5\%\). Unser Beispiel ist zwar typisch, jedoch relativ einfach, da die Zerlegung von \(\Omega\) durch zwei Ereignisse \(E\) und \(\bar{E}\) bewirkt wurde. Allgemein können wir \(\Omega\) jedoch in \(n\) Ereignisse \(A_1,...,A_n\) zerlegen. Man kann dann ein Baumdiagramm mit \(2n\) Ästen (\(n\) Äste unter \(H\) und \(n\) Äste unter \(\bar{H}\)) konstruieren. Zur Berechnung der bedingten Wahrscheinlichkeit $$P_B(A_i):=\frac{P(B\cap A_i)}{P(B)}$$ wendet man dann den Produktsatz \(P(A\cap B)=P(A)\cdot P_A(B)\) für \(P(A)\neq 0\) auf den Zähler \(P(B\cap A_i)\) an, und den Satz von der totalen Wahrscheinlichkeit auf den Nenner \(P(B)\). Dies führt zum Satz von Bayes:
Satz von Bayes
Bilden die Ereignisse \(A_1,A_2,...,A_n\) mit \(P(A_i)\neq 0\) für alle \(i\) eine Zerlegung des Ergebnisraumes \(\Omega\) und ist \(B\) ein Ereignis mit \(P(B)\neq 0\), so gilt für jedes \(i\) $$P(A_i)=\frac{P(A_i)\cdot P_{A_i}(B)}{\sum_{j=1}^n P(A_j)\cdot P_{A_j}(B)}$$
Für den Sonderfall \(n=2\) erhält man damit mit \(A_1=A\) und \(A_2=\bar{A}\): $$P_B(A)=\frac{P(A)\cdot P_A(B)}{P(A)\cdot P_A(B)+P(\bar{A})\cdot P_{\bar{A}}(B)}$$

Anwendungsbeispiel: Sensitivität und Spezifität diagnostischer Tests in der Medizin

Als Anwendungsbeispiel für bedingte Wahrscheinlichkeiten und den Satz von Bayes betrachten wir in diesem Abschnitt die Sensitivität und Spezifität diagnostischer Tests in der Medizin. Wir haben oben bereits gesehen, dass die Wahrscheinlichkeit, dass ein Patient tatsächlich erkrankt ist wenn ein positives Testresultat vorliegt, nicht unbedingt sehr groß sein muss. Im obigen Beispiel ergab sich für letztere Wahrscheinlichkeit \(0.375\).

Die Sensitivität eines diagnostischen Testverfahrens gibt an, bei welchem Prozentsatz erkrankter Patienten die jeweilige Krankheit durch die Anwendung des Tests tatsächlich erkannt wird, d.h. ein positives Testresultat auftritt. Bezeichnen wir mit dem Ereignis \(A\) dass ein Patient erkrankt ist, und mit dem Ereignis \(B\) dass ein diagnostischer Test ein positives Ergebnis liefert, so können wir die Sensitivität schreiben als $$P(B|A)$$ Offensichtlich können wir diese als bedingte Wahrscheinlichkeit umschreiben als $$P(B|A)=\frac{P(B\cap A)}{P(A)}=\frac{P(B\cap A)}{P(A | B)P(B)+P(A|\bar{B})P(\bar{B})}=\frac{P(B\cap A)}{P(A\cap B)+P(A\cap \bar{B})}$$ wobei im vorletzten Schritt der Satz der totalen Wahrscheinlichkeit im Nenner verwendet wurde. Die Sensitivität wird nach der obigen Formel also definiert als der Quotient aus richtig positiven Testergebnissen \(P(A\cap B)\) und der Summe aus richtig positiven und falsch negativen Testergebnissen \(P(A\cap B)+P(A\cap \bar{B})\) im Nenner. Je höher die Sensitivität eines Tests ist, desto sicherer erfasst er die Erkrankung.

Die Spezifität eines diagnostischen Testverfahrens gibt die Wahrscheinlichkeit an, dass tatsächlich Gesunde, die nicht an der betreffenden Erkrankung leiden, im Test auch als gesund erkannt werden. Mit Hilfe der obigen Notation können wir die Spezifität auch schreiben als $$P(\bar{B}|\bar{A})$$ Mit Hilfe des Satzes der totalen Wahrscheinlichkeit und der Definition der bedingten Wahrscheinlichkeit können wir die Spezifität umschreiben zu $$P(\bar{B}|\bar{A})=\frac{P(\bar{B}\cap \bar{A})}{P(\bar{A})}=\frac{P(\bar{B}\cap \bar{A})}{P(\bar{A}|B)P(B)+P(\bar{A}|\bar{B})P(\bar{B})}=\frac{P(\bar{B}\cap \bar{A})}{P(\bar{A}\cap B)+P(\bar{A}\cap \bar{B})}$$ Anhand der obigen Gleichung erkennt man, dass man die Spezifität als den Quotienten aus richtig negativen Testergebnissen \(P(\bar{B}\cap \bar{A})\) und der Summe \(P(\bar{A}\cap B)+P(\bar{A}\cap \bar{B})\) aus falsch positiven und richtig negativen Testergebnissen – also allen Testergebnissen, denen tatsächlich keine Erkrankung zugrunde lag - definiert.

Beobachtungsauftrag 3

Nebenstehend sehen Sie ein Baumdiagramm, welches den Zusammenhang zwischen der Wahrscheinlichkeit \(P(B)\) eines positiven Ergebnisses des diagnostischen Tests und der Sensitivität und Spezifität veranschaulicht. Wir wollen uns nun einige Zusammenhänge klar machen.

  1. In der Grundeinstellung liegt eine Prävalenz \(P(A)=0.5\), eine Sensitivität \(P(B|A)=0.8\) und eine Spezifität \(P(\bar{B}|\bar{A})=0.95\) vor. Was passiert, wenn Sie die Sensitivität \(P(B|A)\) verringern oder erhöhen mit der Wahrscheinlichkeit \(P(B)\) eines positiven diagnostischen Testergebnisses?
  2. Welchen Wert von \(P(B)\) erhalten Sie für eine Sensitivität von \(P(B|A)=0.5\), wenn Sie die Spezifität und Prävalenz unverändert lassen? Ein solcher Test würde einem fairen Münzwurf entsprechen, um festzustellen ob ein kranker Patient tatsächlich krank ist. Wäre ein Test mit einer solchen Sensitivität und Spezifität geeignet, um die Prävalenz in der Grundgesamtheit zu schätzen?
  3. Gehen Sie von einer Prävalenz von 5 Prozent einer Erkrankung aus. Ein Pharmaunternehmen bewirbt einen neuen diagnostischen Test mit einer Sensitivität von 95%. Welche Spezifität benötigt der Test mindestens, wenn positive Diagnosen von Patienten mit maximal 10% Wahrscheinlichkeit auftreten sollen, \(P(B)\) also maximal 10% betragen darf?

Lösungen Beobachtungsauftrag 3
  1. Erhöhen Sie die Sensitivität \(P(B|A)\), so erhöht sich auch die Wahrscheinlichkeit \(P(B)\) eines positiven Testergebnisses. Der Grund hierfür liegt darin, dass aufgrund des Satzes der totalen Wahrscheinlichkeit der Pfad \(P(A)P(B|A)\) in die Wahrscheinlichkeit \(P(B)\) einfliesst. Verringert man die Sensitivität \(P(B|A)\), so verringert sich wegen desselben Grunds auch \(P(B)\).
  2. Wir erhalten \(P(B)=0.2750\). Die Wahrscheinlichkeit eines positiven diagnostischen Tests wäre also lediglich noch knapp die Hälfte der tatsächlichen Prävalenz \(P(A)=0.5\), der Test wäre also nicht wirklich brauchbar um die Prävalenz der Erkrankung zu schätzen. Der Test würde zu einer systematischen Unterschätzung der tatsächlichen Prävalenz führen.
  3. Stellt man die Sensitivität und Prävalenz auf 96 und 5 Prozent, so ergibt sich für eine Spezifität \(P(\bar{B}|\bar{A})\geq 0.95\), dass \(P(B)\\< 0.1\) ist. Somit gilt dann auch \(P(B)-P(A)\\< 0.05\). Konkret muss also die Spezifität mindestens 95% betragen, damit positive Diagnosen mit maximal 10% Wahrscheinlichkeit auftreten.


Beobachtungsauftrag 4 - Die Gutenberg Covid-19 Studie

Die Gutenberg-Covid-19-Studie untersuchte als prospektive repräsentative Kohortenstudie unter anderem die SARS-CoV-2 Prävalenz in einer Bevölkerungsstichprobe von \(N=10250\) Probanden. Details zur Studie finden Sie hier. Im Erhebungszeitraum Oktober 2020 bis April 2021 ergab sich eine Prävalenz in der repräsentativen Stichprobe von 3.7% (95% Konfidenzintervall: \([3,3;4,1]\)).

  1. Wir nehmen an, ein Covid-Schnelltest besitzt eine Sensitivität von 99% und eine Spezifität von 96%. Angenommen, alle Schnelltests werden auf Basis dieser Prävalenz, Sensitivität und Spezifität durchgeführt, wie hoch ist dann die Wahrscheinlichkeit, dass ein auf SARS-CoV-2 positiv getesteter Patient tatsächlich an SARS-CoV-2 erkrankt ist?
  2. Im RKI Lagebericht für das Bundesgebiet für den 06.07.2021 ergab sich eine Prävalenz von 4.5% bestätigter SARS-CoV-2 Infektionen. Wenn Sie diese Schätzung der Prävalenz für das Bundesgebiet als Alternative verwenden, was ergibt sich für Aufgabenteil 1. dann?
  3. Was können Sie allgemein für feste Sensitivität und Spezifität in Bezug auf den Einfluss der Prävalenz auf die Wahrscheinlichkeit aussagen, dass ein positiv getesteter Patient tatsächlich erkrankt ist?
  4. Die Prävalenz von 3.7% bezieht sich auf die repräsentativ gezogene Stichprobe der Studie. In der Bevölkerung ergibt sich auf Basis des RKI Lageberichts für das Bundesgebiet vom 31.05.2021 die folgende Prävalenzschätzung: Quelle: Gutenberg-Covid-19 Studie, Universitätsmedizin Mainz
    Nehmen Sie erneut an, dass ein Covid-Schnelltest eine Sensitivität von 99% und eine Spezifität von 96% besitzt. Berechnen Sie die Wahrscheinlichkeit, dass ein männlicher auf SARS-CoV-2 positiv getesteter Patient tatsächlich an SARS-CoV-2 erkrankt ist. Verwenden Sie dafür die Prävalenzschätzung für Männer. Berechnen Sie zudem Konfidenzschranken für die Wahrscheinlichkeit auf Basis des angegebenen 95% Konfidenzintervalls.

Lösungen Beobachtungsauftrag 4 - Die Gutenberg-Covid-19 Studie
  1. Wir müssen die bedingte Wahrscheinlichkeit $$P(A|B)$$ berechnen. Wir wissen, dass \(P(B|A)=0.99\), \(P(\bar{B}|\bar{A})=0.96\) und \(P(A)=0.037\). Somit ergibt sich \(P(B|\bar{A})=0.04\), \(P(\bar{B}|A)=0.01\) und \(P(\bar{A})=0.963\). Damit erhalten wir: $$P(A|B)=\frac{P(B | A)P(A)}{P(B)}=\frac{P(B | A)P(A)}{P(B | A)P(A)+P(B|\bar{A})P(\bar{A})}=\frac{0.99\cdot 0.037}{0.99\cdot 0.037+0.04\cdot 0.963}=0.4874251$$ Die Wahrscheinlichkeit, dass ein tatsächlich positiv getesteter Patient wirklich an SARS-CoV-2 erkrankt ist, beträgt damit 48.74%.
  2. Ersetzen wir \(P(A)=0.037\) durch \(P(A)=0.045\), so erhalten wir in Aufgabenteil 1. \(P(A|B)=0.538\).
  3. Um so höher die Prävalenz \(P(A)\) ist, desto höher ist die Wahrscheinlichkeit, dass ein tatsächlich positiv getesteter Patient an SARS-Cov-2 erkrankt ist (sofern Sensitivität und Spezifität fix sind).
  4. Wir verwenden nun \(P(A)=0.035\) mit Konfidenzinterval \([3,0;4,0]\). Für \(P(A)=0.035\) ergibt sich für Aufgabenteil 1. \(P(A|B)=0.4730\). Auf Basis der Endpunkte des 95% Konfidenzintervals erhalten wir ein 95% Konfidenzinterval für die Wahrscheinlichkeit \(P(A|B)\) als \([0,43;0,51]\). Würden wir die Studie also unendlich oft wiederholen, so würde für die Sensitivität und Spezifität aus Aufgabenteil 1 in 95 von 100 Wiederholungen der echte Wert von \(P(A|B)\) innerhalb des Intervalls \([0,43;0,51]\) liegen.