Geschrieben von Oliver Lenz am 08. August 2005 23:31:05:
Jetzt nähere ich mich dessen, warum ich überhaupt mit Bayes angefangen habe. Von der MS ist bekannt, daß Frauen doppelt so häufig erkranken als Männer. Ich bezweifle das etwas. Jetzt könnte man sagen, daß das eine akademische Diskussion ist. Das sehe ich aber nicht so. Solange nach einem geschlechtsspezifischen Faktor gesucht wird - den es möglicherweise gar nicht gibt - ist, so befürchte ich, die Suche nach dem wirklichen Auslöser erschwert. Ich bezweifele nicht, daß die Diagnose MS zu 2/3 an Frauen gestellt wird und nur zu 1/3 an Männern. Aber ist das ein Beweis dafür, daß Frauen häufiger betroffen sind? Nein! Denn auch andere Diagnosen bekommen Frauen häufiger als Männer gestellt. Willkürliche Beispiele: in Deutschland wird Depression zu 2/3 an Frauen diagnostiziert. In den Niederlanden werden 62,1% der Diagnosen in einer Allgemeinpraxis an Frauen gestellt und zu 37,9% an Männern. Was steckt dahinter? Vermutlich das, was als "Krankheitsverhalten" bezeichnet wird. (Krankheitsverhalten: Wie reagiert ein Mensch auf vorhandene Symptome?) Bei gleichen Symptomen wird eine Frau im Durchschnitt früher einen Arzt aufsuchen, als ein Mann. Wir brauchen das nicht zu bewerten, sondern wir sollten diesen Fakt einfach zur Kenntnis nehmen. Für meine nachfolgende Betrachtung genügt es sogar, wenn wir geschlechtsspezifisches Krankheitsverhalten für denkbar halten. Dem wird sich wohl jeder anschließen können. Für meine Untersuchung nehme ich etwas harmloses: die Geschlechterverteilung in einer Physiotherapie. Um Wahrscheinlichkeiten berechnen zu können, brauchen wir ein Modell. Stellen wir uns daher vor, wir haben eine große Urne mit grünen und gelben Erbsen vor uns. Die Anzahl der Erbsen sei so groß, daß ein Auszählen unvorstellbar ist. Das ist jetzt das Modell aller Frauen und Männer, die in Deutschland eine Physiotherapie aufsuchen. Grüne Erbsen sind die Männer. Gelbe Erbsen sind die Frauen. Die Urne sind alle Physiotherapiepraxen Deutschlands. Um das Modell weiter zu vereinfachen, nehmen wir an, daß diese Urne nur in einem der folgenden Verhältnisse gefüllt sein kann: Entweder im Verhältnis 60/40 oder 50/50 oder 40/60. (Als erster Schritt auf dem Wege zur Wissen über die Wirklichkeit genügt das.) Ich möchte nun gerne wissen, in WELCHEM Verhältnis die vorliegende Urne gefüllt ist. Sprich: In welchem Verhältnis Frauen und Männer zur Physiotherapie gehen. Wiederum zwecks Einfachheit gehe ich davon aus, daß a priori alle drei Füllungsverhältnisse gleichwahrscheinlich sind. (Im Ernstfall würde ich vermuten, daß z. B. 60/40 wahrscheinlicher ist als 40/60 - denn ich habe ja schon auf die Urne gelinst, und es sah mir ganz so aus, als ob wesentlich mehr gelbe, als grüne Erbsen drinne waren. ;-) Aber das ist jetzt egal. Der Fehler, der sich daraus ergibt, ist nicht so groß, und vor allem: nicht dauerhaft. Mit jeder Stichprobe nähere ich mich - egal, welche Wahrscheinlichkeitsverteilung ich a priori angenommen habe - an die wirkliche Verteilung an. Also die Startwerte: Füllung1 (60/40) mit P(Fü1) = 0,33 Füllung2 (50/50) mit P(Fü2) = 0,33 Füllung3 (40/60) mit P(Fü3) = 0,33 Ich greife jetzt in eine Urne herein und hole eine Handvoll Erbsen (140 St.) raus. Siehe da, es sind 79 gelbe Erbsen und 61 grüne. (Dieses habe ich übrigens wirklich gemacht, denn ich habe in meiner Reha gebeten, für mich zu zählen!) Jetzt ändern sich die Wahrscheinlichkeiten! Das Bayessche Theorem sagt dazu aus: P(Füi|79:61) = P(79:61|Füi) ✕ P(Füi)/∑(P(79:61)|Füi ✕ P(Füi)) Ausgesprochen: Die Wahrscheinlichkeit, daß die Stichprobe 79:61 die Ursache Füllungi hat ist gleich Wahrscheinlichkeit eine Stichprobe 79:61 bei Füllung i zu erhalten multipliziert mit der Wahrscheinlichkeit, daß die Füllung i gewählt wurde geteilt durch die Summe von (Wahrscheinlichkeit, mit der die Probe 79:61 aus der Füllung i gezogen wird, multipliziert mit der Wahrscheinlichkeit, mit der die Füllung i gewählt wurde). Der Rest ist einfach. Eine Probe von 140 Erbsen mit genau 79:61 zieht man mit folgender Wahrscheinlichkeit bei den verschiedenen Füllungen: Füllung1: 4,69% Füllung2: 2,13% Füllung3: 0,00003% Die Wahrscheinlichkeiten ergeben sich wie folgt: P(Fü1) = 68,79% P(Fü2) = 31,17% P(Fü3) = 0,04% Aha. Nach meiner ersten Stichprobe kann ich mir also fast sicher sein, daß die Füllung nicht 40% Frauen und 60% Männer beträgt. Daß die Füllung 60/40 beträgt, ist mit ca. 69% am wahrscheinlichsten. Eine Füllung von 50/50 ist mit 31% aber noch nicht aus dem Rennen. Wie gesagt, das ist ein grobes Modell. Man könnte es verfeinern, indem man weitere Füllungsverhältnisse betrachtet. Sagen wir 55/45. Aber vor allem brauchen wir weitere Stichproben! Meine Zählung von 79/61 halte ich aus verschiedenen Gründen für nicht besonders repräsentativ. Daher meine Bitte: Geht zu Eurer Physiotherapie, und bitte herzlich darum, einen Praktikanten zu beauftragen, das Geschlechterverhältnis der aktuellen Patienten auszuzuzählen!
Das war jetzt die Bayes-Statistik. Was sagt die klassische Statistik zu 79/61? Nun denn, klassisch: Die Nullhypothese H0 lautet, daß Männer und Frauen gleich häufig in einer Physiotherapie zu finden sind. Eine Verteilung von 79:61 oder größer ergibt sich in 7,5% der Fälle. Der P-Wert ist also größer als die Signifikanzgrenze von 5%. Die Nullhypothese wird demzufolge nicht verworfen. Und was wissen wir nun? Sollen wir in Zukunft annehmen, daß Frauen und Männer gleich häufig zur Physiotherapie gehen? Gibt es denn, da es keinen signifikanten Unterschied gibt, überhaupt keinen Unterschied?? Niemand interessiert sich dafür, wie wahrscheinlich die Daten unter der Nullhypothese sind (hier 7,5%). Sondern es interessiert einzig, wie wahrscheinlich die Hypothese bei den gefundenen Daten ist! Und das liefert uns Bayes ganz einwandfrei, siehe oben. :-)
Erste Veröffentlichung: 08.08.2005 | Hinweise, Anmerkungen, Fragen? | © 2005 Oliver Lenz |
Letzte Änderung: 08.08.2005 | Mail oder Gästebuch | http://www.cvo6.de |