Homepage von Oliver Lenz

Geschrieben von Oliver Lenz am 08. August 2005 23:31:05:
Statistik: Geschlechterverteilung und Bayes

Jetzt nähere ich mich dessen, warum ich überhaupt 
mit Bayes angefangen habe.

Von der MS ist bekannt, daß Frauen doppelt so häufig
erkranken als Männer.

Ich bezweifle das etwas.

Jetzt könnte man sagen, daß das eine akademische 
Diskussion ist. Das sehe ich aber nicht so. Solange 
nach einem geschlechtsspezifischen Faktor gesucht wird 
- den es möglicherweise gar nicht gibt - ist, so befürchte 
ich, die Suche nach dem wirklichen Auslöser erschwert.

Ich bezweifele nicht, daß die Diagnose MS zu
2/3 an Frauen gestellt wird und nur zu 1/3 an Männern.

Aber ist das ein Beweis dafür, daß Frauen häufiger
betroffen sind?

Nein! Denn auch andere Diagnosen bekommen Frauen
häufiger als Männer gestellt. Willkürliche Beispiele:
in Deutschland wird Depression zu 2/3 an Frauen 
diagnostiziert.  In den Niederlanden werden 62,1% 
der Diagnosen in einer Allgemeinpraxis an Frauen 
gestellt und zu 37,9% an Männern.

Was steckt dahinter? Vermutlich das, was als 
"Krankheitsverhalten" bezeichnet wird. (Krankheitsverhalten: 
Wie reagiert ein Mensch auf vorhandene Symptome?)
Bei gleichen Symptomen wird eine Frau im Durchschnitt 
früher einen Arzt aufsuchen, als ein Mann.

Wir brauchen das nicht zu bewerten, sondern wir
sollten diesen Fakt einfach zur Kenntnis nehmen.
Für meine nachfolgende Betrachtung genügt es sogar,
wenn wir geschlechtsspezifisches Krankheitsverhalten 
für denkbar halten. Dem wird sich wohl jeder 
anschließen können.

Für meine Untersuchung nehme ich etwas harmloses:
die Geschlechterverteilung in einer Physiotherapie.

Um Wahrscheinlichkeiten berechnen zu können, brauchen
wir ein Modell.

Stellen wir uns daher vor, wir haben eine große Urne mit grünen
und gelben Erbsen vor uns. Die Anzahl der Erbsen sei so
groß, daß ein Auszählen unvorstellbar ist. Das ist jetzt
das Modell aller Frauen und Männer, die in Deutschland eine
Physiotherapie aufsuchen. Grüne Erbsen sind die Männer.
Gelbe Erbsen sind die Frauen. Die Urne sind alle 
Physiotherapiepraxen Deutschlands.

Um das Modell weiter zu vereinfachen, nehmen
wir an, daß diese Urne nur in einem der folgenden
Verhältnisse gefüllt sein kann: Entweder im 
Verhältnis 60/40 oder 50/50 oder 40/60.
(Als erster Schritt auf dem Wege zur Wissen über die
Wirklichkeit genügt das.)

Ich möchte nun gerne wissen, in WELCHEM Verhältnis die
vorliegende Urne gefüllt ist. Sprich: In welchem Verhältnis 
Frauen und Männer zur Physiotherapie gehen.

Wiederum zwecks Einfachheit gehe ich davon aus, daß a priori
alle drei Füllungsverhältnisse gleichwahrscheinlich sind.
(Im Ernstfall würde ich vermuten, daß z. B. 60/40
wahrscheinlicher ist als 40/60 - denn ich habe ja schon
auf die Urne gelinst, und es sah mir ganz so aus, als ob
wesentlich mehr gelbe, als grüne Erbsen drinne waren. ;-)

Aber das ist jetzt egal. Der Fehler, der sich
daraus ergibt, ist nicht so groß, und vor allem: nicht
dauerhaft. Mit jeder Stichprobe nähere ich mich - egal, welche
Wahrscheinlichkeitsverteilung ich a priori angenommen habe - 
an die wirkliche Verteilung an.

Also die Startwerte:
Füllung1 (60/40) mit P(Fü1) = 0,33
Füllung2 (50/50) mit P(Fü2) = 0,33
Füllung3 (40/60) mit P(Fü3) = 0,33

Ich greife jetzt in eine Urne herein und hole eine Handvoll
Erbsen (140 St.) raus. Siehe da, es sind 79 gelbe Erbsen und 61 grüne.
(Dieses habe ich übrigens wirklich gemacht, denn ich habe
in meiner Reha gebeten, für mich zu zählen!)

Jetzt ändern sich die Wahrscheinlichkeiten!

Das Bayessche Theorem sagt dazu aus:

P(Fü_i|79:61) = P(79:61|Fü_i) ✕ P(Fü_i)/∑(P(79:61)|Fü_i ✕ P(Fü_i))

Ausgesprochen:
Die Wahrscheinlichkeit, daß die Stichprobe 79:61 die Ursache Füllung_i hat
ist gleich
Wahrscheinlichkeit eine Stichprobe 79:61 bei Füllung i zu erhalten
multipliziert
mit der Wahrscheinlichkeit, daß die Füllung i gewählt wurde
geteilt durch die
Summe von (Wahrscheinlichkeit, mit der die Probe 79:61 aus der
Füllung i gezogen wird, multipliziert mit der Wahrscheinlichkeit,
mit der die Füllung i gewählt wurde).

Der Rest ist einfach.
Eine Probe von 140 Erbsen mit genau 79:61 zieht man mit 
folgender Wahrscheinlichkeit bei den verschiedenen Füllungen:
Füllung1: 4,69%
Füllung2: 2,13%
Füllung3: 0,00003%

Die Wahrscheinlichkeiten ergeben sich wie folgt:
P(Fü1) = 68,79%
P(Fü2) = 31,17%
P(Fü3) =  0,04%

Aha. Nach meiner ersten Stichprobe kann ich mir also
fast sicher sein, daß die Füllung nicht 40% Frauen und
60% Männer beträgt.
Daß die Füllung 60/40 beträgt, ist mit ca. 69% am
wahrscheinlichsten. Eine Füllung von 50/50 ist mit 31%
aber noch nicht aus dem Rennen.

Wie gesagt, das ist ein grobes Modell.
Man könnte es verfeinern, indem man weitere 
Füllungsverhältnisse betrachtet. Sagen wir 55/45.

Aber vor allem brauchen wir weitere Stichproben!
Meine Zählung von 79/61 halte ich aus verschiedenen
Gründen für nicht besonders repräsentativ. 

Daher meine Bitte: Geht zu Eurer Physiotherapie,
und bitte herzlich darum, einen Praktikanten zu
beauftragen, das Geschlechterverhältnis der aktuellen
Patienten auszuzuzählen!

Das war jetzt die Bayes-Statistik.
Was sagt die klassische Statistik zu 79/61?

Nun denn, klassisch:
Die Nullhypothese H₀ lautet, daß Männer und Frauen
gleich häufig in einer Physiotherapie zu finden sind.
Eine Verteilung von 79:61 oder größer ergibt sich
in 7,5% der Fälle. Der P-Wert ist also größer als
die Signifikanzgrenze von 5%. Die Nullhypothese 
wird demzufolge nicht verworfen.

Und was wissen wir nun?
Sollen wir in Zukunft annehmen, daß Frauen und Männer 
gleich häufig zur Physiotherapie gehen?
Gibt es denn, da es keinen signifikanten Unterschied gibt,
überhaupt keinen Unterschied??

Niemand interessiert sich  dafür, wie wahrscheinlich
die Daten unter der Nullhypothese sind (hier 7,5%).
Sondern es interessiert einzig, wie wahrscheinlich
die Hypothese bei den gefundenen Daten ist!

Und das liefert uns Bayes ganz einwandfrei, siehe oben. :-)
Erste Veröffentlichung: 08.08.2005	Hinweise, Anmerkungen, Fragen?	© 2005 Oliver Lenz
Letzte Änderung: 08.08.2005	Mail oder Gästebuch	http://www.cvo6.de