Homepage von Oliver Lenz

Statistik: Über die Irrtumswahrscheinlichkeit

Geschrieben von W.W. am 04. April 2004 20:46:10:

Liebe Statistik-Interessierte,

ich habe viele sehr anregende Kommentare zu meinem Statistikartikel erhalten. Darunter ein sehr kluger Einwand eines Rechtsmediziners von der Uni Rostock, der mir Schwierigkeiten macht.

Er bestreitet die "Fernwirkung" von negativen Studien auf die Signifikanz von Studienergebnissen, indem er schreibt: "Wie ist es eigentlich mit der Fernwirkung zurückliegender Ziehungen von Lottozahlen hinsichtlich der Wahrscheinlichkeit für 6 Richtige am kommenden Wochenende?"

Ich möchte die Problematik kurz erläutern:

Wenn ich hier in Deutschland ein Medikament prüfe, das die Schubrate der MS auf dem 5%-Niveau senkt und in Japan wird dasselbe Medikament mit einem negativen Ergebnis getestet, hat das Einfluss auf die Wahrscheinlichkeit, ob das Medikament wirksam ist oder nicht?

Ich meine, ja!

Der Kollege argumentiert dagegen mit der folgenden Analogie (die ich absichtlich zuspitze): Wenn ich mittels eines Computerprogramms alle bisherigen Ziehungen der Lottozahlen überschauen kann und jede Woche eine Kombination wähle, die bisher noch niemals gezogen wurde, habe ich dann eine größere Chance zu gewinnen, als wenn ich jede Woche genau die Zahlen ankreuze, die in der vorangegangenen gezogen worden sind?

Ich glaube nicht, dass die Chance dadurch wächst - obwohl vermutlich niemand so verrückt wäre, immer auf die Zahlen der vergangenen Woche zu setzen. Der Kollege könnte also recht haben: Das statistisch signifikante Ergebnis einer Studie ist unabhängig davon, ob eine andere Studie zu demselben Ergebnis kommt oder nicht.

Hinkt die Analogie? Ich weiß es nicht. Wenn sie stimmt, dann hieße das allerdings: Wenn von 20 Studien eine zu einem signifikanten Ergebnis auf dem 5%-Niveau kommt (z.B. hinsichtlich der Progredienz der MS), 19 aber nicht, dann sollte man das Medikament verordnen. Das wiederum halte ich für widersinnig.

Vielleicht kann mir jemand von Ihnen Argumentationshife geben. Oliver? Wolfgang H.? Rosi? Tip? Coza? ? ? ?

W.W.

Selbstverständlich ist die Signifikanz der Untersuchungen unabhängig voneinander.

Signifikanz besagt, wie wahrscheinlich die Daten unter der "Nullhypothese" sind. Die Nullhypothese ist die Annahme, daß das neue Medikament nicht besser als die Alternative ist.

Wenn die Daten signifikant auf dem 5%-Niveau sind, heißt das nur, daß die beobachteten Daten schwerlich mit der Nullhypothese vereinbar sind.

Und diese (Un-)wahrscheinlichkeit ist nur von der Nullhypothese und den lokal ermittelten Daten abhängig.

ABER:
Die Signifikanz hat rein gar nichts mit der "Irrtumswahrscheinlichkeit" zu tun.

Beispiel Aidstest:
Nur ein Test von 10000 fällt falsch positiv aus. Ein positiver Aidstest ist also hochsignifikant! Die Datenlage (positiver Test) ist mit der Nullhypothese (Patient ist gesund) praktisch nicht vereinbar. Genauer gesagt: Nur mit einer Wahrscheinlichkeit von 0,0001 bzw. 0,01%.

Aber die Signifikanz hat nichts mit der Irrtumswahrscheinlichkeit zu tun!

Denn die Irrtumswahrscheinlichkeit beträgt im Fall eines postitiven Aidstest glatt 50%!

Begründung: In Deutschland ist ein Mensch von 10000 mit dem Aidsvirus infiziert. (Diese Angabe gilt für eine Nichtrisikogruppe!)

Werden 10000 Menschen auf Aids getestet, gibt es zwei positive Resultate: Der Mensch mit wirklich Aids, und der Mensch mit dem falsch positiven Resultat. Daher beträgt die Wahrscheinlichkeit, nach einem positiven Aidstest wirklich Aids zu haben 50%.

Um zur Ausgangsfrage zurückzukommen:

Die fehlgeschlagene Studie in Japan beeinflußt nicht die Signifikanz. Aber sie beeinflußt ganz entscheidend die Irrtumswahrscheinlichkeit!

Warum? Weil es die Wiederholung des Test ist!

Unser Aidsverdächtiger wiederholt ja auch den Test. Wenn auch der zweite Aidstest positiv ausfällt (und kein systematischer Fehler vorliegt z. B. aufgrund einer seltenen Blutgruppe) ist kein vernünftiger Zweifel an der Infektion möglich.

Sudien müssen, vom wissenschaftlichen Standpunkt gesehen, ebenfalls wiederholt werden. Wenn sich das Resultat nicht reproduziert, dann war die erste Studie wahrscheinlich ein Zufallsbefund.

Man kann das auch mathematisch zeigen, wie sich die fehlgeschlagene Studie auf die Irrtumswahrscheinlichkeit auswirkt.

Kurz angerissen: Hier spielt der Informationsgewinn (likelihood ratio) eine Rolle. Der Ausgangswert der Irrtumswahrscheinlichkeit wird mit dem Informationsgewinn multipliziert.

Beim Aidstest beträgt der Ausgangswert: 1/10000. Nach dem positiven Test aber 1/2. Der Informationsgewinn des Tests ist also 5000.

Jegliche Studie über die Wirksamkeit von Betainterferonen krankt schon daran, daß es keinen Ausgangswert für die Multikplikation mit dem Informationsgewinn gibt.

Ausgangswert wäre, wenn bekannt wäre, wieviel Prozent der MS-Studien ein wirksames Medikament testen.

Das weiß niemand. Aber wenn ich zwei Studien kenne, und eine trifft und eine geht fehl: Dann kann ich in supergrober Annäherung eine Annahme über die Erfolgsquote von MS-Studien treffen.

Kleine Anmerkung zu den Lottozahlen: Die Zahlen der letzten Woche zu nehmen oder irgendwelche anderen, ist gleich verrückt. Die Gewinnwahrscheinlichkeit wird davon nicht berührt.

Geschrieben von Tip am 06. April 2004 16:29:26:

Als Antwort auf: Re: Statistik und 6 Richtige im Lotto geschrieben von Oliver Lenz am 06. April 2004 16:21:56:

Hi Oliver,
ich hab zwar verstanden, dass Du das Buch und WW.s Artikel verstanden hast, aber ich habe auch verstanden, dass Du immer noch dem Denkfehler aufsitzt.

Lese mal unten meine Argumentation.

Es geht übrhaupt nicht um die "echte, wirkliche" Irrtumswahrscheinlichkeit, da diese bei Studien aus naheliegenden Gründen nicht bestimmbar ist. Und weil sie nicht bestimmbar ist, kann sie niemand kennen, da sie unbekannt ist. Und folglich ist das eine Geisterdiskussion.

Man kann - wenn man keinen Weltgeist, Götter oder ähnliches einbezieht, nur so argumentieren, wie es Menschen möglich ist.

Folglich verändert eine zweite Studie nicht die Irrtumswahrscheinlichkeit der ersten, weil diese ja prinzipiel unmöglich zu ermitteln ist. Die zweite negative Studie macht nur wahrscheinlicher, dass die erste ein Zufallsergebnis ist. Thats all.

Grüße
Tip

Okay, Oliver,
ich versuchs mal.
Bei Aids-Tests, sonstigen Tests, bei Roulette, bei Impfungen und sonstwas lassen sich falsch positive und falsch negative Resultate relativ problemlos bestimmen. Sogar mit ausreichender Genauigkeit. Hier kann man also die "echte" Irrtumswahrscheinlichkeit ausrechnen. Alles paletti.
Bei empirischen Studien (die den Namen verdienen) aber ist genau das nicht möglich. Wie in dem Buch korrekt beschrieben, bräuchte man dazu Zahlen über den "Riecher" des Forschers, der Hersteller- firma, der Uni, des Untersuchungsansatzes und pipapo.
Die Autoren schließen daraus, dass man deshalb bei Studien die Irrtumswahrscheinlichkeit nicht berechnen kann (oder aber belibige Schätzungen mache kann). Soweit d?accord.
Der Schluß der Autoren, dass deshalb Studien Quatsch sind, der ist deshalb Quark, Käse, daneben und auf jedenfall alles andere als rational (ihr Vorschlag, wie man es besser machen könne im letzten Kapitel ist sogar ausgesprochen hanebüchen, um nicht bescheuert zu sagen).
Die Argumentation ist also folgende: Man kann die Irrtumswahrsch. nicht berechnen und deshalb kann man Studien bleiben lassen, weil die Signifikanz eben nichts aussagt.
Und genau das ist falsch
Welcher Gott oder Gesetzgeber sagt denn, dass dem so sei? Die Logik sagt das nicht.
Die Signifikanz alleine sagt eben aus, wie wahrscheinlich es ist, dass der gefundene Unterschied (hier zwischen Placebo und Verum) zufällig ist. Und eben das ist ein Indiz für die Wirksamkeit der verwendeten Droge. Kein Beweis! Aber ein Indikator!
Und es ist sehr vernüftig anzunehmen, dass eine positive Studie etwas aussagt, wenn falsch negative und falsch positive Ergebnisse prinzipiell im Dunkeln bleiben. Problematisch wird es dann, wenn widersprüchlich Studienergebnisse vorliegen. Aber das ist ein anderes Kapitel.
Eine andere Sicht der Dinge geht etwa nach dem Motto ab: "Diese Welt gefällt mir so nicht, also denk ich mir eine andere!" Sie ist aber so.
Es bestehen eben unterschiede zwischen einfachen Wahrscheinlichkeits- rechnungen bei Tests und schließender Statistik bei empirischen Studien. Studien lassen sich eben nicht in dieses Raster pressen.
Studien stellen letztlich die einzige prinzipielle Möglichkeit dar (im Bereich weicher Wirklichkeiten, welche größere Bereiche der Medizin sind), überprüfbare Kriterien zu haben, wie man die Wirksamkeit von etwas interindividuell beurteilen kann. So bleibt die Bewertung weniger will- kürlich und spekulativ. Andere Möglichkeiten gibt es einfach nicht.
Das ganze beruht auf Mathe und Erkenntnistheorie. Letztlich ist es sehr komplex. Ich würde weder Dir noch WW vorwerfen, dass Ihr das hättet blicken müssen. Ich würde sogar behaupten, dass mehr als 98% der real existieren Ärzte das Problem auf der Basis ihrer Ausbildung und ihres Wissens nicht beurteilen können. Auch nicht S.K., Z. Mir oder sogar Coza. Dazu ist der Arztberuf und seine Ausbildung schon viel zu komplex und anspruchsvoll, wollte man High-Level-Statistik auch noch reinpacken. Bei Psychologen sieht es übrigens nicht besser aus spitz. Mathematiker sind da besser geeignet und vielleicht auch Naturwissenschaftler, die sich mal mit Statistik beruflich befasst haben.
Von daher denke ich bestimmt nicht schlecht über Dich, da es selbst bei mir eher Zufall ist, dass ich mich mal beruflich intensiver mit solchen Problemen rumschlagen mußte. Spaß hat das keinen gemacht smile.
Das Problem ist aber so prinzipieller Natur, dass ich mir hier die Mühe mache, das so zu erklären, dass es halbwegs verständlich ist. Und wenn Du es nicht verstanden hast, dann zeigt mir das, dass ich es immer noch nicht verständlich genug rübergebracht habe.

Grüßle
Tip

Geschrieben von Oliver Lenz am 08. April 2004 12:23:12:

Frage zum Selbstverständnis: Bei Aids kennen wir eine Prävalenz ("Durchseuchung"), sie beträgt grob 1/10000. Daraus, und aus der Signifikanz des Tests, folgt die Irrtumswahrscheinlichkeit bei einem positiven Test: 50%.

OK. Jetzt nehmen wir BSE. Hier ist die Prävalenz unbekannt. Wenn jetzt ein positiver BSE-Test vorliegt: Würdest Du dann sagen, daß die Irrtumswahrscheinlichkeit (die ich mangels Prävalenzkenntnis nicht ermitteln kann) gar keine Rolle spielen sollte in meinen weiteren Handlungen?

Aber ich weiß doch, daß es eine Prävalenz objektiv gibt! Ich kenne sie nicht, aber sie gibt es! Mit großem Aufwand ließe sich die Prävalenz sogar ermitteln! Ich muß nur aufhören, Kühe zu schlachten, und beobachten, wieviele Kühe vor ihrem natürlichen Tod BSE-Symptome entwickeln!

Und also gibt es auch eine Irrtumswahrscheinlichkeit. Ich kenne sie nicht, aber es gibt sie.

Bleibst Du bei Deiner Meinung, daß die Irrtumswahrscheinlichkeit keine praktische Rolle spielen soll?

Ich brauche doch nur eine Prävalenz _anzunehmen_ - und schon habe ich eine grobe Näherung für die Irrtumswahrscheinlichkeit. Gehe ich mit 1/1000 rein, kommt X raus. Gehe ich mit 1/100000 rein, kommt Y raus.

Die Wahrscheinlichkeit, daß eine BSE-positiv getestete Kuh BSE hat beträgt ZWISCHEN X und Y.

Warum wird das nicht in der Medizin so gemacht? Halbwegs vernünftige Annahmen (oberer und unterer Grenzwert) lassen sich doch m. E. treffen.

Oliver, der sich darüber wundert.

Erste Veröffentlichung: 2004	Hinweise, Anmerkungen, Fragen?	© 2004-2005 Oliver Lenz
Letzte Änderung: 18.07.2005	Mail oder Gästebuch	http://www.cvo6.de