Homepage von Oliver Lenz


Hypothesen- versus Signifikanztestung in klinischen Studien: Ein Dialog

Ich habe nach besten Wissen und Gewissen übersetzt.


Statistic in Medicine, Vol. 9, 201-211 (1990)

David Salsburg
Pfizer Central Research, Groton, CT, U. S. A.

Zusammenfassung

Die mathematischen Formulierungen der Neyman-Pearson- Hypothesen-Testung und Fishers Konzept der Signifikanz-Testung werden als alternative Wege untersucht, um statistische Methoden auf Daten von klinischen Studien anzuwenden.

Einführung

[...]
Ich glaube, daß die mezinische Community ein zufälliges und relativ flaches Wahrscheinlichkeitsmodell akzeptiert hat, um klinische Studien zu analysieren und daß wir die Folgen von solcher Modellierung am besten in einem Dialog untersuchen. Es folgt ein Gespräch zwischen Simplicius (der für den uninformierten Leser steht), Neymanius (der die gegenwärtig akzeptierte Neyman-Pearson Formel der Hypothesen-Testung vertritt) und Querulus (der die Gültigkeit der Neyman-Pearson-Formel in Frage stellt). Ich weise den Leser vorsichtshalber darauf hin, daß meine persönliche Sicht viel mehr der von Querulus entspricht, als der von Neymanius.

Der Dialog

Neymanius:

Was würdest du sagen, Simplicius, wenn ich Dir von einer kontrollierten klinischen Studie erzähle, in der eine Behandlung mit A mit einem Placebo verglichen wird und bei der am Ende 100% der mit A behandelten Patienten gesunden, aber nur 5% der Patienten, die Placebo erhielten?

Simplicius:

Ich würde fragen, wie hoch der P-Wert war. Ich habe gelernt, daß ich nichts als erwiesen ansehen kann, wenn nicht P kleiner als 0,05 ist.

Neymanius:

Und du hast gut gelernt. Stelle Dir vor, ich sage Dir, daß ein 2x2 "contigency table test" einen korrigierten Chi-Quadrat-Wert von 39,46 ergab und p kleiner als 0,0001 ist. Würdest du sagen, daß Behandlung A besser ist als Placebo?

Simplicius:

Natürlich.

Neymanius:

Du würdest nichts weiter fragen? Sowas wie wie viele Patienten eingeschlossen waren? Stelle Dir vor, ich sage Dir, daß jeweils 100 Patienten die Studie mit der Behandlung mit A bzw. mit Placebo begannen. 100 Placebo-Patienten beendeten die Studie, von denen wurden fünf gesund. Nur 5 Patienten unter der Behandlung mit A beendeten die Behandlung und sie alle gesundeten.

Simplicius:

Der p-Wert ist sehr klein...

Neymanius:

Aber ist er richtig? Stelle Dir vor, daß der Grund dafür, daß nur fünf Patienten mit Behandlung A die Studie beendeten, der war, daß der Untersucher wußte, welcher Patient welche Medikamentation erhielt und er alle Patienten zurückzog, die Medikament A erhielten, und nicht gesund wurden.

Simplicius:

Das wäre Fälschung.

Neymanius:

Stelle Dir vor, daß ich nicht weiß, warum er die Patienten zurückgezogen hat. Ich weiß nur, daß er 95% der Patienten unter Behandlung mit A zurückgezogen hat, und keinen unter Placebo.

Simplicius:

Ich würde nicht wissen, was ich davon halten soll.

Neymanius:

Ich auch nicht. Dies ist das ein großes Problem in der medizinischen Forschung. Viele Dinge passieren mit den Patienten nach der Auslosung zur Behandlung. Das kann leicht durch die Behandlung verursacht sein, oder diese Dinge können die Wirkung der Behandlung beeinflussen. Wenn wir einen Hypothesentest benutzen, der den Ausgang der zwei Gruppen vergleicht, dann ist der p-Wert, den wir erhalten, eine Funktion dieses Zufallsrauschen. Wir könnten ein p=0,003 errechnen. Da wir die Änderungen nach der Auslosung aber nicht berücksichtigen, könnte der p-Wert in Wirklichkeit viel größer sein.

Simplicius:

Dann kann ich einen mathematisch errechneten p-Wert nicht trauen?

Neymanius:

Es gibt einen Weg, daß du das doch kannst. Wenn wir die Patienten zur Behandlung auslosen, dann war der Akt der Auslosung unabhängig von den Ereignissen danach. Falls wir jeden einzelnen Patienten verfolgen, unabhängig, welche Behandlung der Patient letzlich erhält, können wir so tun, als wenn der Patient wirklich die Behandlung erhalten hat, zu der er ausgelost wurde und die Daten entsprechend auswerten. Auf diesem Weg verlieren wir vielleicht ein wenig Power (da einige Patienten mit Behandlung A niemals wirklich diese Behandlung erhielten), aber wir können das Signifikanzlevel absichern, und wenn wir sagen, daß p kleiner als 0,05 ist, können wir sicher sein, daß der wirkliche p-Wert kleiner als 0,05 ist. Um das Problem der Verringerung der Power zu umgehen, brauchen wir nur die Zahl der Patienten in der Studie zu erhöhen.

Simplicius:

Ist das das, was "intent to treat" genannt wird?

Neymanius:

Ja, das ist das. Wir testen ja nicht wirklich, ob die Behandlung A besser als Placebo ist. Wir testen, ob die Patienten, die wir zur Behandlung mit A auswählen, einen besseren Verlauf haben, als wenn wir sie zu Placebo auswählen. In den meisten Fällen, sind die zwei Hypothesen im Prinzip gleich.

Querulus:

Verstehe ich richtig, daß du dich für einen gegebenen Patienten so verhalten wirst, als ob das ausgewählte Medikament gegeben wurde, unabhängig davon, was wirklich geschah?

Neymanius:

Ja. Auf diese Weise schützen wir das Alpha-Level und sind sicher, daß die Wahrscheinlichkeit eines falsch positiven Ergebnisses kleiner oder gleich 0,05 ist.

Querulus:

Nehmen wir an, daß der Apotheker einen Fehler gemacht hat und Patient 12 Placebo bekommen hat, anstatt der Behandlung A (wie vorgesehen). Werden wir Patient 12 so behandeln, als ob er Behandlung A erhalten hat?

Neymanius:

Natürlich. Die Auslosung hat ihn zur Behandlung A bestimmt.

Querulus:

Stellen wir uns vor, daß der Apotheker viele Fehler gemacht hat. Nehmen wir an, daß er allen Patienten, die zu A ausgelost wurden, Placebo gegeben hat, und allen Patienten, die zu Placebo ausgelost wurden, Medikament A gab. Würden wir noch immer die Studie so analysieren, als ob die Patienten die zu Placebo ausgelost wurden, auch Placebo erhalten haben?

Neymanius:

Das wäre albern. Was du getan hast, ist es, den Ansatz dieses Problems ins Extrem zu treiben. Statistische Hypothesentests sind mathematische Modelle, und jedes Modell wird albern erscheinen, wenn es ins Extrem getrieben wird.

Simplicius:

Heißt das, daß ich der Mathematik nicht trauen kann, auch wenn ich ein intent-to-treat-Modell vorfinde?

Neymanius:

Du mußt immer Deinen gesunden Menschenverstand benutzen.

Querulus:

Laß uns eine andere Sache nehmen, Neymanius. Nehmen wir an, wir vergleichen zwei blutdrucksenkende Medikamente. A, von dem bekannt ist, daß es effektiv ist, und B, welches ein neues, experimentelles Medikament ist. Wir können nicht Patienten mit Bluthochdruck für lange unbehandelt lassen. Wenn die Studie ein Jahr dauert, müßten wir somit Patienten, deren Blutdruck nicht auf die neue Medikamention anspricht, ein Medikament geben, von dem wir wissen, daß es wirkt. Jetzt stellen wir uns vor, daß B wirkungslos ist. Wir werden die meisten Patienten mit B aus der Studie nehmen und ihnen ein bekanntes, wirkungsvolles Medikament geben. Am Jahresende messen wir dann den gleichen mittleren Blutdruck bei den Patienten, die A erhalten haben, und bei den Patienten mit B. Können wir schlußfolgern, daß B genauso wirksam ist wie A?

Neymanius:

Natürlich nicht. Aber wir können immer die Zahl der Patienten vergleichen, die abgebrochen haben.

Simplicius:

Nein, das kannst du nicht. Wenn du nicht im vorhinaus festgelegt hast, daß die Zahl der Abbrecher eine primäre Einflußvariable ist, kannst du einen Hypothesentest nicht benutzen. Das ist wie das Testen eines aus retrospektiver Betrachtung hergeleiteten Teilmenge von Patienten. Das habe ich jedenfalls gelernt.

Querulus:

Warum kannst du das nicht tun, Simplicius?

Simplicius:

Weil der p-Wert nicht richtig wäre, und, wie Neymanius bemerkt, wir müssen das wahre Alpha-Level der Studie sichern.

Querulus:

Laß mich fortsetzen, Neymanius. Wenn du so mit der Sicherung des Alpha-Levels beschäftigt bist, warum untersuchst du überhaupt die Daten? Warum benutzt du nicht eine Zufallszahlentafel und erklärst die Behandlung mit A besser als daß Placebo, wenn die Zahl, die sich ergibt, kleiner als 0,05 ist? Wie unterscheidet sich Dein Test von meinem? Beide sichern das Alphalevel.

Neymanius:

Aber mein Test benutzt die Daten.

Querulus:

Warum willst du die Daten benutzen?

Neymanius:

Weil ich in der Lage sein will, einen Unterschied in den Behandlungen zu finden, wenn ein solcher Unterschied existiert.

Simplicius:

Das ist das, was wir Power nennen. Ich habe gelernt, daß man immer die Power einer Studie betrachten muß, bevor man erklären kann, daß es keinen Unterschied in den Behandlungen gibt.

Neymanius:

Wenn ich eine Zufallszahlentafel benutze, dann beträgt die Wahrscheinlichkeit von einem Typ-II-Fehler 95%.

Querulus:

Wie hoch ist die Wahrscheinlichkeit von einem Typ-II-Fehler, wenn du eine intent-to-treat-Analyse vornimmst, Neymanius?

Neymanius:

Das wissen wir nicht.

Querulus:

Woher weißt du, daß sie nicht 95% beträgt?

Neymanius:

Ich kann das nicht glauben.

Querulus:

Aber, wenn du so in Sorge um die Power bist, warum nutzt du nicht einen Test mit mehr Power?

Simplicius:

Wir sollten. Wir sollten wirklich den Test mit der höchsten Power als möglich benutzen. Das ist das, was ich gelernt habe.

Querulus:

Sage mir, Neymanius, warum willst du das Alpha-Level schützen? Was ist falsch, wenn die wirkliche Wahrscheinlichkeit von einem Typ-I-Fehler 6% beträgt oder auch 15?

Neymanius:

Das Alpha-Level liegt im Herzen der Hypothesentestung. Wir können niemals wissen, was die wahre alternative Verteilung ist. Wir können nur die Nullhypothese mit Präzision konstatieren. Ungeachtet von dem, was wir tun möchten, sind wir somit nur fähigi, die Wahrscheinlichkeit eines falsch positiven Ergebnisses zu kontrollieren. Es ist allgemeiner Konsens in der medizinischen Welt, daß es viele vermeintliche Therapien gibt und die Wahrscheinlichkeit eines falsch positiven Ergebnisses (alpha level) ist ein Messen, wie viele Knallfrösche und andere falsche Therapien auf dem Markt kommen. Wie auch immer, jeder Tag, an dem ein Patient mit einer falschen Therapie behandelt wird, ist ein verlorener Tag für eine wahren Therapie. Somit ist das Alpha-Level nicht nur der einzige Parameter, den man kontrollieren kann. Er hat auch eine klare Bedeutung für die medizinische Politik.

Querulus:

Du bist zu sehr gefangen in der Philosophie der Neyman-Pearson Hypothesentestung, um zu erkennen, daß du vielleicht falsch liegen könntest. Wir mögen fähig sein, den exakten Alphawert zu berechnen unter der Nullhypothese "kein Effekt", aber es gibt keine klaren Regeln für die Interpretation dieser Zahl! Wie unterscheidet sich eine falsch positive Wahrscheinlichkeit von 5% von einer von 6%, oder selbst 16,5%, wenn es zur praktischen Anwendung in der Medizin kommt? Weiter stelle ich fest, daß die medizinische Community diese statistischen Ideen nur darum akzeptiert hat, weil sie "objektiv" und "wissenschaftlich" zu sein scheinen. In Wirklichkeit ist doch Kontrolle der Zahl der falschen Therapien viel weniger wichtig, als eine geeignete Behandlung für Krankheiten zu entdecken, die noch immer unbeherscht sind. Leider haben wir Statistiker haben dem medizinischen Berufsstand nicht gezeigt, wie man diese Interpretation in "objektiver" und "wissenschaftlicher" Haltung tut.

Laß uns kurz Weggehen von deiner Geisteshaltung und betrachten, warum der Schutz des Alpha-Levels so bedeutsam wurde in der Neyman-Pearson Formulierung der Hypothesentestung.

Neyman und Pearson untersuchten die Frage der Hypothesentestung in einer Reihe von Veröffentlichungen [1-3].

Es begann, als Egon Pearson fragte, woher wir wissen, daß ein Test auf Normalität der Daten, das ein "nicht-signifikantes" Ergebnis enthält, gleichbedeutend damit ist, zu konstatieren, daß die Daten normalverteilt sind.

Jerzy Newman war ein junger polnischer Mathematiker, der zu dieser Zeit wenig oder keine Erfahrung mit wirklichen Daten hatte. Aber er war ein sehr guter Mathematiker und so wählte er eine mathematische Methode.

Frühzeitig bemerkten Neyman und Pearson, daß man keine Nullhypothese testen kann, ohne eine alternative Hypothese im Sinn zu haben. Zum Beispiel könnte man sich wünschen, eine Zufallsvariable zu testen, ob sie normalverteilt ist mit dem Mittelwert Null. Wir beobachten Null, aber wir können ein dichtes Band von Werten in der Umgebung von Null konstruieren, so daß wir erklären können, daß die Ermittlung von Null ein Signifikanzniveau von kleiner als 0,05 hat und die Hypothese verwerfen.

Als Neyman und Pearson die Notwendigkeit einer alternativen Hypothese erkannten, konnten sie das Problem in Form von drei Parametern zu formulieren:

alpha P{Typ I Fehler} = P{Verwerfen der Nullhypothese obwohl sie wahr ist}

beta P{Typ II Fehler} = P{verwerfen der Alternativhypothese obwohl sie wahr ist}

delta = "Abstand" zwischen Null- und Alternativhypothese.

Die ersten beiden (alpha und beta) sind umgekehrt proportional. Wenn wir ein kleines alpha wählen, dann haben wir ein größeres Beta zu akzeptieren. Es gibt keine optimale Lösung für dieses Problem.

Es gibt keinen "besten" Hypothesentest,der optimiert ist zwischen diesen drei Parametern. Aber, Mathematiker sind darauf trainiert zu optimieren. Auch wenn es bedeutet, daß das Problem eingeschränkt wird, die mathematische Absicht ist es zu optimieren. So haben auch Neyman und Pearson das Problem eingeschränkt. Sie fixierten alpha und suchten eine Testmethode, die Beta minimiert über alle möglichen Werte von Delta. Das war ein pure Zufallslösung. Sie hätten genauso leicht (alpha+beta) über alle möglichen Werte von Delta minimieren können, oder irgend eine andere Größe von anderen Formeln wählen können.

Simplicius

Ich kenne diese Lösung von meinen Kursen. Das wird genannt die gleichmäßig beste Testung.

Querulus:

Aber diese "Lösung" ist von begrenztem Wert. Wie Neyman selbst in seiner letzten Veröffentlichung feststellte, die er zu diesem Thema schrieb:

"Unglücklicherweise existieren die gleichmäßig besten Zusammensetzungen nur sehr selten. In Fakt kann die Behauptung, die am besten ist für eine Hypothes H1, schlechter selbst als Alpha für eine andere Hypothese H2 sein."

Während ihrer Forschung fanden Neyman und Pearson eine ganze Anzahl von Situationen, in denen ein gleichmäßig bester Test nicht exisiert. Zwei davon sind:

Simplicius:

Aber diese Situationen treten ja ständig auf in klinischen Studien!

Querulus:

Somit frage ich Dich wieder, Neymanius, ist es nicht wahr, daß du das Alpha-Niveau nur darum schützt, weil das von der Neyman-Pearson-Formulierung der Hypothesen-Testung gefordert wird? Wenn ich Dir zeigen kann, daß diese Formulierung ungeeignet für klinische Forschung ist, würdest du noch immer so eifrig das Alpha-Level verteidigen?

Neymanius:

Vielleicht hast du recht, aber es gibt nichts, womit sie ersetzt werden kann. Die Neyman-Pearson-Formulierung der Hypothesentestung ist das einzige, was es gibt.

Querulus:

Im Gegenteil, es gibt viele andere Modelle der Wahrscheinlichkeitstheorie, die in der klinischen Forschung angewendet werden können. Es gibt das Bayes-Modell [5]. Es gibt das Likelihood-Prinzip (Schätzverfahren), beschrieben von Edwards [6] und Dempsters Obere und Untere Wahrscheinlichkeiten [7]. Wir können auch zurückgehen zu R. A. Fisher und die Formulierung betrachten, die er "Signifikanztestung" nannte.

Simplicius

Ich habe keine von diesen gelernt. Welche ist korrekt?

Querulus:

Es gibt keinen korrekten. Wissenschaftliches Denken beruht auf dem Versuch, die komplexe Realität in ein Modell zu fassen, das nützlich ist für die Organisation der Beobachtungen. Die verschiedenen mathematischen Modelle, die uns zur Verfügung stehen sind wie Container von verschiedener Größe und Form. Einige passen besser als andere.

Einige passen für einige Zeit, bis wir einen finden können, der besser paßt, oder die schlechte Paßform uns Ärger macht. Aber wir müssen uns immer bewußt sein, daß wir unsere Beobachtungen in sehr zufällige Modelle einpassen, und wir müssen bereit sein, ein Modell zu verwerfen, falls es zu Nonsens führt.

Simplicius:

Mit Nonsens meinst du die Beispiele, die du gegen die "intent to treat"-Methode gebracht hast?

Querulus:

Ja.

Neymanius:

Jedoch, Querulus, Dir ist es nur gelungen zu vernichten. Willst du Neyman-Pearson durch die zufällige Bayes-Grundannahme ersetzen? Woher willst du wissen, daß irgendeines dieser Thesen besser zum Problem paßt? Die Neyman-Pearson- Formulierung hat in den letzten 50 Jahren gute Ergebnisse gebracht. Es könnte gut möglich sein, daß es die beste Formulierung ist, die wir haben.

Querulus:

Ich bezweifle, daß es uns in eine gute Lage gebracht hat in den letzten 50 Jahren. Wegen seiner Konzeption haben es einige der führenden statistischen Denker kritisiert. R. A. Fisher hat stark opponiert gegen diese Formulierung. Er glaubte nicht, daß man wissenschaftliche Forschung in Form von Typ I und Typ II-Fehlern betreiben kann. Diese Form des Denkens, so sagte er, gehört in die Qualitätskontrolle, wo ein Typ I-Fehler bestimmt, wie hoch die Anzahl der guten Lieferungen ist, die verworfen werden, und der Typ-II-Fehler, die Anzahl der schlechten Lieferungen, die akzeptiert werden. In der wissenschaftlichen Forschung, so sagte er, haben wir keine große Anzahl von identischen Versuchen. Wir lernen aus jedem Experiment, wie wir das nächste zu gestalten haben.

Aber auch für die, die Neymans Vorschlag folgten, erwies sich die Neyman-Pearson-Formulierung als unakzeptabel. Birnbaum [9] fand ernsthafte philosophische Unlogik und war nicht fähig, diese zu bewältigen, ohne daß er die gesamte Idee von Typ I und Typ II-Fehlern verwarf. Kiefer [10] versuchte diese Probleme zu bewältigen, aber konnte das nur tun, durch die Änderung des Konzeptes der Typ-I-Fehler in einer Art, die Deine Beharrlichkeit bei der Heiligung des Alpha-Fehlers sinnlos macht. Wenn du die tiefen philophischen Probleme verstehen willst, die damit verbunden sind, dann empfehle ich Dir Bergers Übersicht [11].

Cox aktualisierte Fishers Ansichten und schlug vor, daß wir Fishers Methode als "Signifikanztestung" bezeichnen. Das Signifikanz-Testung-Modell hat viel weniger Struktur als das Neyman-Pearson-Modell. Wir untersuchen die Daten, die wir haben und suchen nach Unterschieden, die wir begründet erwarten können aufgrund der Behandlung. Danach konstruieren wir Signifikanztests. Die allgemeine Idee ist die, daß wir einen geringen p-Wert eines Signifikanztest als Beweis gegen die Nullhypothese auslegen. Wir wählen nicht vorab einen besonderen p-Wert als Entscheidungskriterium. Stattdessen benutzen wir den p-Wert, um eine Zahl von verschiedenen möglichen Alternativhypothesen zu vergleichen. Wir basieren unsere Entscheidungen auf das, was wir sahen, auf wie gering der p-Wert war, und was praktisch sein könnte in der nächsten Studie.

Obwohl Fisher niemals eine formale Entscheidungsvorschrift zur Benutzung bei Signifikanztestung angab, zeigt eine Prüfung seiner Agrikulturveröffentlichungen, daß er dazu neigte, eine dreiarmige Entscheidung zu fällen:

  1. Mit einem p-Wert sehr klein (gewöhnlich 0,01 und darunter) erklärte er, daß die Behandlung einen Effekt hat und er setzte fort, diesen Effekt einzuschätzen.
  2. Mit einem p-Wert hoch (gewöhnlich 0,20 oder mehr), erklärte er, daß eine Studie von dieser Größe es nicht erlaubt zu entscheiden, ob die Behandlung einen Effekt hat.
  3. Mit einem p-Wert dazwischen beschrieb er das Studiendesign, welches eine präzisere Angabe von möglichen Behandlungseffekten erlaubt.

Neymanius:

Ich mag das alles überhaupt nicht. Es erfordert, daß du eine wage Notation von "gesundem Menschenverstand" benutzt, vorhergehendes wissenschaftliches Wissen, und eine Bereitschaft zum Risiko. Du kennst nicht die Wahrscheinlichkeit für einen Fehler. Wenn zwei kompetente Beobachter die gleichen Daten sehen, könnten sie mit verschiedenen Schlußfolgerungen herauskommen.

Simplicius:

Woher wissen wir, wann wir die richtige Antwort haben? Können wir nicht wenigstens das 0,05-Signifikanz-Level beibehalten?

Querulus:

Die Fisher-Methode ist nicht so wage oder schwach im Gefühl von Wahrheit wie du denkst. Fisher schrieb einmal [16], daß das die traditionelle 5%-Signifikanz...

... nicht bedeutet, daß der Untersucher annehmen darf, einmal in 20 Fällen getäuscht zu werden. Der Test der Signifikanz sagt ihm nur, was zu ignorieren ist, speziell die Experimente, in denen signifikante Resultate nicht enthalten waren. Man kann nur behaupten, daß das Phänomen experimentell aufzeigbar ist, wenn man weiß, wie man das Experiment konstruieren und ausführen muß, damit es nur selten kein signifikantes Resultat ergibt.

Konsequenterweise müssen isolierte signifikante Resultate, von denen man nicht weiß, wie sie zu reproduzieren sind, zurückgehalten werden. Sie sind abhängig von weiteren Forschungen.

Simplicius:

Mit anderen Worten, wir brauchen eine Replikation, um Sicherheit zu gewinnen.

Querulus:

Es bedeutet auch, daß ein einzelnes Experiment, egal wie signifikant der p-Wert ist, nicht genügt, eine Behauptung zu beweisen. Das bedeutet nicht, daß wir jede klinische Studie wiederholen müssen. Die meisten klinischen Studien sind Multi-Klinik-Studien. Somit würde Fishers Methode Konsistenz der Resultate über die Kliniken hinweg bedeuten.

Neymanius:

Aber wir haben niemals genug Power in diesen Studien, um Signifikanz in jeder Klinik zu erreichen.

Querulus:

Das ist wahr, wenn du auf die traditionellen 5% bestehst. Wir können das Signifikanzniveau erhöhen. Erinnere dich, entsprechend Fisher, das Problem der falsch signifikanten Resultat ist nicht, daß wir irgendein zufälliges Modell verletzen, sondern daß wir in Studien Ergebnisse finden, die wir ignorieren sollten. [OL: Ich weiß nicht, wie besser zu übersetzen]

Simplicius:

Aber ich kann sehen, daß, wenn du Test nach Test machst, es eine gute Chance gibt, zu finden, was du nicht solltest, da du sicher irgendwelche unerwarteten Daten findest, die signifikant scheinen. Das habe ich so gelernt.

Querulus:

In Fishers Veröffentlichungen ist das nicht vorgekommen. Gewöhnlich bemühte er einen Signifikanztest, der den wichtigsten Teil des Experimentes ausmacht. Falls der p-Wert des Tests klein genug war, dann setzt er fort, die Effekte der Behandlung einzuschätzen. Es ist bemerkenswert, daß er diesen einen entscheidenden Test konstruierte, nachdem er auf die Daten gesehen hatte und oft konstruierte er den Test, um zu sehen, ob die Richtung des Effekts, den er beobachtete, ihm genügte, um ihn "signifikant" zu nennen.

Neymanius:

Das ist keine gute Idee. Wir sollten nicht die Daten die Testprozedur steuern lassen.

Querulus:

Warum nicht?

Neymanius:

Es gibt uns nicht den korrekten p-Wert.

Querulus:

Aber wiederum, warum müssen wir wissen, daß der p-Wert exakt korrekt ist? Falls wir ihn nicht als ein Kontrollfaktor in einem zufälligen mathematischen Modell benutzen, dann ist alles, was wir wissen müssen, daß die Daten relativ unwahrscheinlich sind, unter der Nullhypothese, daß die Behandlung keinen Effekt hat. Überhaupt, wir glauben niemals, daß die Behandlung keinen Effekt hat. Wir nutzen die Nullhypothese als einen Strohmann, um zu sehen, ob die Studie genug Informationen liefert, um den Effekt einschätzen zu können.

Simplicius:

Aber Fisher konnte so einen Haupttest machen, weil er simple Agrarexperimente hatte. In klinischen Versuchen messen wir soviele Dinge, und wir müssen beides wissen: Wirksamkeit und Sicherheit. Wir dürfen nicht abhängig sein, von einem Entscheidungstest.

Querulus:

Und warum nicht? Erinnere Dich, wir nutzen den Signifikanztest, um uns sagen zu lassen, ob es wert ist, die Daten aus der Studie zu benutzen, um die Effekte der Behandlung schätzen zu können. Wir werden es nicht benutzen, um festzustellen, ob ein bestimmter Effekt existiert. Statt dessen nutzen wir diesen Haupttest einfach, um festzustellen, ob es irgendeinen Beleg in der Studie gibt, daß die Behandlung einen Unterschied macht.

Simplicius:

Das klingt wie eine vernünftige Frage. Und wie beantwortest du das?

Querulus:

Wir können als erstes eine Gruppe von Patienten in der Studie isolieren, die auf die Behandlung scheinbar ansprechen. Wir können dann herausfinden, wie lange es bis zum amsprechen dauert, oder den Zeitraum schätzen, in dem über 90% dieser Patienten darauf reagiert hat.

Neymanius:

Wo ist die Statistik? Du nimmst die zufällige Datenlage, wählst einen zufällige Untergruppe von Patienten und schätzt irgendwas von dieser Untergruppe. Stell dir vor, du hast nur 50 Patienten in der Studie und stelle dir vor, nur fünf sprechen an auf das Medikament, dann kannst du dir deiner Antwort nicht sicher sein.

Querulus:

Jerzy Newman gab uns eine Methode, hier statistische Beweise seinzuführen. Er zeigte uns, wie Konfidence-intervalle zu konstruieren sind. Falls wir irgendeine klinische Frage haben, die eine numerische Antwort hat, dann können wir diese numerische Antwort als eine Funktion der Wahrscheinlichkeitsverteilung formulieren, und wir können mit Neymans Konfidenzeintervallen eine Intervallschätzung des Erwartungswert dieser Funktion herstellen.

Neymanius:

Ich verstehe deinen mathematischen Jargon nicht ganz, aber ich weiß, daß du von zufälligen Untergruppen von Patienten keine Konfidenceintervalle benutzen kannst. Schließlich sind Konfidenzegrenzen nichts als umgekehrte Hypothesentests und die Regeln, die für die Hypothesentestung gelten, gelten auch für Konfidencegrenzen.

Querulus:

Deine "Regeln" sind nur die Konsequenzen von einer zufälligen Optimierungslösung in der Neyman-Pearson-Formulierung. Obwohl es eine algebraische Dualität gibt zwischen den Methoden der Berechnung von Hypothesentests und Konfidenzgrenzen, Neymans erste Veröffentlichung zu diesem Thema zeigt, wie die Konfidenzgrenzen zu interpretieren sind, die auf zufälligen Teilmengen beruhen. Obwohl die Algorithmen zur Berechnung dieselben sein dürften, kann somit deren philosophische Bedeutung gewaltig differieren.

Simplicius:

Wie ich verstanden habe, Querulus, dann würdest du zuerst einen einzigen Haupttest durchführen...

Querulus:

Laß uns ihn Signifikanztest nennen, gemäß Cox.

Simplicius:

...einen einzigen Signifikanztest, um zu sehen, ob die Studie groß genug war, um Differenzen zwischen den Behandlungen zu zeigen. Dann, würdest du einen Satz von klinisch nützlichen Fragen aufstellen und Konfidenzgrenzen zu ihrer Beantwortung aufstellen.

Querulus:

Ja.

Simplicius:

Ich mag diese Methode. In der Vergangenheit fühlte ich mich, wenn ich statistische Tests in klinischen Studien anwendete, als wenn ich an einem langen Hebel ziehen, um die Dinge herauszubekommen, die ich wollte. Es war alles sehr fragwürdig. Ich mußte wichtige klinische Fragen indirekt beantworten, entsprechend lächerlichen Regeln, die mich davon abhielten, die Daten wirklich zu betrachten und mein eigenes medizinisches Verständnis zu benutzen. Deine Methode läßt mich mit den wichtigen klinischen Fragen beginnen und erlaubt mir, die Daten direkt zu behandeln. Ich fühle mich, als ob ich eine verbotene Frucht esse.

Neymanius:

Es ist eine verbotene Frucht. Deine Fehlerquote ist durcheinandergebracht. Du wirst nicht wissen, ob die Überdeckung von 95% Konfidenzintervallen wirklich 95% ist. Du wirst nicht wissen, ob dein Typ I-Fehler wirklich 5% beträgt.

Querulus:

Und wen kümmert das? Der Zweck des Signifikanztests ist es, der Suche in einer Studie vorzubeugen, die zufälliges Rauschen enthält. Falls das wahre Level der Signifikanz nicht genau 5% ist, stört das wirklich? Der Zweck von Konfidenzgrenzen ist es, das Gefühl von Unsicherheit zu vermindern, das mit einer geschätzten Antwort verbunden ist. Wenn der Inhalt eines Intervalls nicht genau 95% ist, stört das wirklich? Diese Zahlen sind nur übliche Werte, die uns die Grenzen von einem Signifikanzniveaus zu berechnen erlauben. Wir sind wirklich nur daran interessiert, ob das Signifikanzlevel "klein" ist und wie weit einige Grenzen für numerischen Antworten auf klinische Fragen zu setzen sind, um den Grad der Unsicherheit zu zeigen, die mit den Antworten verbunden sind.

Simplicius:

Ich mag das. Ich fühle Freiheit, Freiheit!

Neymanius:

Merke dir meine Worte, du wirst viele falsche Schlußfolgerungen mit dieser Freiheit ziehen. Du darfst etwas, was so wichtig ist wie klinische Forschung, nicht in Begriffen wie "klinischer gesunder Menschenverstand" analysieren. Du brauchst Regeln, um Fehler zu vermeiden. Wir müssen fähig sein, die Wahrheit in der Mitte von Zufallsrauschen bei diesen Versuchen zu finden.

Querulus:

Aber was ist denn wissentschaftlich "Wahrheit"? Anscombe [18] hat bereits diese Frage in Rücksicht auf Signifikanztestung beantwortet:

Signifikanztests ... sind nicht beschäftigt mit Wahrheit oder Vertrauen, aber damit, ob die Nullhypothese akzeptabel ist für irgendeinen Zweck. Niemand erwartet, daß irgendeine wissenschaftliche Theorie komplett und exakt sei. Durch theoretische Fehler und Unvollkommenheit, oder durch unperfekte Realisation von postulierten Bedingungen bei der Durchführung eines Experiments erwarten wir Unterschiede zwischen der deducierten theoretischen Hypothese und unseren Beobachtungen. Wir möchten wissen, ob die Übereinstimmung zwischen Beobachtung und Hypothese *gut genug* ist.

Mit anderen Worten, unsere Situation ist immer gespannt, wenn wir versuchen Beobachtungsresultate zu organisieren, auf einem Weg, der uns erlaubt, nützliche Vorhersagen zu treffen. Falls wir diese Vorhersagen um hypothetische Modelle bilden und testen diese Modelle mit einem Signifikanztest, dann ist dies nur ein Teil von einer größeren Übung, die wir Wissenschaft nennen. Wir müssen der wissenschaftlichen Einsicht des Wissenschaftler vertrauen, der die Studie durchführt. Statistik sollte sein die Magd, nicht der Kerkermeister.

Quellen

1. Neyman, J. and Pearson, E. S. "On the use and interpretation of certain test criteria", Biometrika, 20A, Teil I 175-240, Teil II 263-294 (1928)

2. Neyman, J. and Pearson, E. S. "On the problem of the most effizient test of statistical hypotheses", Philosophical Transactions, Series A, 231, 289-337 (1933).

3. Neyman, J. and Pearson, E. S. "The testing of statistical hypotheses in relation to probabilities a priori", Proceedings of the Cambridge Philosophical Society, 29, 492-510 (1933).

4. Neyman, J. "Sur la v√®rification des hypotheses statistiques composées", Bulletin de la Société Mathématicque de Frande, 63,246-266 (1935).

5. Tiao, G. C. and Box, G. E. P. "Some comments on Bayes estimators", American Statistician, 27(2), 12-14 (1973).

6. Edwards, A. W. F. Likelihood, Cambridge University Press, Cambridge (1972).

7. Dempster, A. P. "Upper and öower probabilities generated by a random closed interval", Annals of Mathematical Statistics, 39, 957-966 (1968).

8. Fisher, R. A. Statistical Methods and Scientific Inferece (2nd edn), Oliver and Boyd, London, 1959.

9. Birnbaum, A. "On the foundation of statistical inference", Journal of the American Statistical Association, 57, 269-306 (1962)

10. Kiefer, J. "Conditional confidence statements and confidence estimators", Journal of the American Statistical Association, 72, 789-827 (1977).

11. Berger, J. "The frequentist viewpoint and conditioning", Proceedings of the Berkeley Conference in Honor of Jerzy Neyman and Jack Kiefer (eds le Cam and Olshen), Wadsworth, Montery, CA, vol. I., 15-44, 1985.

12. Cox, D. R. "The role of significance tests", Scandinavian Journal of Statistics, 4, 49-70 (1977).

13. Fisher, R. A. "Studies in crop variation I. An eximation of the yield of dressed grain Broadbalk", Journal of Agricultural Science, 11, 10 7-135 (1921), paper 15 in Collected Papers of R. A. Fisher, The University of Adelaide, Adelaide, Australia, 1971.


Erste Veröffentlichung: 2004 Hinweise, Anmerkungen, Fragen? © 2004-2006 Oliver Lenz
Letzte Änderung: 30.01.2006 Kontaktformular oder Gästebuch
http://www.cvo6.de

Valid HTML 4.0!