Homepage von Oliver Lenz

Statistik: Der große Gesundheitsschwindel

Quelle: http://www.sepp.org/controv/healthhoax.html

Ich habe nach besten Wissen und Gewissen übersetzt. Im Artikel wird die übliche Statistik, die P-Werte benutzt, um die Wirksamkeit von Therapien aufzuzeigen, kritisiert.

The Great Health Hoax - Der große Gesundheitsschwindel

Viele medizinische "Durchbrüche" sind nichts als Täuschungen, die auf fehlerhafte Forschung beruhen. Daraus folgen verschwendete Steuergelder, falsche Empfehlungen für Medikamente und Mißtrauen in das Gesundheitswesen.

Es gibt keinen Zweifel: Für einen Herzinfarkt gab es keine "bessere" Zeit, als die frühen 90er Jahre. Die Überlebenschancen schienen besser zu sein als jemals. Führende medizinische Zeitschriften berichteten von Resultaten neuer Behandlungen von Herzinfarktopfern - jedoch erwies sich deren Einfluß auf die Todesrate dann als nicht annähernd so gut - es war verblüffend.

1992 zeigten Studien in Schottland, daß ein gerinnungsauflösendes Medikament, genannt "Anistreplase", die Überlebenschancen verdoppelt. Ein Jahr später tauchte eine andere Wunderkur auf: Die Injektion von Magnesium kann, wie andere Studien zeigten, ebenfalls die Überlebensrate verdoppeln. Führende Kardiologen begrüßten die Injektionen als eine "effektive, sicherere, einfache und billige" Behandlung, die das Leben von Tausenden retten kann.

Aber dann begann etwas seltsames zu geschehen. 1995 veröffentlichte die Lancet das Resultat einer großen internationalen Studie mit 58.000 Patienten über die Überlebensrate bei Herzinfarkt - und die überraschenden lebensrettenden Fähigkeiten von Magnesiuminjektionen lösten sich einfach auf. Anistreplase ging es nur wenig besser: Die gegenwärtige Ansicht ist die, daß die wirkliche Effektivität gerade halb so groß ist, wie in der orginalen Studie ermittelt.

Im langen Krieg gegen den größten Killer britischer Menschen sind Enttäuschungen offensichtlich unvermeidlich. Und in der letzten Dekade haben die Wissenschaftler andere Herzinfarktbehandlungen entdeckt, die in Studien die Mortalität bis zu 30% senkten.

Aber wieder geschah irgend etwas seltsames. Wenn diese Therapien aus den klinischen Studien herauskamen und in die Praxis eingeführt wurden, schienen auch sie ihre verblüffenden Fähigkeiten zu verlieren.

Im letzten Jahr veröffentlichten Dr. Nigel Brown und Kollegen am Quenn's Medical Centre in Nottingham einen Vergleich der Sterberate von Herzinfarktpatienten 1989-1992 mit der im klinisch "dunklen Zeitalter" von 1982-84, bevor Wunderwaffen, wie die Thrombozytentherapie, ihren Erfolg in den Studien gezeigt hatten. Ihr Ziel war die Antwort auf die einfache Frage: Welchen Einfluß haben diese "klinisch erprobten" Therapien auf die Sterberate in Praxis?

Gemäß den Studienresultate sollten die Wunderbehandlungen zu Todesraten von nur 10% oder so geführt haben. Was Dr. Brown und seine Kollegen aktuell fanden, machte, um es milde zu sagen, fassungslos. In den Krankenstationen schienen die Wundermittel überhaupt keinen Effekt zu haben. 1982 betrug die Todesrate unter Herzinfarktpatienten ungefähr 20%. 10 Jahre später war es dasselbe: 20% - die doppelte Todesrate, wie von den klinischen Studien gezeigt.

Auf der Suche nach Erklärungen verwiesen Dr. Brown und Kollegen auf die Unterschiede zwischen Patienten in klinischen Studien - welche dazu tendieren, handverlesen und pedantisch von führenden Experten untersucht zu werden und dem ordinären Patienten, der im Krankenhaus landet. Sie verwiesen auch darauf, daß Verzögerungen bei der Ankunft der Patienten im Krankenhaus die Wundermittel davon abhalten könnte, ihren wirklichen Wert zu zeigen.

All diese scheint perfekt begründet zu sein - außer, daß Herzinfarkttherapien nicht die einzigen "Durchbrüche" sind, die, wenn sie in der wirklichen Welt erprobt werden, sich als Knallfrösche erweisen.

Über die Jahre scheinen Krebsexperten eine Heimstatt von verheißungsvollen Medikamenten zu sein, die außerhalb von klinischen Studien trübe scheitern. 1986 schloß das New England Journal of Medicine in einer Analyse, daß "einige 35 Jahre von intensiven Anstrengungen, die sich vor allem mit der Verbesserung der Behandlung beschäftigt haben, als qualifizierter Fehlschlag betrachtet werden muß". Im letzten Jahr veröffentlichte das Journal ein Update: "Mit 12 Jahren mehr an Daten und Erfahrung", so die Autoren, "haben wir wenig Grund, unsere Schlußfolgerung zu ändern."

Die Wissenschaftler, die mögliche Zusammenhänge zwischen Erkrankungen und verschiedenen Risikofaktoren untersuchten, haben dieselbe Sache erlebt: Eindrucksvolle Beweise eines "signifikanten" Risikos - die sich auflösen, wenn andere versuchen, deren Existenz zu bestätigen. Leukämie und Handymasten, Gewebeerkrankung und Silikon-Brustimplantate, Salz und hoher Blutdruck: Für alles gibt es einen eindrucksvollen Stapel an Studien, die auf ein signifikantes Risiko weisen - und ein gleich beeindruckenden Stapel, der sagt, daß es keinen gibt.

Dieselbe Geschichte wie in den medizinischen Wisschenschaften, wiederholt sich auf den Gebieten von der Psychologie bis zur Genetik: überraschende Resultate werden von respektablen Forschergruppen erzielt, aber sie verschwinden, wenn andere versuchen, sie zu replizieren.

Viele Anstrengungen wurde darauf verwendet, um diese mysteriösen Fälle des "sich auflösendem Durchbruchs" zu erklären. Übervertrauen in Daten aus dünnen Proben, die Abneigung der Zeitschriften, negative Resultate von frühen Studien zu drucken und richtiger Betrug: all dies wurde als mögliche Gründe vorgebracht.

Aber der wahrscheinlichste Schuldige ist schon lange bei den Statistikern bekannt. Ein Anhaltspunkt über seine Identität kommt von dem einen Merkmal, welches all diesen Wissenschaftsdisziplinen gemeinsam ist: Sie basieren alle auf einen sogenannten "Signifikanztest", mit denen sie die Bedeutung ihrer Ergebnisse einschätzen.

Erstmals in den 1920ern entwickelt, werden diese Tests routinemäßig in der gesamten wissenschaftlichen Welt angewendet. Tausende wissenschaftlicher Veröffentlichungen und Millionen Pfund von Forschungsgeldern basieren auf ihre Schlußfolgerungen. Aber sie sind fundamental und gefährlich falsch.

Wenn man sie anwendet, um klinische Versuche zu analysieren, kann diese Schulbuchtechnik leicht den Anschein der Effektivität einer neuen Behandlung verdoppeln und ein Grenzresultat in einen hochsignifikanten Durchbruch verwandeln. Sie kann einen überzeugenden, aber dann doch falschen, Beweis erbringen, für den Zusammenhang zwischen Krankheiten und möglicher Ursachen. Sie kann sogar der Behauptung der Existenz von paranormalen Erscheinungen eindrucksvolle Unterstützung geben.

Der naheliegende Gedanke, daß diese Grundfehler in einer solch weitgenutzten Technik solange übersehen werden konnten, ist schockierend. Ganz und gar noch schockierender ist jedoch der Fakt, daß die wissenschaftliche Welt wiederholt vor diesen Fehlern gewarnt wurde - und diese Warnungen ignoriert hat.

Als ein Ergebnis werden jedes Jahr Tausende von Forschungsberichtet veröffentlicht, deren Schlußfolgerungen auf einer Technik basieren, die bekanntermaßen unzuverlässig ist. Die Zeit und die Anstrengungen - und öffentliche Gelder - die in Versuchen verschwendet werden, die durchgehend falschen Ergebnisse zu bestätigen, ist einer der größten wissenschaftlichen Skandale unserer Zeit.

Die Wurzeln dieses Skandals sind tief, sie haben ihre Ursache in der Arbeit eines englischen Mathematikers und Klerikers namens Thomas Bayes, die vor über 200 Jahren veröffentlicht wurde. In seinem "Essay Towards Solving a Problem in the Doctrine of Chances" gab Bayes eine mathematische Regel von erstaunlicher Kraft. Um es einfach zu sagen, sie zeigt, wie wir unser Vertrauen im Licht neuer Informationen verändern sollten.

Man muß kein Statistiker sein, um die fundamentale Bedeutung des Bayesschen Theorems für die wissenschaftliche Forschung zu sehen. Von Studien des Kosmos bis zu Versuchen von Krebsmitteln, alle Forschung führt letztlich dazu, daß wir unsere Ansichten ändern sollten, wenn neue Daten auftauchen.

Über 150 Jahre lang formte das Bayessche Theorem die Grundlage der statistischen Wissenschaft, sie erlaubte den Forschern, die Bedeutung neuer Resultate einzuschätzen. Aber während der frühen Zeit dieses Jahrhunderts, begann eine Anzahl von einflußreichen Mathematikern und Philosophen Protest gegen Bayes Theorem zu erheben. Der am meisten angegriffene Punkt war auch der einfachste: Verschiedene Personen können Bayes Theorem anwenden und unterschiedliche Resultate erhalten.

Konfrontiert mit demselben experimentellen Beleg für, sagen wir ASW, können wirkliche Anhänger Bayes Theorem dazu benutzen, um zu erklären, daß die Resultate zeigen, daß Telepathie fast gewiß eine Realität ist. Im Kontrast dazu können die Skeptiker Bayes Theorem benutzen, um zu zeigen, daß sie noch immer nicht überzeugt sind.

Beide Ansichten sind möglich, denn Bayes Theorem zeigt nur, wie jemand seine ursprüngliche Stufe des Vertrauens zu ändern hat - und verschiedene Personen können mit verschiedenen Meinungen beginnen.

Für Nichtwissenschaftler könnte dies als ein ungeheuerlicher Fehler erscheinen: Das, was die eine Person als einen überzeugenden Beweis ansieht, muß eine andere nicht beeindrucken. Keine Frage: Der Fakt, daß Bayes Theorem verschiedene Personen zu verschiedenen Schlußfolgerungen führen kann, führte zu seiner untrennbaren Verbindung zum abstoßendsten Konzept, das die Wissenschaft kennt: Subjektivität.

Es ist schwer die Emotionen zu vermitteln, die in der wissenschaftlichen Welt durch das S-Wort wachgerufen werden. Subjektivität wird betrachtet als der Barbar am Tor zur Wissenschaft, der Feind der objektiven Wahrheit, der Zerstörer der Einsicht. Sie wird gesehen als der Virus im Hirn, der der Menschheit ein intellektuelles "Freiheit-für-Alles" angedreht hat, wo die Idee des "Fortschritts" als "bourgois" verbannt ist und der Glaube an "Fakten" als naiv betrachtet wird. Einmal in die Festung der Wissenschaft eingelassen, so das Argument, würde Subjektivität alle Forschung in glorifizierte Literaturwissenschaft verwandeln.

In den 1920ern war Bayes Theorem alles, aber es wurde als ketzerisch bezeichnet - und somit gab es ein Problem: Womit sollte die Wissenschaft es ersetzen? Die Antwort kam von einem seiner brilliantesten Kritikern: Dem Cambridger Mathematiker und Genetiker, Ronald Aylmer Fisher - dem Vater der modernen Statistik.

Kaum ein Wissenschaftler hatte mehr Bedarf an einem Ersatz für Bayes als Fisher, der oft mit komplexen Daten aus Pflanzenzuchtversuchen arbeitete. Sich auf seine großen mathematischen Fähigkeiten stützend, setzte er auf die Entwicklung eines neuen und komplett objektiven Weg der Schlußfolgerung aus Experimenten. 1925 glaubte er, Erfolg gehabt zu haben, und publizierte seine Technik in dem Buch "Statistical Methods for Research Workers". Es wurde eines der einflußreichsten Texte in der Geschichte der Wissenschaft und legte die Grundlage für scheinbar alle Statistik, die Wissenschaftler heute benutzen.

Somit scheint Fisher das zustande gebracht zu haben, was Bayes als unmöglich bezeichnet hatte: Er hatte einen Weg gefunden, die "Signifikanz" von experimentellen Daten völlig objektiv einzuschätzen. Das heißt, er hatte einen Weg gefunden, den jedermann nutzen konnte, um zu zeigen, daß ein Resultat zu beeindruckend ist, um als Schwankung angesehen zu werden.

Alles was die Wissenschaftler zu tun haben, so Fisher, ist ihre Rohdaten in etwas, was P-Wert genannt wurde umzuwandeln; eine Zahl, welche die Wahrscheinlichkeit wiedergibt, ein solches oder besseres Ergebnis durch Zufall alleine zu erhalten. Wenn sich der P-Wert unterhalb 1 zu 20 (=0,05) befindet, sagte Fisher, kann sicher geschlossen werden, daß ein Ergebnis "signifikant" ist.

Einfachheit verbunden mit scheinbarer Objektivität: Fishers P-Wert-Methode war ein sofortiger Hit für die wissenschaftliche Welt. Seine Popularität dauert bis zum heutigen Tag. Öffne irgendeine führende wissenschaftliche Zeitschrift und Du wirst die Phrase "P < 0,05" - das Kennzeichen einer signifikanten Entdeckung - in Veröffentlichungen in jedem vorstellbaren Forschungsgebiet erblicken, von der Astronomie bis zur Zoologie. Jedes Jahr erscheinen neue statistische Lehrbücher, die Fishers einfaches kleines Rezept einer neuen Generation von Forschern erklären.

Aber gerade als die Wissenschaftler anfingen, den P-Wert zu benutzen, fingen peinliche Fragen an, die von anderen Statistikern gestellt zu wurden. Der hartnäckigste Frager erwuchs aus dem bekannten Cambridger Mathermatiker Harold Jeffrey. In seiner eigenen Abhandlung zur Statistik, publiziert 1939, fragte Jeffrey folgende offensichtliche Frage: Warum soll die Entscheidungslinie für Signifikanz auf Fishers Wert von 0,05 gesetzt werden?

Diese scheinbar so harmlose Frage hat weitgehende Implikationen, da Fishers Feststellung der 0,05 noch immer die notwendige Bedingung ist, um auf ein signifikantes Ergebnis zu schließen. Wissenschaftler wissen: wenn ihr Experiment ein Ergebnis hat, welches Fishers Standard entspricht, sie sind auf dem Weg, einen publizierbaren Bericht zu bekommen.

Fishers Standard ist aber noch bedeutender für die pharmazeutische Industrie, da die nationalen Regulierungsbehörden noch immer Fishers 0,05 verwenden, um zu entscheiden, ob ein neues Medikament zugelassen wird. Ein Medikamentenstudie mit einem P-Wert, der Fishers Standard entspricht, kann somit den Unterschied zwischen Millionenprofit oder Bankrott bedeuten.

Nun, was waren die brillianten Einsichten, die Fisher dazu brachten, den magischen Wert von 0,05 zu wählen, an dem so viele Forscher gestanden oder gefallen sind? Es ist unglaublich: Wie Fisher selbst einstand, gab es keine! Er entschied einfach 0,05, weil es mathematisch praktisch war.

Die Folgerungen dessen sind wirklich beunruhigend. Das bedeutet, daß wissenschaftliche Schlüsselfragen, z. B. ob ein neues Herzmedikament als effektiv betrachtet wird oder ob eine Ernährung wirklich Krebs fördert, entschieden wird durch einen vollkommen willkürlichen Standard, der vor über 70 Jahren aus mathematischer Bequemlichkeit festgelegt wurde.

Das würde nichts ausmachen, wenn Fisher Glück gehabt hätte, und eine Zahl gewählt hätte, das das Risiko, einer Täuschung durch reinen Zufall zu unterliegen, sehr gering gemacht hätte. Gleichwohl wissen die Statistiker jetzt, daß seine Wahl eine besonders schlechte war - und daß viele angeblich "signifikante" Ergebnisse in Fakt vollständig falsch sind.

Die ersten Hinweise über dieses tief quälende Merkmal von Fishers Methoden erschienen erstmal schon in den frühen 1960ern, gefolgt von einem Wiederaufleben des Interesses an Bayes Theorem. Viele der angeblich unüberwindlichen Einwände zu seinen Gebrauch erwiesen sich als haltlos und das Theorem ist seitdem wieder aufgetaucht als eines der Axiome der gesamten Theorie der Wahrscheinlichkeit. Dessen Bedeutung für die Statistik kann nicht weggewischt werden - unabhängig, wie widerlich das die Wissenschaftler finden.

Und die größte Bedeutung dieser Implikationen ist die - wie Bayes selbst vor 200 Jahren bemerkt hat - daß es tatsächlich unmöglich ist, eine Signifikanz alleine aus den Daten abzuschätzen. Entscheidend ist, daß die Plausibilität der Daten berücksichtigt wird.

Bayes Theorem benutzend, begann eine Anzahl der führenden Statistikern die Zuverlässigkeit von P-Werten als Messung der Signifikanz zu erproben. Was sie fanden, kann kaum schwerwiegender sein.

Von vorneherein suggeriert Fishers Standard von 0,05, daß das Risiko, daß purer Zufall die wirkliche Erklärung für ein gefundenes Resultat ist, nur 5 zu 100 beträgt - viel Schutz gegen eine Täuschung. Aber 1963 zeigte ein Team von Statistikern an der Universität Michigan, daß das wirkliche Risiko, getäuscht zu werden, leicht 10x höher liegen kann. Da die Plausibiltät der Daten nicht berücksichtigt wird, sieht Fishers Test "Signifikanz" in Resultaten, die in Fakt zu 50% äußerster Nonsens sind.

Das Team, inklusive Prof. Leonard Savage, einen der vornehmsten Experten zur Wahrscheinlichkeit in der modernen Zeit, warnte die Forscher, daß Fishers kleine Vorschrift erschreckend anfällig ist, Signifikanz in zufälligen Resultaten zu sehen.

Ungeachtet einer Veröffentlichung in der prestigeträchtigen "Psychological Review" verhallte die Warnung ungehört. Über die nächsten 30 Jahre haben andere Statistiker ebenfalls versucht, die Alamglocken zu schlagen: wieder ohne Erfolg. Während der 1980er, Prof. James Berger von der Purdue Universität - eine Weltautorität zu Bayes Theorem - publizierte eine ganze Serie von Artikeln über die erschreckende Tendenz von Fishers P-Wert, Signifikanzen zu folgern. Ergebnisse, die dem 0,05-Standard entsprechen, sagte Berger, "können in Fakt erscheinen, wenn die Daten nur einen sehr kleinen oder gar keinen Beweis für einen Effekt darstellen." Wiederum wurden diese Warnungen ignoriert.

1986 entschied sich ein Wissenschaftler für eine direkte Aktion gegen die Fehler in Fishers Methode. Prof. Kenneth Rothman von der Universität von Massachusetts, Herausgeber des gutangesehenen "American Journal of Public Health" teilte allen Forschern, die in seiner Zeitschrift veröffentlichen wollten mit, daß er nicht länger Resultate akzeptieren würde, die auf P-Werten beruhen.

Es war ein einfacher Zug, welcher einen dramatischen Effekt hatte: Die Lehre in Amerikas führender öffentlicher Gesundheitschule wurde verändert, mit statistischen Kursen, die überarbeitet wurden, um die Studenten in Alternativen zu P-Werten zu üben. Aber zwei Jahre später, als Rothmann die Herausgabe aufgab, wurde sein Bann auf die P-Werte aufgehoben - und die Forscher kehrten zurück zu ihren alten Wegen.

Dieselbe Geschichte fand in Großbritannien statt. 1995 setze die britische psychologische Gesellschaft und ihr Pendant in Amerika ganz gelassen ein Arbeitstreffen an, um die Möglichkeiten zu prüfen, die P-Werte aus ihren Zeitschriften zu verbannen - und traf keine Entscheidung. "Es wurde einfach aufgehört", so ein Insider. "Die Meinung war, daß es zu viel für die Zeitschriften ändern würde".

Führende britische Medizinzeitschriften haben ebenfalls die Idee geprüft, die P-Werte zu verbannen, aber auch sie sind zurückgerudert. Statt dessen schlugen sie den Forschern lediglich vor, andere Mittel des Messens der Signifikanz zu benutzen. Obwohl von diesen alternative Methoden bekannt ist, daß sie unter ähnlichen Fehlern wie die P-Werte leiden: Sie überschätzen beides, die Größe von unplausiblen Effekten und ihre Signifikanz.

Mehr als 30 Jahre, nachdem die ersten Warnungen zu hören waren, ist es klargeworden, daß die wissenschaftliche Welt keine Intention hat, sich mit den Konstruktionsfehler in den Signifikanztests zu beschäftigen. Doch der Beweis für diese Konstruktionsfehler ist überall zu sehen: Fragwürdig Erklärungen von Gesundheitsrisiken aus einem Wust von unlogischen Gründen, "Wundermittel", die ihre überraschenden Fähigkeiten außerhalb von klinischen Studien verlieren, bizarre Zusammenhänge zwischen Genetik und Perönlichkeit.

Ein kennzeichnendes Merkmal der Ausreden, die für die für fehlenden Gegenmaßnahmen gegeben wird ist, daß sie auf Argumenten beruhen wie "zu umstürzlerisch für unser Journal" und die erforderlichen "radikalen Änderungen" in der Ausbildung der Wissenschaftler. Für einen Beruf, von dem man denkt, daß er der Erforschung der Wahrheit dient, ist kurios, daß Themen wie die "Zuverlässigkeit von Forschungsergebnissen" niemals erwähnt werden.

Es ist schwer die Schlußfolgerung zu vermeiden, daß die wirkliche Erklärung für all dieses "foot-dragging" überhaupt nicht wissenschaftlich ist. Es ist einfach so, daß, falls die Wissenschaftler Signifikanz-Tests wie den P-Wert aufgeben, viele ihrer Behauptungen als daß gesehen werden, was sie wirklich sind: bedeutungslose Schwankungen, für die Steuergelder niemals hätte ausgegeben werden dürfen.

Der kühle Fakt ist, daß 1925 Ronald Fisher den Wissenschaftlern eine mathematische Maschine in die Hand gab, die Unsinn in Durchbrüche und Schwankungen in Entdeckungen verwandelt. Es ist Zeit, die Notbremse zu ziehen.

O Robert Matthews voller Wortlaut erschien in dem Artikel "Facts versus Factions: Der Gebrauch und Mißbrauch von Subjektivität in der wissenschaftlichen Forschung".

Erste Veröffentlichung: 2004	Hinweise, Anmerkungen, Fragen?	© 2004-2006 Oliver Lenz
Letzte Änderung: 30.01.2006	Kontaktformular oder Gästebuch	http://www.cvo6.de