Die Feinde des RCT, kognitive Dissonanzen und das bewusstseinsbestimmende Sein
Die Heiler und ihre Irrtümer
so lautet ein nicht selten (z. B. von Ghaemi, 2009) angeführtes Beispiel einer klinischen Selbstherrlichkeit, welche dem griechischen Arzt Galenos von Pergamo (129 - 216) zugeschrieben wird. Galenos hatte aus seiner Viersäftelehre eine Therapie des Ableitens entwickelt, die durch viele Jahrhunderte vor allem in Form des Aderlassens die Medizin dominiert hat. Die Behandlung, welche unzählige Menschenleben gekostet hat, war weit verbreitet und wurde vereinzelt auch noch im 20. Jahrhundert empfohlen (Bell, 2016).
Starke Zweifel an der Praxis des Aderlassens hätten spätestens zu Beginn des 19. Jahrhunderts aufkommen müssen, als Hahnemann, der Schöpfer der Homöopathie, bei der russischen Armee seine Methoden testen durfte. Verglichen wurde die dabei vornehmlich interessierende Homöopathie (nicht randomisiert) mit dem aktuellen schulmedizinischen Aderlassen und Abführen sowie mit einer als unwirksam erachteten Placebo-Behandlung. Dabei haben sich die besten Ergebnisse in der "Placebo-Gruppe" ergeben, was zwar zu einem vorübergehenden Verbot der Homöopathie geführt hat, aber zu keinem Abgehen von den als ebenfalls unwirksam erkannten etablierten Methoden (Dean, 2003). Erst durch ein einfaches Auszählen einer größeren Zahl von Behandlungsfällen sei im 19. Jahrhundert das Ende der Galenischen Praktiken eingeleitet worden (Ghaemi, 2009). Von Bedeutung war dabei vermutlich auch, dass inzwischen nützlichere Methoden Verbreitung gefunden hatten.
Natürlich ist Wissenschaft, ebenso wie ärztliches Handeln, immer mit später zu widerlegenden Annahmen und mit Fehlern verbunden, und so war das Aderlassen in der Entwicklung der Medizin bei weitem nicht die einzige unwirksame und gefährliche Behandlung, die von Experten praktiziert und empfohlen wurde. Nur exemplarisch kann hier aus einer schier endlosen Liste der Irrtümer und Falschlehren berichtet werden. So wurden beispielsweise von der Antike bis ins 19. Jahrhundert Quecksilber gegen Syphilis und Hundekot-Pulver gegen Augenerkrankungen verschrieben, bis schließlich auch diese durch besser wirksame Behandlungen ersetzt wurden (Baxendale, 2025).
Ein bekanntes Beispiel aus der jüngsten Vergangenheit betrifft die alleine auf Grundlage theoretischer Überlegungen verbreitete Empfehlung, dass Säuglinge auf dem Bauch schlafen sollten. In den USA, Europa und Australien wurden damit zehntausende Fälle von plötzlichem Kindstod verursacht, welche sich durch eine Nutzung der vorhandenen Evidenz hätten verhindern lassen (nach Gilbert et al., 2005). Und ein besonders krasses Beispiel betrifft eine erfolglose - allerdings nur von Einzelpersonen vertretene - Behandlung von Transgender-Jugendlichen mit medikamentösen Pubertätsblockern (Baxendale, 2025). Die Reihe entsprechender Irrungen ließe sich wohl noch weiter fortsetzen, für Baxendale (2025, ohne Seitenangabe) waren aber genug Beispiele vorhanden, um eine tiefe Skepsis gegenüber Expertenmeinungen zu begründen:
Dass die Irrtümer der Experten aufgeklärt, ihr Aberglaube aufgelöst werden konnte, hatte häufig mit der Hereinnahme zusätzlicher Informationen in die Beurteilung zu tun, zumeist solchen zu anderen Fällen, die unter ähnlichen oder unterschiedlichen Bedingungen beobachtet wurden, also innerhalb einer erweiterten Ereignisstichprobe (Klingler, 1989). Als besonders nützlich hat sich hierbei die randomisierte Vergleichsstudie (randomized controlled trial - RCT) erwiesen, bei der bei einer zufälligen Aufteilung der Untersuchten auf zwei oder mehr Vergleichsbedingungen geprüft wird, welche Beobachtungen bei vergleichbaren, weil nur zufällig aufgeteilten Personen unter den unterschiedlichen Bedingungen beziehungsweise Behandlungen gemacht werden können. Die Effekte der Alternativbehandlungen beziehungsweise deren Kommunikation dürften dabei allerdings nicht immer den Interessen der Forschenden entsprechen. Beispielsweise wurden von Town et al. (2012) Ergebnisse von randomisierten Vergleichsstudien zusammengefasst, bei denen Personen mit unterschiedlichen Indikationen jeweils einer psychoanalytischen Behandlung und unterschiedlichen Vergleichsbedingungen unterworfen waren. Für die Vorher-Nachher-Differenzen der psychoanalytischen Behandlungsgruppen wurde eine gemittelte Effektstärke im Ausmaß von 1,01 (0,75 bis 1,20, je nach Variable) angegeben. Das Ausmaß der Veränderungen in den Vergleichsbehandlungen wurde konsequent verschwiegen. Und damit der Sinn von randomisierten Vergleichsstudien ad absurdum geführt. Denn die Vorher-Nachher-Unterschiede unter Psychoanalyse könnten nicht nur Behandlungs-, sondern auch Placebo-, Allegiance- oder Remissionseffekte spiegeln. Und auch bei Placebos wäre mit hohen Vorher-Nachher-Effektstärken zu rechnen, nach einer neueren Metaanalyse (Motta et al., 2023) zwischen 1,45 bei Erwachsenen und 1,91 für Kinder. So kann auch durch scheinbar aufwendige Meta-Analysen randomisierter Vergleichsstudien ein falscher Eindruck entstehen, wenn wichtige Daten ausgeklammert bleiben.
Der Widerstand der Lehrmeinungen
Manchmal können Vorurteile auch angesichts zahlreicher widerlegender Fakten nicht beseitigt werden.
so musste schon Lind (1753, nach der James Lind Library, 2025) angesichts der nutzlosen Theorien und Methoden zur Behandlung des Skorbut erkennen. Was aber hindert die Heiler und Experten an einem Wechsel zu anderen Perspektiven und besseren Behandlungen? Man könnte an a) motivationale Ursachen, b) die Art der verfügbaren Informationen und c) die Weise, wie diese verarbeitet werden, denken.
Spezialfall Psychotherapie
Nein, es war nicht der bekannte amerikanische Innovator, auf den die Erfindung alternativer Wahrheiten zurückgeht! Irrtum! In Deutschland und in Österreich bestehen nebeneinander schon länger Parallelwelten in Form der bestehenden Therapieschulen, die hinsichtlich des gleichen Gegenstandes - die Entstehung und Behandlung von psychischen Störungen - die Gültigkeit von einander weitgehend widersprechenden Theorien und Behandlungsmethoden vertreten, die aber vor dem Gesetz und den Versicherungsträgern als gleichwertig, gleichermaßen wirksam und unterstützungswürdig angesehen werden. Die Psychotherapie, so wird von manchen Experten und Verteidigern dieser Sonderstellung behauptet, sei so wie auch jede der anerkannten Therapieschulen, eine eigene Wissenschaft mit eigenen Forschungsmethoden. Und eine Reihe von Studien habe gezeigt, dass trotz ihrer grundlegenden Verschiedenheiten alle Behandlungsmethoden gleichermaßen wirksam wären (vergleiche dazu Klingler, 2025a und b).
Für
die Mehrzahl der psychotherapeutischen Schulen gibt es recht deutliche Unterschiede zu den in der medizinischen Forschung üblichen naturwissenschaftlichen Methoden,
so indem diesen eine sogenannte hermeneutische Methode des Verstehens
als zumindest gleichwertig gegenübergestellt wird (vergleiche auch
Riess, 2018). Und der RCT, der in den übrigen medizinischen Disziplinen
zu wesentlichen, vielfach entscheidenden Fortschritten beigetragen und
sich damit zu einem unverzichtbaren Forschungsverfahren entwickelt hat,
wird in manchen Psychotherapieschulen zunehmend abgelehnt. Das begann am
deutlichsten mit der Überblicksarbeit von Grawe et al. (1994), die nach
den damals vorhandenen RCTs eine überwältigende Überlegenheit der kognitiv-verhaltenstherapeutischen Methoden (KVT) gegenüber der Mehrheit
der anderen Psychotherapiemethoden ausgewiesen hat. Auch in der Folge
hat sich die KVT in ihrer Wirksamkeit den anderen Verfahren als
überlegen gezeigt, auch nach den als methodisch höchstwertig zu beurteilenden Behandlungsvergleichen (etwa Tolin et al., 2010). Doch in Relation zu den
verhaltenstherapeutischen Verfahren scheint die Prüfung von anderen Therapiemethoden im Rahmen von RCTs immer deutlicher zurückzubleiben (mit Ausnahme der sehr intensiv beforschten Methode des "Eye Movement Desensitization and Reprocessing"). Unklar, ob hier
jetzt so viel weniger geforscht oder seltener Publizierbares produziert
wird.
Dazu sollen nun als Kritiker des RCT Revenstorf (2005) und Kriz (2019)
angeführt werden, beide vielfach ausgebildete Psychotherapeuten,
Hochschullehrer und Methodikexperten.
Revenstorf und der RCT
a) "Begrenzte Validität der Messung": „Ein Interview oder erste
Eindrücke bei einer Begegnung, die im strengen Sinne überhaupt nicht
reliabel sind, haben oft eine größere Validität für den Therapeuten
(eigene Hervorhebung) als ein Fragebogenergebnis“ (S. 27). Variablen,
die auf subjektiver Erfahrung allein beruhen, wären möglicherweise
valider als die, die auf Operationalisierungen reduziert wurden.
b) "Irrepräsentative Stichproben": Die meisten kontrollierten
Therapiestudien fänden mit Freiwilligen an Universitätsinstituten statt.
Dabei erfolge immer eine Selbstselektion der Teilnehmer, „indem nur
Patienten an der jeweiligen Psychotherapiestudie teilnehmen, die ihr
Problem (a) psychisch attribuieren und (b) über begrenzte Geldmittel für
eine Therapie verfügen und (c) zufällig im Einzugsbereich des
Forschungsprojekts wohnen und auf die betreffende Studie aufmerksam
wurden“ (S. 26).
c) "Scheitern der Randomisierung": Die so
angeführte Behauptung wird von Revenstorf im Text nicht weiter
begründet, vermutlich ist damit aber gemeint, dass entsprechend dem
bekannten "Drop-out-Problem" durch ungleiche Drop-Outs nach der
Randomisierung eine Vergleichbarkeit der Gruppen nicht mehr gegeben ist.
d) "Nicht berücksichtigte klinische Signifikanz": Die
statistische Signifikanz sage nichts über die klinische Signifikanz aus,
statistisch signifikant bedeute nicht geheilt (S. 28, 30).
e) "Vernachlässigte Komorbidität": "Normalerweise werden in
wissenschaftlichen Studien die seltene Sorte Patienten behandelt, die
sich monosymptomatisch klassifizieren lässt" (S. 26), die Ergebnisse
wären daher nicht auf die in der Praxis überwiegende Patientenzahl mit
Mehrfachdiagnosen übertragbar.
f) "Sterilisierung der
Durchführung": Auch diese Behauptung wird nicht explizit begründet,
vermutlich wird damit eine häufig Manual-gebundene Durchführung von
Therapien in den Studien gemeint und dass durch die angestrebte Klarheit
und Rationalität „ein Verlust an Tiefe“ erfolge.
g) "Nicht-Umsetzbarkeit in die Praxis": Die Situation in der Praxis
entspreche nicht jener auf Forschungsinstituten und die Patienten in der
Praxis wären weniger vorselektiert und zumeist auch nicht
monosymptomatisch (S. 30).
h) "Unzumutbarkeit der Warteliste;
Drop-out-Problem": Teilnehmer, die Wartegruppen zugeordnet wurden,
suchen sich unter Umständen andere Hilfen oder steigen aus der Studie
aus, weshalb der Vergleich mit der Wartegruppe nicht valide sei (S. 27).
i) "Indifferenz der unwiderlegten Nullhypothese": Eine nicht
widerlegte Nullhypothese beweise nicht, dass keine Unterschiede
existieren (S. 28).
j) "File-drawer-Problem": Ein signifikanter
Unterschied kann bei unbekannter Anzahl nicht signifikanter (nicht
publizierter) Ergebnisse immer noch zufällig sein. Und hinsichtlich des
Publikationsbias weist Revenstorf auf eine weitere, ansonsten wohl zu
wenig beachtete Variante hin: "... viele nicht signifikante Ergebnisse
werden nicht publiziert, obwohl sie in einer Metaanalyse über alle
Studien signifikante Resultate erbringen würden (was eher für die
weniger intensiv beforschten Therapierichtungen zutreffen dürfte). Passt
also eine Therapieform ... nicht ins aktuelle Wissenschaftsverständnis,
dann werden mangels Forschung zu wenig Resultate produziert, als dass
das nötige Signifikanzniveau öfter mal rein zufällig erreicht wird. Oder
es werden nicht genügend insignifikante Ergebnisse veröffentlicht, um
durch Aggregation Signifikanz zu erreichen" (S. 29).
Einige der hier von Revenstorf (2005) beschriebenen Probleme sind durchaus solche, welche bei der Planung, Durchführung und vor allem auch der Beurteilung und Interpretation von randomisierten Vergleichsstudien zu beachten wären. Als grundsätzliche Argumente gegen die Anwendung von RCTs sind sie jedoch wenig geeignet. Denn sehr viele randomisierte Therapiestudien finden in einem klinischen Kontext statt und das auch mit Teilnehmern, bei denen Mehrfachdiagnosen vorliegen (Kritikpunkt b). Und das so bezeichnete "Scheitern der Randomisierung“ (c) wird häufig vermieden, indem sogenannte "Intent-to-treat-Auswertungen" (ITT) durchgeführt werden, in die auch die Daten von Abbrechern einbezogen werden. Dass klinische Relevanz mit statistischer Signifikanz verwechselt wird (d), wird in neueren Studien auch nur selten der Fall sein, häufig werden auch Remissionen und klinisch bedeutsame Verbesserungen erfasst. Und dass ein Nichtnachweis einer Wirksamkeit nicht gleichbedeutend mit dem Nachweis einer Nichtwirksamkeit ist, sollten auch schon niedrigsemestrige Studierende wissen. Bleibt das nicht unerhebliche Problem, dass nicht-signifikante Ergebnisse zu wenig publiziert werden. Aber auch das ist schon sehr viel früher angesprochen worden, erstmalig vermutlich von Sterling (1959), und wurde als "Publication-Bias" auch schon vor 2005 in den Metaanalysen der RCTs zunehmend routinemäßig überprüft.
Kriz und der RCT
Kognitive Dissonanzen, Sein und Bewusstsein
Gegenüber der gelegentlich auch anderweitig in der Medizin anzutreffenden Kritik am RCT haben Windeler et al. (2008) angemerkt, dass diese häufig auf Informationsdefiziten beruht und mit spezifischen Interessen zusammenhängt: "Wissenschaftliche Karrieren und die Interessen ganzer Berufsgruppen sind mit ihnen verknüpft. Ein RCT mit negativem Ergebnis ist deshalb in den Augen von Forschern und Entwicklern, Herstellern, Ärzten und auch hoffnungsvollen Patienten ein bedrohliches Risiko, das man nur zu gern zu umgehen sucht". Auch bei Revenstorf (2005) und Kriz (2019) scheinen überraschende Informationsdefizite vorzuliegen und eine Verbundenheit mit anderen Methoden als der KVT. In dissonanztheoretischer Hinsicht entspräche ihre RCT-Kritik der Hinzufügung falscher Kognitionen und der Verleugnung beziehungsweise Vermeidung richtiger Kognitionen zur Herstellung einer Konsonanz mit ihrer Ablehnung der KVT und Favorisierung anderer Methoden.
Als Beispiele für falsche Kognitionen seien hier nur die Behauptungen angeführt, dass in RCTs
- nur manualisierte Behandlungsprogramme geprüft würden,
- keine Berücksichtigung der klinischen Bedeutsamkeit erfolge,
- keine Personen mit Mehrfachdiagnosen behandelt würden,
- keine Berücksichtigung des Drop-out-Problems erfolge,
- das Prinzip der statistischen Signifikanz, des File-drawer-Problems, der Effektstärke, von nichtlinearen Wechselwirkungen nicht verstanden beziehungsweise berücksichtigt werde.
- der Selektion von Personen (file-drawer-Effekt bei Fallberichten), Variablen und Ergebnissen,
- der Spezifizierung und Diskriminierung der Einflussgrößen,
- der Vergleichbarkeit mit alternativen Behandlungen,
- der Übertragbarkeit der Ergebnisse.
Diese Probleme bestehen bei den die KVT begründenden RCTs in einem sehr viel geringeren Ausmaß als bei den anderen Therapiemethoden, welche überwiegend auf einer subjektiv verarbeiteten, schlecht kontrollierten klinischen Erfahrung, den Ideen und eventuell auch der Überzeugungskraft von Einzelpersonen beruhen, aber als gleichwertig mit der so viel besser erforschten und empirisch begründeten KVT gelehrt und finanziert werden.
Nun, widerlegen lässt sich die Dissonanztheorie mit Revenstorf (2005) und Kriz (2019) ganz gewiss nicht. Sie ist aber sehr schwer zu widerlegen, was auch als eine ihrer Schwächen gelten kann. Dass aber von Kriz, der ja selbst den Hinweis auf standespolitische Interessen gegeben hat, der RCT und damit indirekt die Verhaltenstherapie trotz des so augenfälligen Argumentationsnotstandes mit so viel Vehemenz kritisiert wurden, kann wahrlich nicht überraschen. Kriz ist Ehrenmitglied von Gesellschaften für Logotherapie, humanistische Therapie, Gestalttherapie und systemische Therapie. Womit nachdrücklich an eine andere kognitionstheoretische These erinnert wird, nämlich, dass das gesellschaftliche Sein das Bewusstsein bestimme (Marx, 1859).
Declaration of Interest
Literatur
Dean, M. E. (2003). ‘An innocent deception’: placebo controls in the St Petersburg homeopathy trial, 1829-30. JLL Bulletin: Commentaries on the history of treatment evaluation. https://www.jameslindlibrary.org/articles/an-innocent-deception-placebo-controls-in-the-st-petersburg-homeopathy-trial-1829-30/.
University Press. https://archive.org/details/theoryofcognitiv00fest.
Ghaemi, S. N. (2009). The case for, and against, evidence‐based psychiatry. Acta Psychiatrica Scandinavica, 119(4), 249–251. https://doi.org/10.1111/j.1600-0447.2009.01355.x.
Gilbert, R., Salanti, G., Harden, M., & See, S. (2005). Infant sleeping position and the sudden infant death syndrome: systematic review of observational studies and historical review of recommendations from 1940 to 2002. International journal of epidemiology, 34(4), 874–887. https://doi.org/10.1093/ije/dyi088.
Grawe, K., Donati, R. & Bernauer, F. (1994). Psychotherapie im Wandel. Von der Konfession zur Profession, 2. Auflage. Göttingen: Hogrefe. https://www.deutsche-digitale-bibliothek.de/item/DLA6A4NEGGGKOK7KQNJYSSK32EV455QU.
Klingler, O. (1989). Aberglaube und der Placebo-Effekt. Psychologie in Österreich, 9, 85-90. https://archive.org/details/klingler-1989-aberglaube-und-der-placebo-effekt.
Klingler, O. J. (2025a). Der Dodo Mythos in der Psychotraumatherapie. https://institut-avm.at/wp-content/uploads/2025/07/oswald-j-klingler-2025-der-dodo-mythos-in-der-psychotraumatherapie-manuskript.pdf.
Klingler, O. J. (2025b). Seelische Verwundungen - Die Behandlung der posttraumatischen Belastungsstörung und anderer Traumafolgestörungen, Behandlungsmethoden im Vergleich, Review und Metaanalysen. Norderstedt: Books on Demand. https://buchshop.bod.de/seelische-verwundungen-die-posttraumatische-belastungsstoerung-und-andere-traumafolgestoerungen-die-wirksamkeit-psychotherapeutischer-m-9783819278655.
Klingler, O. J. (2025c). Therapie bitte! Aber geprüft und wirksam! https://draft.blogger.com/blog/post/edit/8366506809434223039/5016043512140719842?hl=de.
Kriz, J. (2019). Evidenzbasierung als Kriterium der Psychotherapie-Selektion? Über eine gutes Konzept und seine missbräuchliche Verwendung. Psychotherapie-Wissenschaft, 9(2), 42–50. https://doi.org/10.30820/1664-9583-2019-2-42.
Motta, L. S., Gosmann, N. P., Costa, M. A., Jaeger, M. B., Frozi, J., Grevet, L. T., Spanemberg, L., Manfro, G. G., Cuijpers, P., Pine, D. S., & Salum, G. (2023). Placebo response in trials with patients with anxiety, obsessive-compulsive and stress disorders across the lifespan: a three-level meta-analysis. BMJ mental health, 26(1), e300630. https://doi.org/10.1136/bmjment-2022-300630.
Sterling, T. D. (1959). Publication decisions and their possible effects on inferences drawn from tests of significance—or vice versa. Journal of the American Statistical Association, 54, 30– 34. https://doi.org/10.2307/2282137.
Tolin D. F. (2010). Is cognitive-behavioral therapy more effective than other therapies? A meta-analytic review. Clinical psychology review, 30(6), 710–720. https://doi.org/10.1016/j.cpr.2010.05.003.
Windeler, J., Antes, G., Behrens, J., Donner-Banzhoff, N. & Lelgemann, M. (2008). Randomisierte kontrollierte Studien: Kritische Evaluation ist ein Wesensmerkmal ärztlichen Handelns. Deutsches Ärzteblatt, 105(11), A 565–70. https://cfcdn.aerzteblatt.de/pdf/105/11/a565.pdf?ts=25.08.2009+17%3A28%3A57.
Kommentare
Kommentar veröffentlichen