Die Feinde des RCT, kognitive Dissonanzen und das bewusstseinsbestimmende Sein
Die Heiler und ihre Irrtümer
so lautet ein nicht selten (z. B. von Ghaemi, 2009) angeführtes Beispiel einer klinischen Selbstherrlichkeit, welche dem griechischen Arzt Galenos von Pergamo (129 - 216) zugeschrieben wird. Galenos hatte aus seiner Viersäftelehre eine Therapie des Ableitens entwickelt, die durch viele Jahrhunderte vor allem in Form des Aderlassens die Medizin dominiert hat. Die Behandlung, welche unzählige Menschenleben gekostet hat, war weit verbreitet und wurde vereinzelt auch noch im 20. Jahrhundert empfohlen (Bell, 2016).
Starke Zweifel an der Praxis des Aderlassens hätten spätestens zu Beginn des 19. Jahrhunderts aufkommen müssen, als Hahnemann, der Schöpfer der Homöopathie, bei der russischen Armee seine Methoden testen durfte. Verglichen wurde die Homöopathie (nicht randomisiert) mit dem aktuellen schulmedizinischen Aderlassen und Abführen sowie einer Placebo-Behandlung. Dabei haben sich die besten Ergebnisse in der "Placebo-Gruppe" ergeben, was zwar zu einem vorübergehenden Verbot der Homöopathie geführt hat, aber zu keinem Abgehen von den als ebenfalls unwirksam erkannten etablierten Methoden (Dean, 2003). Erst durch ein einfaches Auszählen einer größeren Zahl von Behandlungsfällen sei im 19. Jahrhundert das Ende der Galenischen Praktiken eingeleitet worden (Ghaemi, 2009). Vermutlich war dabei aber auch die Entdeckung von nützlicheren Methoden von Bedeutung.
Natürlich ist Wissenschaft, ebenso wie ärztliches Handeln, immer mit später zu widerlegenden Annahmen und Fehlern verbunden, und so war das Aderlassen in der Entwicklung der Medizin bei weitem nicht die einzige unwirksame und gefährliche Behandlung, die von Experten praktiziert und empfohlen wurde. Nur exemplarisch kann hier aus einer schier endlosen Liste der Irrtümer und Falschlehren berichtet werden. So wurden etwa von der Antike bis ins 19. Jahrhundert Quecksilber gegen Syphilis und Hundekot-Pulver gegen Augenerkrankungen verschrieben, bis schließlich auch diese durch besser wirksame Behandlungen ersetzt wurden (Baxendale, 2025).
Ein
bekanntes Beispiel aus der jüngsten Vergangenheit betrifft die alleine
auf Grundlage von theoretischen Annahmen verbreitete Empfehlung, dass
Säuglinge auf dem Bauch schlafen sollten. In den USA, Europa und
Australien hatte das zehntausende Fälle von plötzlichem Kindstod verursacht, was sich durch eine Nutzung der vorhandenen Evidenz hätte
verhindern lassen (nach Gilbert et al., 2005). Und ein besonders krasses
Beispiel betrifft eine erfolglose - allerdings nur von Einzelpersonen
vertretene - Behandlung von Transgender-Jugendlichen mit medikamentösen
Pubertätsblockern (Baxendale, 2025).
Dass
die Irrtümer der Experten aufgeklärt, ihr Aberglaube aufgelöst werden
konnte, hatte letztlich immer mit der Hereinnahme zusätzlicher
Informationen in die Beurteilung zu tun, zumeist solchen zu anderen
Fällen, die unter ähnlichen oder unterschiedlichen Bedingungen
beobachtet wurden, also innerhalb einer erweiterten Ereignisstichprobe
(Klingler, 1989). Als besonders nützlich hat sich hierbei die randomisierte Vergleichsstudie (randomized controlled trial - RCT)
erwiesen, bei der bei einer zufälligen Aufteilung der Untersuchten auf
zwei oder mehr Vergleichsbedingungen geprüft wird, welche Beobachtungen
bei vergleichbaren, weil nur zufällig aufgeteilten Personen unter
unterschiedlichen Bedingungen beziehungsweise Behandlungen gemacht
werden können. Die Information darüber, welche Effekte Alternativbehandlungen haben, dürfte aber gar nicht immer von Interesse sein. Von Town et al. (2012) wurden Ergebnisse von randomisierten
Vergleichsstudien zusammengefasst, bei denen Personen mit
unterschiedlichen Indikationen jeweils einer psychoanalytischen
Behandlung und verschiedenen Vergleichsbedingungen unterworfen waren.
Für die Vorher-Nachher-Differenzen der psychoanalytischen
Behandlungsgruppen wurde eine globale Effektstärke von 1,01 (0,75 bis
1,20, je nach Variable) angegeben und für die weiteren Verbesserungen
bis zum Ende eines Katamnese-Zeitraumes eine Effektstärke von 0,18 (30
Studien). Wie die Vergleiche mit den Alternativbehandlungen ausgegangen
sind, wurde allerdings verschwiegen, ebenso, dass auch bei Placebos mit relativ
hohen Vorher-Nachher-Effektstärken zu rechnen wäre, nach einer
Metaanalyse von Motta et al. (2023) zwischen 1,45 bei Erwachsenen und
1,91 für Kinder. Für Baxendale (2025, ohne Seitenangabe) aber sind die Beispiele fehlerhafter
Lehrmeinungen genug, um zur folgenden Schlussfolgerung zu gelangen:
Der Widerstand der Lehrmeinungen
Manchmal konnten Vorurteile auch durch eine Fülle widersprechender Fakten nicht aufgelöst werden.
so musste schon Lind (1753, nach der James Lind Library, 2025) angesichts der nutzlosen Theorien und Methoden zur Behandlung des Skorbut erkennen. Was aber hindert die Heiler/Experten an einem Wechsel zu anderen Perspektiven und besseren Behandlungen? Grundsätzlich könnten dazu beitragen a) motivationale Ursachen, b) die Art der verfügbaren Informationen und c) die Weise, wie diese verarbeitet werden.
Spezialfall Psychotherapie
Nein, es war nicht der bekannte Amerikaner, auf den die Erfindung alternativer Wahrheiten zurückgeht! Irrtum! In Deutschland und in Österreich bestehen nebeneinander schon länger Parallelwelten in Form der bestehenden Therapieschulen, die hinsichtlich des gleichen Gegenstandes - die Entstehung und Behandlung von psychischen Störungen - die Gültigkeit von vollkommen konträren Theorien und Behandlungsmethoden vertreten, die aber vor dem Gesetz und den Versicherungsträgern als gleichwertig, gleichermaßen wirksam und unterstützungswürdig angesehen werden. Die Psychotherapie, so wird von manchen Experten und Verteidigern dieser Sonderstellung behauptet, sei so wie auch jede der anerkannten Therapieschulen, eine eigene Wissenschaft mit eigenen Forschungsmethoden. Und eine Reihe von Studien habe gezeigt, dass trotz ihrer grundlegenden Verschiedenheiten alle Behandlungsmethoden gleichermaßen wirksam wären (vergleiche dazu Klingler, 2025a und b).
Zur Rechtfertigung der Annahme unterschiedlicher Wahrheiten wird
gelegentlich auf die Heisenbergsche Unschärferelation verwiesen.
Allerdings haben sich wegen derselben in der Physik und den
Naturwissenschaften keine unterschiedlichen Schulen entwickelt, welche
sich für eine Ausbildung in ihrer Sichtweise auch honorieren lassen. Für
die Mehrzahl der psychotherapeutischen Schulen gibt es auch sonst
deutliche Unterschiede zu den üblichen naturwissenschaftlichen Methoden,
so indem diesen eine sogenannte hermeneutische Methode des Verstehens
als zumindest gleichwertig gegenübergestellt wird (vergleiche auch
Riess, 2018). Und der RCT, der in den übrigen medizinischen Disziplinen
zu wesentlichen, vielfach entscheidenden Fortschritten beigetragen und
sich damit zu einem unverzichtbaren Forschungsverfahren entwickelt hat,
wird in manchen Psychotherapieschulen zunehmend abgelehnt. Das begann am
deutlichsten mit der Überblicksarbeit von Grawe et al. (1994), die nach
den damals vorhandenen RCTs eine überwältigende Überlegenheit der kognitiv-verhaltenstherapeutischen Methoden (KVT) gegenüber der Mehrheit
der anderen Psychotherapiemethoden ausgewiesen hat. Auch in der Folge
hat sich die KVT in ihrer Wirksamkeit den anderen Verfahren als
überlegen gezeigt, auch nach den methodisch höchstwertigen
Behandlungsvergleichen (etwa Tolin et al., 2010). Und in Relation zu den
verhaltenstherapeutischen Verfahren scheint die Häufigkeit von RCTs zu
anderen Methoden immer deutlicher zurückzubleiben. Unklar ist, ob hier
jetzt so viel weniger geforscht oder seltener Publizierbares produziert
wird.
Hier
sollen nun als Kritiker des RCT Revenstorf (2005) und Kriz (2019)
angeführt werden, beide vielfach ausgebildete Psychotherapeuten,
Hochschullehrer und auch Methodikexperten.
Revenstorf und der RCT
a) "Begrenzte Validität der Messung": „Ein Interview oder erste
Eindrücke bei einer Begegnung, die im strengen Sinne überhaupt nicht
reliabel sind, haben oft eine größere Validität für den Therapeuten
(eigene Hervorhebung) als ein Fragebogenergebnis“ (S. 27). Variablen,
die auf subjektiver Erfahrung allein beruhen, wären möglicherweise
valider als die, die auf Operationalisierungen reduziert wurden.
b) "Irrepräsentative Stichproben": Die meisten kontrollierten
Therapiestudien fänden mit Freiwilligen an Universitätsinstituten statt.
Dabei erfolge immer eine Selbstselektion der Teilnehmer, „indem nur
Patienten an der jeweiligen Psychotherapiestudie teilnehmen, die ihr
Problem (a) psychisch attribuieren und (b) über begrenzte Geldmittel für
eine Therapie verfügen und (c) zufällig im Einzugsbereich des
Forschungsprojekts wohnen und auf die betreffende Studie aufmerksam
wurden“ (S. 26).
c) "Scheitern der Randomisierung": Die so
angeführte Behauptung wird von Revenstorf im Text nicht weiter
begründet, vermutlich ist damit aber gemeint, dass entsprechend dem
bekannten "Drop-out-Problem" durch ungleiche Drop-Outs nach der
Randomisierung eine Vergleichbarkeit der Gruppen nicht mehr gegeben ist.
d) "Nicht berücksichtigte klinische Signifikanz": Die
statistische Signifikanz sage nichts über die klinische Signifikanz aus,
statistisch signifikant bedeute nicht geheilt (S. 28, 30).
e) "Vernachlässigte Komorbidität": "Normalerweise werden in
wissenschaftlichen Studien die seltene Sorte Patienten behandelt, die
sich monosymptomatisch klassifizieren lässt" (S. 26), die Ergebnisse
wären daher nicht auf die in der Praxis überwiegende Patientenzahl mit
Mehrfachdiagnosen übertragbar.
f) "Sterilisierung der
Durchführung": Auch diese Behauptung wird nicht explizit begründet,
vermutlich wird damit eine häufig Manual-gebundene Durchführung von
Therapien in den Studien gemeint und dass durch die angestrebte Klarheit
und Rationalität „ein Verlust an Tiefe“ erfolge.
g) "Nicht-Umsetzbarkeit in die Praxis": Die Situation in der Praxis
entspreche nicht jener auf Forschungsinstituten und die Patienten in der
Praxis wären weniger vorselektiert und zumeist auch nicht
monosymptomatisch (S. 30).
h) "Unzumutbarkeit der Warteliste;
Drop-out-Problem": Teilnehmer, die Wartegruppen zugeordnet wurden,
suchen sich unter Umständen andere Hilfen oder steigen aus der Studie
aus, weshalb der Vergleich mit der Wartegruppe nicht valide sei (S. 27).
i) "Indifferenz der unwiderlegten Nullhypothese": Eine nicht
widerlegte Nullhypothese beweise nicht, dass keine Unterschiede
existieren (S. 28).
j) "File-drawer-Problem": Ein signifikanter
Unterschied kann bei unbekannter Anzahl nicht signifikanter (nicht
publizierter) Ergebnisse immer noch zufällig sein. Und hinsichtlich des
Publikationsbias weist Revenstorf auf eine weitere, ansonsten wohl zu
wenig beachtete Variante hin: "... viele nicht signifikante Ergebnisse
werden nicht publiziert, obwohl sie in einer Metaanalyse über alle
Studien signifikante Resultate erbringen würden (was eher für die
weniger intensiv beforschten Therapierichtungen zutreffen dürfte). Passt
also eine Therapieform ... nicht ins aktuelle Wissenschaftsverständnis,
dann werden mangels Forschung zu wenig Resultate produziert, als dass
das nötige Signifikanzniveau öfter mal rein zufällig erreicht wird. Oder
es werden nicht genügend insignifikante Ergebnisse veröffentlicht, um
durch Aggregation Signifikanz zu erreichen" (S. 29).
Einige der hier von Revenstorf (2005) beschriebenen Probleme sind durchaus solche, welche bei der Planung, Durchführung und vor allem auch der Beurteilung und Interpretation von randomisierten Vergleichsstudien zu beachten wären. Als grundsätzliche Argumente gegen die Anwendung von RCTs sind sie jedoch wenig geeignet. Denn sehr viele randomisierte Therapiestudien finden in einem klinischen Kontext statt und das auch mit Teilnehmern, bei denen Mehrfachdiagnosen vorliegen (Kritikpunkt b). Und das so bezeichnete "Scheitern der Randomisierung“ (c) wird häufig vermieden, indem sogenannte "Intent-to-treat-Auswertungen" (ITT) durchgeführt werden, in die auch die Daten von Abbrechern einbezogen werden. Dass klinische Relevanz mit statistischer Signifikanz verwechselt wird (d), wird in neueren Studien auch nur selten der Fall sein, häufig werden auch Remissionen und klinisch bedeutsame Verbesserungen erfasst. Und dass ein Nichtnachweis einer Wirksamkeit nicht gleichbedeutend mit dem Nachweis einer Nichtwirksamkeit ist, sollten auch schon niedrigsemestrige Studierende wissen. Bleibt das nicht unerhebliche Problem, dass nicht-signifikante Ergebnisse zu wenig publiziert werden. Aber auch das ist schon sehr viel früher angesprochen worden, erstmalig vermutlich von Sterling (1959), und wurde auch schon vor 2005 in den Metaanalysen der RCTs zunehmend routinemäßig überprüft.
Kriz und der RCT
Kognitive Dissonanzen, Sein und Bewusstsein
Gegenüber der gelegentlich auch anderweitig in der Medizin anzutreffenden Kritik am RCT haben Windeler et al. (2008) angemerkt, dass diese häufig auf Informationsdefiziten beruht und mit spezifischen Interessen zusammenhängt: "Wissenschaftliche Karrieren und die Interessen ganzer Berufsgruppen sind mit ihnen verknüpft. Ein RCT mit negativem Ergebnis ist deshalb in den Augen von Forschern und Entwicklern, Herstellern, Ärzten und auch hoffnungsvollen Patienten ein bedrohliches Risiko, das man nur zu gern zu umgehen sucht". Auch bei Revenstorf (2005) und Kriz (2019) scheinen überraschende Informationsdefizite vorzuliegen und eine Verbundenheit mit anderen Methoden als der KVT. In dissonanztheoretischer Hinsicht entspräche ihre RCT-Kritik der Hinzufügung falscher Kognitionen und der Verleugnung beziehungsweise Vermeidung richtiger Kognitionen zur Herstellung einer Konsonanz mit ihrer Ablehnung der KVT und Favorisierung anderer Methoden.
Als Beispiele für falsche Kognitionen seien hier nur angeführt, dass in RCTs
- nur manualisierte Behandlungsprogramme geprüft würden,
- keine Berücksichtigung der klinischen Bedeutsamkeit erfolge,
- keine Personen mit Mehrfachdiagnosen behandelt würden,
- keine Berücksichtigung des Drop-out-Problems erfolge,
- das Prinzip der statistischen Signifikanz, des File-drawer-Problems, der Effektstärke, von nichtlinearen Wechselwirkungen nicht verstanden beziehungsweise berücksichtigt werde.
- der Selektion von Personen (file-drawer-Effekt bei Fallberichten), Variablen und Ergebnissen,
- der Spezifizierung und Diskriminierung der Einflussgrößen,
- der Vergleichbarkeit mit alternativen Behandlungen,
- der Übertragbarkeit der Ergebnisse.
Diese Probleme bestehen bei den die KVT begründenden RCTs in einem sehr viel geringeren Ausmaß als bei den anderen Therapiemethoden, welche überwiegend auf einer subjektiv verarbeiteten, schlecht kontrollierten klinischen Erfahrung, den Ideen und eventuell auch der Überzeugungskraft von Einzelpersonen beruhen, aber als gleichwertig mit der so viel besser erforschten und empirisch begründeten KVT gelehrt und finanziert werden.
Nun, widerlegen lässt sich die Dissonanztheorie mit Revenstorf (2005) und Kriz (2019) ganz gewiss nicht. Sie ist aber sehr schwer zu widerlegen, was auch als eine ihrer Schwächen gelten kann. Dass aber von Kriz, der ja selbst den Hinweis auf standespolitische Interessen gegeben hat, der RCT und damit indirekt die Verhaltenstherapie trotz des so augenfälligen Argumentationsnotstandes mit so viel Vehemenz kritisiert wurden, kann wahrlich nicht überraschen. Kriz ist Ehrenmitglied von Gesellschaften für Logotherapie, humanistische Therapie, Gestalttherapie und systemische Therapie. Womit nachdrücklich an eine andere kognitionstheoretische These erinnert, nämlich, dass das gesellschaftliche Sein das Bewusstsein bestimme (Marx, 1859).
Declaration of Interest
Literatur
Dean, M. E. (2003). ‘An innocent deception’: placebo controls in the St Petersburg homeopathy trial, 1829-30. JLL Bulletin: Commentaries on the history of treatment evaluation. https://www.jameslindlibrary.org/articles/an-innocent-deception-placebo-controls-in-the-st-petersburg-homeopathy-trial-1829-30/.
University Press. https://archive.org/details/theoryofcognitiv00fest.
Ghaemi, S. N. (2009). The case for, and against, evidence‐based psychiatry. Acta Psychiatrica Scandinavica, 119(4), 249–251. https://doi.org/10.1111/j.1600-0447.2009.01355.x.
Gilbert, R., Salanti, G., Harden, M., & See, S. (2005). Infant sleeping position and the sudden infant death syndrome: systematic review of observational studies and historical review of recommendations from 1940 to 2002. International journal of epidemiology, 34(4), 874–887. https://doi.org/10.1093/ije/dyi088.
Grawe, K., Donati, R. & Bernauer, F. (1994). Psychotherapie im Wandel. Von der Konfession zur Profession, 2. Auflage. Göttingen: Hogrefe. https://www.deutsche-digitale-bibliothek.de/item/DLA6A4NEGGGKOK7KQNJYSSK32EV455QU.
Klingler, O. (1989). Aberglaube und der Placebo-Effekt. Psychologie in Österreich, 9, 85-90. https://archive.org/details/klingler-1989-aberglaube-und-der-placebo-effekt.
Klingler, O. J. (2025a). Der Dodo Mythos in der Psychotraumatherapie. https://institut-avm.at/wp-content/uploads/2025/07/oswald-j-klingler-2025-der-dodo-mythos-in-der-psychotraumatherapie-manuskript.pdf.
Klingler, O. J. (2025b). Seelische Verwundungen - Die Behandlung der posttraumatischen Belastungsstörung und anderer Traumafolgestörungen, Behandlungsmethoden im Vergleich, Review und Metaanalysen. Norderstedt: Books on Demand. https://buchshop.bod.de/seelische-verwundungen-die-posttraumatische-belastungsstoerung-und-andere-traumafolgestoerungen-die-wirksamkeit-psychotherapeutischer-m-9783819278655.
Klingler, O. J. (2025c). Therapie bitte! Aber geprüft und wirksam! https://draft.blogger.com/blog/post/edit/8366506809434223039/5016043512140719842?hl=de.
Kriz, J. (2019). Evidenzbasierung als Kriterium der Psychotherapie-Selektion? Über eine gutes Konzept und seine missbräuchliche Verwendung. Psychotherapie-Wissenschaft, 9(2), 42–50. https://doi.org/10.30820/1664-9583-2019-2-42.
Motta, L. S., Gosmann, N. P., Costa, M. A., Jaeger, M. B., Frozi, J., Grevet, L. T., Spanemberg, L., Manfro, G. G., Cuijpers, P., Pine, D. S., & Salum, G. (2023). Placebo response in trials with patients with anxiety, obsessive-compulsive and stress disorders across the lifespan: a three-level meta-analysis. BMJ mental health, 26(1), e300630. https://doi.org/10.1136/bmjment-2022-300630.
Sterling, T. D. (1959). Publication decisions and their possible effects on inferences drawn from tests of significance—or vice versa. Journal of the American Statistical Association, 54, 30– 34. https://doi.org/10.2307/2282137.
Tolin D. F. (2010). Is cognitive-behavioral therapy more effective than other therapies? A meta-analytic review. Clinical psychology review, 30(6), 710–720. https://doi.org/10.1016/j.cpr.2010.05.003.
Windeler, J., Antes, G., Behrens, J., Donner-Banzhoff, N. & Lelgemann, M. (2008). Randomisierte kontrollierte Studien: Kritische Evaluation ist ein Wesensmerkmal ärztlichen Handelns. Deutsches Ärzteblatt, 105(11), A 565–70. https://cfcdn.aerzteblatt.de/pdf/105/11/a565.pdf?ts=25.08.2009+17%3A28%3A57.
Kommentare
Kommentar veröffentlichen