Die Feinde des RCT, kognitive Dissonanzen und das bewusstseinsbestimmende Sein
Die Heiler und ihre Irrtümer
so lautet ein nicht selten (z. B. von Ghaemi, 2009) angeführtes Beispiel einer klinischen Selbstherrlichkeit, welche dem griechischen Arzt Galenos von Pergamo (129 - 216) zugeschrieben wird. Galenos hatte aus seiner Viersäftelehre eine Therapie des Ableitens entwickelt, die durch viele Jahrhunderte vor allem in Form des Aderlassens die Medizin dominiert hat. Die Behandlung, welche unzählige Menschenleben gekostet hat, war weit verbreitet und wurde vereinzelt auch noch im 20. Jahrhundert empfohlen (Bell, 2016).
Starke Zweifel an der Praxis des Aderlassens hätten spätestens zu Beginn des 19. Jahrhunderts aufkommen müssen, als Hahnemann, der Schöpfer der Homöopathie, bei der russischen Armee seine Methoden testen durfte. Verglichen wurde die Homöopathie (nicht randomisiert) mit dem aktuellen schulmedizinischen Aderlassen und Abführen sowie einer Placebo-Behandlung. Dabei haben sich die besten Ergebnisse in der „Placebo-Gruppe“ ergeben, was zwar zu einem vorübergehenden Verbot der Homöopathie geführt hat, aber zu keinem Abgehen von den als ebenfalls unwirksam erkannten etablierten Methoden (Dean, 2003). Erst durch ein einfaches Auszählen einer größeren Zahl von Behandlungsfällen sei im 19. Jahrhundert das Ende der Galenischen Praktiken eingeleitet worden (Ghaemi, 2009). Vermutlich war dabei aber auch die Entdeckung von nützlicheren Methoden von Bedeutung.
Natürlich ist Wissenschaft, ebenso wie ärztliches Handeln, immer mit später zu widerlegenden Annahmen und Fehlern verbunden, und so war das Aderlassen in der Entwicklung der Medizin bei weitem nicht die einzige unwirksame und gefährliche Behandlung, die von Experten praktiziert und empfohlen wurde. Nur exemplarisch kann hier aus einer schier endlosen Liste der Irrtümer und Falschlehren berichtet werden. So wurden etwa von der Antike bis ins 19. Jahrhundert Quecksilber gegen Syphilis und Hundekot-Pulver gegen Augenerkrankungen verschrieben, bis schließlich auch diese durch besser wirksame Behandlungen ersetzt wurden (Baxendale, 2025).
    Ein
 bekanntes Beispiel aus der jüngsten Vergangenheit betrifft die alleine 
auf Grundlage von theoretischen Annahmen verbreitete Empfehlung, dass 
Säuglinge auf dem Bauch schlafen sollten. In den USA, Europa und 
Australien hatte das zehntausende Fälle von plötzlichem Kindstod 
verursacht, was sich durch eine Nutzung der vorhandenen Evidenz hätte 
verhindern lassen (nach Gilbert et al., 2005). Und ein besonders krasses
 Beispiel betrifft eine erfolglose - allerdings nur von Einzelpersonen 
vertretene - Behandlung von Transgender-Jugendlichen mit medikamentösen 
Pubertätsblockern (Baxendale, 2025).
    Dass
 die Irrtümer der Experten aufgeklärt, ihr Aberglaube aufgelöst werden 
konnte, hatte letztlich immer mit der Hereinnahme zusätzlicher 
Informationen in die Beurteilung zu tun, zumeist solchen zu anderen 
Fällen, die unter ähnlichen oder unterschiedlichen Bedingungen 
beobachtet wurden, also innerhalb einer erweiterten Ereignisstichprobe 
(Klingler, 1989). Als besonders nützlich hat sich hierbei die 
randomisierte Vergleichsstudie (randomised controlled trial - RCT) 
erwiesen, bei der bei einer zufälligen Aufteilung der Untersuchten auf 
zwei oder mehr Vergleichsbedingungen geprüft wird, welche Beobachtungen 
bei vergleichbaren, weil nur zufällig aufgeteilten Personen unter 
unterschiedlichen Bedingungen beziehungsweise Behandlungen gemacht 
werden können. Die Information darüber, welche Effekte Alternativbehandlungen haben, dürfte aber gar nicht immer von Interesse sein. Von Town et al. (2012) wurden Ergebnisse von randomisierten 
Vergleichsstudien zusammengefasst, bei denen Personen mit 
unterschiedlichen Indikationen jeweils einer psychoanalytischen 
Behandlung und verschiedenen Vergleichsbedingungen unterworfen waren. 
Für die Vorher-Nachher-Differenzen der psychoanalytischen 
Behandlungsgruppen wurde eine globale Effektstärke von 1,01 (0,75 bis 
1,20, je nach Variable) angegeben und für die weiteren Verbesserungen 
bis zum Ende eines Katamnese-Zeitraumes eine Effektstärke von 0,18 (30 
Studien). Wie die Vergleiche mit den Alternativbehandlungen ausgegangen 
sind, wurde allerdings verschwiegen, ebenso, dass auch bei Placebos mit relativ 
hohen Vorher-Nachher-Effektstärken zu rechnen wäre, nach einer 
Metaanalyse von Motta et al. (2023) zwischen 1,45 bei Erwachsenen und 
1,91 für Kinder. Für Baxendale (2025) aber sind die Beispiele fehlerhafter
 Lehrmeinungen genug, um zur folgenden Schlussfolgerung zu gelangen:
          Manchmal konnten Vorurteile auch durch eine Fülle widersprechender Fakten nicht aufgelöst werden. 
  
so musste schon Lind (1753) angesichts der nutzlosen Theorien und Methoden zur Behandlung des Skorbut erkennen. Was aber hindert die Heiler/Experten an einem Wechsel zu anderen Perspektiven und besseren Behandlungen? Grundsätzlich könnten dazu beitragen a) motivationale Ursachen, b) die Art der verfügbaren Informationen und c) die Weise, wie diese verarbeitet werden.
Spezialfall Psychotherapie
Nein, es war nicht der amerikanische Politiker, auf den die Erfindung alternativer Wahrheiten zurückgeht! Irrtum! In Deutschland und in Österreich bestehen nebeneinander schon länger Parallelwelten in Form der bestehenden Therapieschulen, die hinsichtlich des gleichen Gegenstandes - die Entstehung und Behandlung von psychischen Störungen - die Gültigkeit von vollkommen konträren Theorien und Behandlungsmethoden vertreten, die aber vor dem Gesetz und den Versicherungsträgern als gleichwertig, gleichermaßen wirksam und unterstützungswürdig angesehen werden. Die Psychotherapie, so wird von manchen Experten und Verteidigern dieser Sonderstellung behauptet, sei so wie auch jede der anerkannten Therapieschulen, eine eigene Wissenschaft mit eigenen Forschungsmethoden. Und eine Reihe von Studien habe gezeigt, dass trotz ihrer grundlegenden Verschiedenheiten alle Behandlungsmethoden gleichermaßen wirksam wären (vergleiche dazu Klingler, 2025a und b).
    
 Zur Rechtfertigung der Annahme unterschiedlicher Wahrheiten wird 
gelegentlich auf die Heisenbergsche Unschärferelation verwiesen. 
Allerdings haben sich wegen derselben in der Physik und den 
Naturwissenschaften keine unterschiedlichen Schulen entwickelt, welche 
sich für eine Ausbildung in ihrer Sichtweise auch honorieren lassen. Für
 die Mehrzahl der psychotherapeutischen Schulen gibt es auch sonst 
deutliche Unterschiede zu den üblichen naturwissenschaftlichen Methoden,
 so indem diesen eine sogenannte hermeneutische Methode des Verstehens 
als zumindest gleichwertig gegenübergestellt wird (vergleiche auch 
Riess, 2018). Und der RCT, der in den übrigen medizinischen Disziplinen 
zu wesentlichen, vielfach entscheidenden Fortschritten beigetragen und 
sich damit zu einem unverzichtbaren Forschungsverfahren entwickelt hat, 
wird in manchen Psychotherapieschulen zunehmend abgelehnt. Das begann am
 deutlichsten mit der Überblicksarbeit von Grawe et al. (1994), die nach
 den damals vorhandenen RCTs eine überwältigende Überlegenheit der 
kognitiv-verhaltenstherapeutischen Methoden (KVT) gegenüber der Mehrheit
 der anderen Psychotherapiemethoden ausgewiesen hat. Auch in der Folge 
hat sich die KVT in ihrer Wirksamkeit den anderen Verfahren als 
überlegen gezeigt, auch nach den methodisch höchstwertigen 
Behandlungsvergleichen (Tolin et al., 2010). Und in Relation zu den 
verhaltenstherapeutischen Verfahren scheint die Häufigkeit von RCTs zu 
anderen Methoden immer deutlicher zurückzubleiben. Unklar ist, ob hier 
jetzt so viel weniger geforscht oder seltener Publizierbares produziert 
wird. 
        Hier
 sollen nun als Kritiker des RCT Revenstorf (2005) und Kriz (2019) 
angeführt werden, beide vielfach ausgebildete Psychotherapeuten, 
Hochschullehrer und Methodikexperten.
Revenstorf (2005) verglich den RCT mit einem Kuckucksei, womit wohl Befürchtungen angesprochen wurden, die eigenen Kinder könnten von stärkeren aus dem Nest geworfen werden. Es wurde eingebracht:
  a) „Begrenzte Validität der Messung“: „Ein Interview oder erste 
Eindrücke bei einer Begegnung, die im strengen Sinne überhaupt nicht 
reliabel sind, haben oft eine größere Validität für den Therapeuten 
(eigene Hervorhebung) als ein Fragebogenergebnis“ (S. 27). Variablen, 
die auf subjektiver Erfahrung allein beruhen, wären möglicherweise 
valider als die, die auf Operationalisierungen reduziert wurden. 
 b) „Irrepräsentative Stichproben“: Die meisten kontrollierten 
Therapiestudien fänden mit Freiwilligen an Universitätsinstituten statt.
 Dabei erfolge immer eine Selbstselektion der Teilnehmer, „indem nur 
Patienten an der jeweiligen Psychotherapiestudie teilnehmen, die ihr 
Problem (a) psychisch attribuieren und (b) über begrenzte Geldmittel für
 eine Therapie verfügen und (c) zufällig im Einzugsbereich des 
Forschungsprojekts wohnen und auf die betreffende Studie aufmerksam 
wurden“ (S. 26). 
 c) „Scheitern der Randomisierung“: Die so 
angeführte Behauptung wird von Revenstorf im Text nicht weiter 
begründet, vermutlich ist damit aber gemeint, dass entsprechend dem 
bekannten „Drop-out-Problem“ durch ungleiche Drop-Outs nach der 
Randomisierung eine Vergleichbarkeit der Gruppen nicht mehr gegeben ist.
 
 d) „Nicht berücksichtigte klinische Signifikanz“: Die 
statistische Signifikanz sage nichts über die klinische Signifikanz aus,
 statistisch signifikant bedeute nicht geheilt (S. 28, 30). 
 e) 
„Vernachlässigte Komorbidität“: „Normalerweise werden in 
wissenschaftlichen Studien die seltene Sorte Patienten behandelt, die 
sich monosymptomatisch klassifizieren lässt“ (S. 26), die Ergebnisse 
wären daher nicht auf die in der Praxis überwiegende Patientenzahl mit 
Mehrfachdiagnosen übertragbar. 
 f) „Sterilisierung der 
Durchführung“: Auch diese Behauptung wird nicht explizit begründet, 
vermutlich wird damit eine häufig Manual-gebundene Durchführung von 
Therapien in den Studien gemeint und dass durch die angestrebte Klarheit
 und Rationalität „ein Verlust an Tiefe“ erfolge. 
 g) 
„Nicht-Umsetzbarkeit in die Praxis“: Die Situation in der Praxis 
entspreche nicht jener auf Forschungsinstituten und die Patienten in der
 Praxis wären weniger vorselektiert und zumeist auch nicht 
monosymptomatisch (S. 30). 
 h) „Unzumutbarkeit der Warteliste; 
Drop-out-Problem“: Teilnehmer, die Wartegruppen zugeordnet wurden, 
suchen sich unter Umständen andere Hilfen oder steigen aus der Studie 
aus, weshalb der Vergleich mit der Wartegruppe nicht valide sei (S. 27).
 
 i) „Indifferenz der unwiderlegten Nullhypothese“: Eine nicht 
widerlegte Nullhypothese beweise nicht, dass keine Unterschiede 
existieren (S. 28). 
 j) „File-drawer-Problem“: Ein signifikanter
 Unterschied kann bei unbekannter Anzahl nicht signifikanter (nicht 
publizierter) Ergebnisse immer noch zufällig sein. Und hinsichtlich des 
Publikationsbias weist Revenstorf auf eine weitere, ansonsten wohl zu 
wenig beachtete Variante hin: „... viele nicht signifikante Ergebnisse 
werden nicht publiziert, obwohl sie in einer Metaanalyse über alle 
Studien signifikante Resultate erbringen würden (was eher für die 
weniger intensiv beforschten Therapierichtungen zutreffen dürfte). Passt
 also eine Therapieform ... nicht ins aktuelle Wissenschaftsverständnis,
 dann werden mangels Forschung zu wenig Resultate produziert, als dass 
das nötige Signifikanzniveau öfter mal rein zufällig erreicht wird. Oder
 es werden nicht genügend insignifikante Ergebnisse veröffentlicht, um 
durch Aggregation Signifikanz zu erreichen“ (S. 29).
Einige der hier von Revenstorf (2005) beschriebenen Probleme sind durchaus solche, welche bei der Planung, Durchführung und vor allem auch der Beurteilung und Interpretation von randomisierten Vergleichsstudien zu beachten wären. Als grundsätzliche Argumente gegen die Anwendung von RCTs sind sie jedoch wenig geeignet. Denn sehr viele randomisierte Therapiestudien finden in einem klinischen Kontext statt und das auch mit Teilnehmern, bei denen Mehrfachdiagnosen vorliegen (Kritikpunkt b). Und das so bezeichnete „Scheitern der Randomisierung“ (c) wird häufig vermieden, indem sogenannte „Intent-to-treat-Auswertungen“ (ITT) durchgeführt werden, in die auch die Daten von Abbrechern einbezogen werden. Dass klinische Relevanz mit statistischer Signifikanz verwechselt wird (d), wird in neueren Studien auch nur selten der Fall sein, häufig werden auch Remissionen und klinisch bedeutsame Verbesserungen erfasst. Und dass ein Nichtnachweis einer Wirksamkeit nicht gleichbedeutend mit dem Nachweis einer Nichtwirksamkeit ist, sollten auch schon niedrigsemestrige Studierende wissen. Bleibt das nicht unerhebliche Problem, dass nicht-signifikante Ergebnisse zu wenig publiziert werden. Aber auch das ist schon sehr viel früher angesprochen worden, erstmalig vermutlich von Sterling (1959), und wurde auch schon vor 2005 in den Metaanalysen der RCTs zunehmend routinemäßig überprüft.
Kriz und der RCT
    
Gegenüber der gelegentlich auch anderweitig in der Medizin anzutreffenden Kritik am RCT haben Windeler et al. (2008) angemerkt, dass diese häufig auf Informationsdefiziten beruht und mit spezifischen Interessen zusammenhängt: "Wissenschaftliche Karrieren und die Interessen ganzer Berufsgruppen sind mit ihnen verknüpft. Ein RCT mit negativem Ergebnis ist deshalb in den Augen von Forschern und Entwicklern, Herstellern, Ärzten und auch hoffnungsvollen Patienten ein bedrohliches Risiko, das man nur zu gern zu umgehen sucht". Auch bei Revenstorf (2005) und Kriz (2019) scheinen überraschende Informationsdefizite vorzuliegen und eine Verbundenheit mit anderen Methoden als der KVT. In dissonanztheoretischer Hinsicht entspräche ihre RCT-Kritik der Hinzufügung falscher Kognitionen und der Verleugnung beziehungsweise Vermeidung richtiger Kognitionen zur Herstellung einer Konsonanz mit ihrer Ablehnung der KVT und Favorisierung anderer Methoden.
Als Beispiele für falsche Kognitionen seien hier nur angeführt, dass in RCTs
- nur manualisierte Behandlungsprogramme geprüft würden,
- keine Berücksichtigung der klinischen Bedeutsamkeit erfolge,
- keine Personen mit Mehrfachdiagnosen behandelt würden,
- keine Berücksichtigung des Drop-out-Problems erfolge,
- das Prinzip der statistischen Signifikanz, des File-drawer-Problems, der Effektstärke, von nichtlinearen Wechselwirkungen nicht verstanden beziehungsweise berücksichtigt werde.
- der Selektion von Personen (file-drawer-Effekt bei Fallberichten), Variablen und Ergebnissen,
- der Spezifizierung und Diskriminierung der Einflussgrößen,
- der Vergleichbarkeit mit alternativen Behandlungen,
- der Übertragbarkeit der Ergebnisse.
Diese Probleme bestehen bei den die KVT begründenden RCTs in einem sehr viel geringeren Ausmaß als bei den anderen Therapiemethoden, welche überwiegend auf einer subjektiv verarbeiteten, schlecht kontrollierten klinischen Erfahrung, den Ideen und eventuell auch der Überzeugungskraft von Einzelpersonen beruhen, aber als gleichwertig mit der so viel besser erforschten und empirisch begründeten KVT gelehrt und finanziert werden.
Nun, widerlegen lässt sich die Dissonanztheorie mit Revenstorf (2005) und Kriz (2019) ganz gewiss nicht. Sie ist aber sehr schwer zu widerlegen, was auch als eine ihrer Schwächen gelten kann. Dass aber von Kriz, der ja selbst den Hinweis auf standespolitische Interessen gegeben hat, der RCT und damit indirekt die Verhaltenstherapie trotz des so augenfälligen Argumentationsnotstandes mit so viel Vehemenz kritisiert wurden, kann wahrlich nicht überraschen. Kriz ist Ehrenmitglied von Gesellschaften für Logotherapie, humanistische Therapie, Gestalttherapie und systemische Therapie. Das erinnert stark an eine andere kognitionstheoretische These, nämlich, dass das gesellschaftliche Sein das Bewusstsein bestimmt (Marx, 1859).
Mit dem in der Psychotherapie zu fordernden Ethos scheint es aber absolut nicht vertretbar, auf Kosten von Hilfesuchenden Standespolitik zu betreiben. Zum Sein von Hilfebedürftigen und der diesen verpflichteten Versicherungsträgern gehört nämlich leider auch, dass der steigende Bedarf an Psychotherapie nur höchst mangelhaft abgedeckt werden kann, dass aber neben den nachgewiesen effizientesten Behandlungsmethoden auch solche finanziert werden, deren Wirksamkeit nach dem aktuellsten Stand der Forschung kaum jene von Placebos übertrifft (vergleiche Klingler, 2025b und c).
Declaration of Interest
Dean, M. E. (2003). ‘An innocent deception’: placebo controls in the St Petersburg homeopathy trial, 1829-30. JLL Bulletin: Commentaries on the history of treatment evaluation. https://www.jameslindlibrary.org/articles/an-innocent-deception-placebo-controls-in-the-st-petersburg-homeopathy-trial-1829-30/.
University Press.
Ghaemi, S. N. (2009). The case for, and against, evidence-based psychiatry.
https://doi.org/10.1111/j.1600-0447.2009.01355.x.
Gilbert, R., Salanti, G., Harden, M., & See, S. (2005). Infant sleeping position and the sudden infant death syndrome: systematic review of observational studies and historical review of recommendations from 1940 to 2002. International journal of epidemiology, 34(4), 874–887. https://doi.org/10.1093/ije/dyi088.
Grawe, K., Donati, R. & Bernauer, F. (1994). Psychotherapie im Wandel. Von der Konfession zur Profession, 2. Auflage. Göttingen: Hogrefe.
Klingler, O. (1989). Aberglaube und der Placebo-Effekt. Psychologie in Österreich, 9, 85-90.
Klingler, O. J. (2025a). Der Dodo Mythos in der Psychotraumatherapie. https://institut-avm.at/wp-content/uploads/2025/07/oswald-j-klingler-2025-der-dodo-mythos-in-der-psychotraumatherapie-manuskript.pdf.
Klingler, O. J. (2025b). Seelischen Verwundungen - Die Behandlung der posttraumatischen Belastungsstörung und anderer Traumafolgestörungen, Behandlungsmethoden im Vergleich, Review und Metaanalysen mit Ergebnistabellen und Auswertungsprotokoll. München: Grin.
Klingler, O. J. (2025c). Therapie bitte! Aber geprüft und wirksam! https://draft.blogger.com/blog/post/edit/8366506809434223039/5016043512140719842?hl=de.
Kriz, J. (2019). Evidenzbasierung als Kriterium der Psychotherapie-Selektion? Über eine gutes Konzept und seine missbräuchliche Verwendung. Psychotherapie-Wissenschaft, 9(2), 42–50. https://doi.org/10.30820/1664-9583-2019-2-42.
Motta, L. S., Gosmann, N. P., Costa, M. A., Jaeger, M. B., Frozi, J., Grevet, L. T., Spanemberg, L., Manfro, G. G., Cuijpers, P., Pine, D. S., & Salum, G. (2023). Placebo response in trials with patients with anxiety, obsessive-compulsive and stress disorders across the lifespan: a three-level meta-analysis. BMJ mental health, 26(1), e300630. https://doi.org/10.1136/bmjment-2022-300630.
Sterling, T. D. (1959). Publication decisions and their possible effects on inferences drawn from tests of significance—or vice versa. Journal of the American Statistical Association, 54, 30– 34. https://doi.org/10.2307/2282137.
Tolin D. F. (2010). Is cognitive-behavioral therapy more effective than other therapies? A meta-analytic review. Clinical psychology review, 30(6), 710–720. https://doi.org/10.1016/j.cpr.2010.05.003.
Windeler, J., Antes, G., Behrens, J., Donner-Banzhoff, N. & Lelgemann, M. (2008). Randomisierte kontrollierte Studien: Kritische Evaluation ist ein Wesensmerkmal ärztlichen Handelns. Deutsches Ärzteblatt, 105(11): A 565–70.
 
Kommentare
Kommentar veröffentlichen