Erziehungswissenschaft und Bildungspolitik: "Trial and Error" und die Schwächen der Forschung

 

 
     Wie so viele Lehrmeinungen waren auch jene der Pädagogik (paidagōgikḗ, den Knaben führen) einem ständigen Wandel unterworfen. In ihrer Entwicklung muss sie wohl weitestgehend als ein Konglomerat von mit Handlungsanweisungen verbundenen und teilweise konkurrierenden und widersprüchlichen philosophischen Lehren verstanden werden, welche eng verknüpft mit den Strömungen des Zeitgeistes und dessen Ideologien waren (vergleiche Weimer, 1992). Das kann auch in der jüngeren Geschichte so beobachtet werden, nicht nur, aber in einem besonderen Maße, auch im deutschsprachigen Raum.
 
    Hier bestanden zu Beginn des 20. Jahrhunderts den aufkommenden demokratischen und Befreiungsbewegungen entsprechende Ansätze zu einer „Erziehung vom Kinde aus", zu einer demokratischen Erziehung und einer Schülerselbstverwaltung, neben ersten Versuchen einer naturwissenschaftlich zu begründenden experimentellen Pädagogik (Meumann, 1911). Diese hatten jedoch nicht lange Bestand und sind in den aufkeimenden nationalistischen und totalitären Tendenzen des Ersten Weltkrieges und in der Zwischenkriegszeit nicht nur in Deutschland radikal wieder zurückgedrängt worden. Wie in anderen Diktaturen wurde auch im Nationalsozialismus das Schul- und Bildungswesen der Vertretung und Verbreitung der eigenen Ideologie und schließlich den Kriegszielen unterworfen. Ab 1945 sollte dann in Deutschland - zunächst nach einem Beschluss der Alliierten - das Erziehungswesen in Deutschland komplett von den nationalistischen Ideen befreit und eine Neuentwicklung demokratischer Werte  möglich gemacht werden. Das erfolgte allerdings den Besatzungszonen und spezifischen Ländertraditionen entsprechend mit unterschiedlichen Methoden und unterschiedlicher Gründlichkeit, mit einer Sondersituation in Österreich, wo man versucht hat, das Narrativ als Opferstaat und ein neues österreichisches Nationalbewusstsein zu pflegen. Am konsequentesten in den Dienst der Politik wurde nach dem Zweiten Weltkrieg die Schule in den neu entstandenen Staaten des Ostblocks gestellt. Wie sich leider auch heute wieder zeigt, erfolgt eine Ideologisierung der Pädagogik und des Bildungswesens besonders stark in totalitären Staaten. 
 
    In Deutschland wurde 1951 die Hochschule für Internationale Pädagogische Forschung (HIPF) gegründet, welche zunächst noch in der Tradition der US-amerikanischen Reeducation-Politik stand und später in Deutsches Institut für Internationale Pädagogische Forschung (DIPF) und dann in Leibniz-Institut für Bildungsforschung und Bildungsinformation (2025) umbenannt wurde. In den 1970er Jahren wurde durch einen eingesetzten Bildungsrat eine Neuordnung des Bildungswesens vollzogen, mit der durch verschiedene Maßnahmen von der Vorschulerziehung bis zur Verlängerung der Schulpflicht eine Ausschöpfung von Begabungsreserven erfolgen sollte, zusammen mit einer allgemeinen Verwissenschaftlichung des Unterrichts auf allen Schulstufen und in allen Schultypen. Gegen eine Ausrichtung dieser Verwissenschaftlichung in einer empirisch naturwissenschaftlichen Form gab es allerdings manchen Widerstand von unterschiedlichen erziehungs- und sozialphilosophischen Positionen, mit starker Beteiligung einer sogenannten „kritischen Theorie" (vergleiche Weimer, 1992). Von sich als fortschrittlich wähnenden Theoretikern wurde auch ein Ende der Erziehung verkündet,  doch die diesbezüglich tatsächlich entstehenden Freiräume wurden rasch von neuen Instanzen befüllt - Fernsehen, Computerspiele, Videos und schließlich die heute so dominierenden sozialen Medien. Und in Deutschland wie in Österreich wurde das Interesse an der Schule durch einen Streit um einen gemeinsamen Unterricht für die 10- bis 14-Jährigen bestimmt, zuletzt auch um Maßnahmen für die Integration fremdsprachiger Kinder.
 
    Dem Philosophieren und dem Reformeifer eine andere Dynamik verliehen hatte die Einführung von europaweiten standardisierten Leistungstests, der PISA Tests (Program for International Student Assessment. Statistisches Bundesamt Deutschland, 2025), deren Ergebnisse in Deutschland und Österreich nicht ganz den Erwartungen entsprachen. Im Rahmen der damit erfolgenden Reformen wurden in Deutschland die erforderlichen Schuljahre bis zum Hochschulabschluss weitestgehend wieder von 13 auf 12 Jahre reduziert und mit hohem Kostenaufwand Maßnahmen zur Qualitätssicherung eingeführt, z. B. Vergleichstests und Einrichtungen für Schulevaluation und Qualitätsentwicklung.
 
    Während in Deutschland die Situation durch die länderspezifische Gesetzgebung verkompliziert wird, erfolgt das in Österreich sehr beeindruckend durch den Bund im Alleingang. Die jüngsten Schulreformen muten hier fast bizarr an. Zunächst wurde eine als "Jahrhundertgesetz" gefeierte Einigung der beiden Großparteien auf eine „angemessenen Differenzierung“ gefeiert, die allerdings so definiert war, dass eine seitens der Sozialisten angestrebte gemeinsame Schule der 10-14-Jährigen wieder nicht realisiert werden konnte. Gleichzeitig aber hatte man das Erfordernis einer 2/3 Mehrheit für Schulgesetze abgeschafft um die "dringend notwendigen" Reformen zu ermöglichen. Eine wohl als "Trial-and-Error" zu charakterisierende Schulpolitik war die Folge, unter anderem mit (vergleiche Wikipedia, 2025) 
 
- Übernahme des Schulversuchs "Neue Mittelschule" entgegen der gesetzlichen Vorgabe zur verpflichtenden wissenschaftlichen Begleitung und Evaluation der Modellversuche als Ersatz für die bisherige Hauptschule ins Regelschulwesen,
- eine Abkehr vom bisherigen Kurssystem der Hauptschule mit Änderungen im Beurteilungssystem,
- höhere Kosten und geringerer Bildungsertrag der Neuen Mittelschule im Vergleich zur früheren Hauptschule,
- einer Umbenennung der früheren Hauptschule erst in eine neben den Gymnasien bestehende "Neue Mittelschule" und dann wieder in eine "Mittelschule",
- einer Verlängerung der Pflichtschullehrerausbildung zur Verbesserung der Unterrichtsqualität, wobei der dann damit entstandene Lehrermangel teilweise mit Studenten und sogenannten Quereinsteigern (OECD, 2025a) kompensiert wurde und in der Folge wiederum eine Verkürzung der Ausbildung erfolgte,
- einer Auflassung der Ausbildung für ein Lehramt in Sonderpädagogik und der Versuch einer Integration von Schülern mit Lern- und Körperbehinderungen in den Normalschulbetrieb, in dem nun aber für diese Schüler der bestmögliche Unterricht leider noch weniger erfolgen kann, weil hierfür die notwendigen Lehrer fehlen (Wiesinger & Kirner, 2025),
- einer zeitlichen Begrenzung und dann wieder Verlängerung von Schulversuchen.
 
    Von einer evidenzorientierten wissenschaftlichen Begründbarkeit waren diese Verwirrungen weit entfernt. Sie entsprachen weitestgehend politischer Willkür, die aber immer ihre Unterstützung durch als solche angesehene Fachleute gefunden hat. Nur schwer ist abzuschätzen, was durch manche schlecht vorbereitete, wenig durchdachte und wissenschaftlich kaum begründbare Maßnahmen an Schaden angerichtet wurde. 
 
 
Versuche einer Erziehungswissenschaft
 
    Wie von Brezinka noch 2019 in seinem Rückblick beklagt, ist die Pädagogik weitestgehend durch "metaphysische Spekulationen, ethische Postulate und naive technologische Phantasien" dominiert worden. Dass hier eine Fülle an widersprüchlichen Ideen, Behauptungen und Lehrmeinungen existieren kann, liegt wahrscheinlich nicht nur an unterschiedlichen gesellschaftlichen und politischen Einflüssen, sondern auch daran, dass die Folgen pädagogischer Irrtümer weder sehr augenfällig noch sehr rasch erkennbar werden und als solche der Forschung nicht immer leicht zugänglich sind.
 
    Im deutschsprachigen Raum scheint es, als wäre die Pädagogik noch mehr dem deutschen Idealismus verbunden als einer wissenschaftlichen empirischen Forschung: Im DIPF ist noch in den 1990er Jahren eine Pädagogische Zentralbibliothek und eine Deutsche Lehrerbücherei in eine als so bezeichnete Bibliothek für Bildungsgeschichtliche Forschung aufgegangen. Und noch heute wird als ein Leitspruch der Leibniz-Gemeinschaft „theoria cum praxi“ (Theorie für die Praxis) verkündet. Empirische Forschung war überschaubar und weitestgehend auf internationale Vergleiche und die Evaluierung von Schulversuchen ausgerichtet. Immerhin wird nun auch ein Internet-Fachportal Pädagogik inklusive einer Literatur- und Forschungsdatenbank angeboten (Leibniz-Institut für Bildungsforschung und Bildungsinformation, 2025).

    Etwas unübersichtlich scheint wieder die Situation in Österreich. Hier erfolgte nach vorerst zögerlichen Schritten in Richtung einer evidenzbasierten Erziehungswissenschaft mit einem Nationalen Bildungsbericht (Bundesministerium für Bildung, Wissenschaft und Forschung, 2024) eine sehr umfassende Darstellung und Diskussion von Konzepten und Daten. Nach "Leitprinzip 1" wird eine evidenzorientierte Gestaltung und Begründung von Maßnahmen gefordert und eine wissensbasierte Praxis befürwortet (Lüftenegger et al. 2024, Seite 517):
 
    "Wissensbasiert im Bildungssystem zu handeln, bedeutet die Integration der eigenen praktischen Erfahrung mit der besten vorhandenen Evidenz (des besten Wissens, insbesondere aus systematischer, wissenschaftlicher Forschung) unter Berücksichtigung der Annahmen, Haltung und Werte aller Stakeholderinnen und Stakeholder, die an diesen Prozessen und deren Entwicklung beteiligt sind" (S. 517). Deutlich werde "dieses ökologische Zusammenspiel im Dreifeldermodell wissensbasierter
Praxis (= WBP) von Satterfield et al. (2009, S. 372)": 

Dreifeldermodell wissensbasierter Praxis (= WBP)
von Satterfield et al. (2009, S. 372) nach Darstellung von Lüftenegger et al., 2024, S. 517.
 
    In der zitierten Quelle sehen die Beziehungen allerdings etwas anders aus:
 
  
Model of Evidence-Based Clinical Decisions nach Satterfield et al. (2009, S. 372) im Original.

    Egal nun, ob Lüftenegger et al. und das Bildungsministerium (2024) das Evidence-Based Decisions Model (Satterfield et al., 2009, S. 372) oder ein ähnliches Modell (Satterfield et al., 2009, S. 382) gemeint haben, sie haben die Annahmen, Überzeugungen und Werte sogenannter "Stakeholder" als bestimmende Größen hineinreklamiert, die bei Satterfield so nicht vorgesehen sind. Wer aber sind diese "Stakeholder"? Auf Seite 42 werden damit Schulleitung, Lehrkräfte, "Schulpartnerinnen und -partner" angesprochen, auf Seite 376 Personen aus Bildungsdirektionen, dem Institut des Bundes für Qualitätssicherung im österreichischen Schulwesen sowie aus dem Bundesministerium. Was mit der Einbeziehung "aller Stakeholder" gemeint ist, scheint also reichlich ungewiss. Dazu passt, dass dann dem datenbasierten Handeln ein angeblich neuer Ansatz des dateninformierten Handelns von Experten gegenübergestellt wird. Denn, auch wenn ja tatsächlich keine Praxis alleine auf Grundlage von empirischen Evidenzen realisiert werden kann, mit der gewichtigen Einbeziehung von nicht weiter beschriebenen "Stakeholdern" und "dateninformierten Experten" als Entscheidungsinstanzen wird spekulativen Willkürentscheidungen, wie sie ja zu Recht auch schon von Brezinka (2019) beklagt wurden, die Tür weiterhin weit offengehalten.
 
    Die  vom Österreichischen Bundesministerium (2024) berichteten Daten entstammen überwiegend Studien der Organisation für wirtschaftliche Zusammenarbeit und Entwicklung (OECD) und der International Association for the Evaluation of Educational Achievement (IEA) sowie der Eurostat, der allgemeinen Schulstatistik der Statistik Austria und einem Institut des Bundes für Qualitätssicherung im österreichischen Schulwesen (2025). Hier wird offenbar sehr viel stärker auf eine kontinuierliche Schulevaluation und ein kontinuierliches Feedback als Mittel der Qualitätsentwicklung und -sicherung gesetzt als auf kontrollierte Forschung.  Durch regelmäßige individuelle Kompetenzmessungen ("IKMplus") sollten jährlich auf 4 Schulstufen flächendeckende Erhebungen (verpflichtende und freiwillige) für 8 Kompetenzbereiche in der Volksschule und 14 Kompetenzbereiche auf der Sekundarstufe erfolgen, eine erste Veröffentlichung von Ergebnissen sei jedoch erst 2026 vorgesehen (Bundesministerium, 2024, S. 32f).  Damit sollten "Evidenzen über die letztlich umgesetzten Implementierungsprozesse und deren Qualität" erfasst werden. Als solche Implementierungsprozesse werden im Abschnitt über bildungspolitische Maßnahmen und ihre Wirkungen (Lüftenegger et al., S. 529ff) diskutiert
- der Aufbau eines Monitoringsystems mit Bildungsstandards und deren regelmäßigen Überprüfung, wiederum auch unter Nutzung des IKMplus,
- die Weiterentwicklung einer Kompetenzorientierung von Lehrkräften,
- der Auf- und Ausbau einer datengestützten Schul- und Qualitätsentwicklung,
- eine erhöhte Verbindlichkeit von Datenerhebungen und
- eine Weiterentwicklung der Feedbackkultur. 
    Auch wenn zu manchen dieser Maßnahmen entsprechende Literatur zitiert wird, ist für keine irgendeine positive Auswirkung auf Leistungen oder Wohlbefinden von Schülern oder Lehrkräften belegbar. Denn, wie auch von Lüftenegger et al. (2024, S. 540) eingeräumt wird, zur "Überprüfung von Wirkketten" wäre ein Erfordernis von randomisierten kontrollierten Studien gegeben. Solche, auch geplante, sind zu den beschriebenen Maßnahmen nicht auffindbar. Dafür werden in der Folge die Notwendigkeit und die Möglichkeiten einer Verbesserung der "Data Literacy" bei Lehrkräften diskutiert.

    Ernsthaftere Bemühungen um eine empirisch fundierte Erziehungswissenschaft waren bislang in den Vereinigten Staaten zu orten. Hier erfolgte schon 1964, begünstigt wohl durch den sogenannten Sputnik-Schock, durch das Department of Education die Begründung des Education Ressources Information Center (ERIC) mit einer großen Datenbank für erziehungswissenschaftliche Publikationen. 2002 wurden darauf aufbauend das What Works Clearinghouse (WWC) für die Entwicklung methodischer Standards und die Identifikation und Prüfung von Forschungsarbeiten etabliert (U.S. Department of Education, 2025), welches vor allem der Politik aufzeigen sollte, welche Studien auf Grundlage ihrer Qualität eher zu berücksichtigen wären. Aktuell (14.10.25) werden von ERIC 378389 Publikationen zum Stichwort "school" ausgegeben, darunter 1037 mit dem "descriptor" "randomized controlled trial", von denen 40 das Kriterium "Meets WWC Standards without Reservations" erfüllen. Unter 1037 randomisierten Studien werden 11 mit der Lokalisation "Germany" und 2 mit Lokalisation "Austria" ausgewiesen.
 
    Schon länger und in einem bedeutend größeren Ausmaß sind randomisierte Vergleichsstudien in der Medizin üblich. 1979 wurde erstmals eine Hierarchie der Qualität von Evidenzquellen veröffentlicht, nämlich von der Canadian Task Force on the Periodic Health Examination, welche die damals schon allgemein bevorzugten randomisierten Vergleichsstudien an deren Spitze gestellt hat („The effectiveness of intervention was graded according to the quality of the evidence obtained ...", S. 1195):

I: Evidenz aus zumindest einer sauber randomisierten kontrollierten Studie.

II-1: Evidenz aus gut geplanten („well designed“) Kohorten- oder Fall-Kontroll-Studien, bevorzugt von mehr als einem Zentrum oder einer Forschungsgruppe.

II-2: Evidenz aus Vergleichen zwischen Zeitpunkten oder Orten mit oder ohne Intervention.

III: Meinungen von respektierten Experten, basierend auf deren klinischen Erfahrungen, beschreibende Studien oder Berichte von Expertenkommissionen.
 
    Allgemein haben sich damit zur Beschreibung der Qualität von Forschungsergebnissen als Grundlage von Empfehlungen unterschiedliche Varianten von Evidenzhierarchien etabliert, welche häufig als Evidenzpyramiden veranschaulicht werden, an deren Spitze von fast allen Fachgesellschaften randomisierte Vergleichsstudien oder aus diesen abgeleiteten systematischen Reviews oder Metaanalysen stehen. Als ein im deutschsprachigen Raum besonders bedeutendes Regelwerk zur Beurteilung medizinischer Evidenz muss jenes der Arbeitsgemeinschaft wissenschaftlicher medizinischer Fachgesellschaften (AWMF-Institut für Medizinisches Wissensmanagement, 2022) gelten, welche die gegebenen Evidenzen hinsichtlich ihrer Qualität und Verlässlichkeit in der folgenden Hierarchie beschrieben:
 
    Evidenzbasierte Leitlinienempfehlungen in S3-Leitlinien ... 
 
    
    Durch die Anwendung randomisierter Vergleichsstudien konnten manche schädliche Behandlungen als solche erkannt und eliminiert werden (vergleiche Klingler 2025). Das kann aber nicht bedeuten, dass solche Studien frei von möglichen Fehlerquellen wären. Die Cochranes Organisation (Higgins et al., 2020) hat zahlreiche Bias-Quellen aufgelistet, welche naturgemäß vermieden werden sollten.
 
    Allgemein besteht im Rahmen der evidenzbasierten Medizin ein Konsens darüber, dass in Richtlinien und Empfehlungen Expertinnen- und Expertenmeinungen nur eine eher untergeordnete Rolle spielen und nur dann den Ausschlag geben dürften, wenn keine Ergebnisse hochwertiger Studien zur Verfügung stehen. Das scheint doch ein wenig anders als ein "dateninformiertes" pädagogisches Handeln nach den Ausführungen von Lüftenegger et al. und dem Österreichischen Bildungsministerium (2024), mit dem den Experten wieder mehr Ermessensspielraum eingeräumt wird. Aber die Tatsache, dass in der Erziehungswissenschaft hochwertige Studien eher Seltenheitswert haben, macht es wechselnden politischen Kräften leichter, sich in ihren Entscheidungen auf jene als solche deklarierten Fachleute zu berufen, deren Meinungen gerade opportun scheinen. Da kann der Mangel an Forschung beliebig benutzt werden, um gegen weniger erwünschte Maßnahmen zu argumentieren. Ähnlich wie jüngst von einem Experten auf die Frage nach einer Förderung bei mangelnden Deutschkenntnissen: Die Erfahrung zeige, dass betroffene Schüler die Sprache durch die Integration in den Klassen besser lernen und für eine getrennte Sprachförderung gebe es "keine große Evidenzbasis" (vergleiche Kroisleitner, 2025). Aber abgesehen davon, dass es in der Erziehungswissenschaft für fast gar nichts eine "große Evidenzbasis" gibt, zeigt gerade auch dieses Thema leider die nicht immer verlässliche Qualität österreichischer Evaluationsforschung: So haben Erling et al. (2022) ihre ablehnende Haltung gegenüber Sprachstartgruppen für Kinder mit mangelnden Deutschkenntnissen unter anderem damit begründet, dass die einzige vorliegende Evaluationsstudie aus Österreich von Opriessnig et al. (2019) keine signifikanten Unterschiede zwischen den Erfolgen von Sprachstartgruppen (SSG) und Sprachförderkursen (SFK) ergeben hatte (S. 575). Unerwähnt ließen sie allerdings, dass der Vergleich dieser Maßnahmen nicht randomisiert war und von den Studienleitern erhebliche Methodenprobleme berichtet wurden: "Im Zuge der Evaluierung kristallisierte sich zudem heraus, dass sich die Frage, welche Schülerin/welcher Schüler von welcher Sprachförderlehrkraft in welcher Form gefördert wird, von Schulleiterinnen und Schulleitern meist nicht sofort und einfach beantworten ließ und demzufolge sehr fehleranfällig war ... Andererseits war, wie sich im Zuge von Gesprächen mit Schulleiterinnen und Schulleitern sowie Lehrerinnen und Lehrern herausstellte, eine Schülerin/ein Schüler innerhalb eines Schuljahrs nicht notwendigerweise auf eine SSG oder einen SFK begrenzt. Es konnte durchaus vorkommen, dass eine Schülerin/ein Schüler einen Teil ihrer/seiner Förderstunden integrativ in der Klasse erhielt (SFK) und die restlichen Stunden in einer SSG verbrachte" (Opriessnig et al., S. 29). Und weiters: "Am Beispiel der Qualifikation der Lehrpersonen zeigt sich auch ein grundlegendes Problem nichtrandomisierter Evaluationsstudien: Lehrpersonen mit einer besonderen Qualifikation für DaZ/DaF [Deutsch als Zweitsprache/Fremdsprache] wurden vor allem an Schulstandorten eingesetzt, an denen die Seiteneinsteiger/innen im 1. a. o. Jahr besonders wenige Deutschkenntnisse aufwiesen" (Opriessnig et al., S. 47).
 
 
Konfundierungen, Pygmalion und die Macht des Glaubens
 
    Die mit großem Aufwand durchgeführten internationalen Schulleistungsvergleiche (vergleiche Bundesministerium für Bildung, Wissenschaft und Forschung, 2024; Statistisches Bundesamt Deutschland, 2025) stellen keinen Ersatz für randomisierte Vergleichsstudien dar. Sie können wohl Anlass für mehr oder weniger kurzweilige Diskussionen liefern, abgesehen von diesem Unterhaltungswert aber lediglich als hypothesengenerierende Verfahren dienen. Denn über die Ursachen etwaiger Länderunterschiede kann leider nur spekuliert werden. So unterscheiden sich Deutschland, Österreich und beispielsweise Finnland durch eine Vielzahl von bildungsrelevanten Merkmalen, welche jedes für sich die beobachteten Unterschiede beeinflussen kann. Vergleiche zwischen einzelnen Ländern sind durch zahlreiche unkontrollierbare Unterschiede konfundiert, ebenso wie es auch Vergleiche zwischen einzelnen Schulen oder Kindern wären.
 
    Die Möglichkeit von Konfundierungen kann aber auch in randomisierten Vergleichsstudien nicht ausgeschlossen werden. Eine saubere Randomisierung kann eine bewusste oder unbewusste Vorselektion der Untersuchungseinheiten verhindern, aber nicht, dass andere, weniger erwünschte Einflüsse wirksam werden. So wurde auch in den WWC-Standards (2022) auf das Problem einer möglichen Konfundierung von Vergleichen durch unterschiedlich ausgebildete Lehrpersonen oder unterschiedliche Messzeitpunkte hingewiesen. Keine Berücksichtigung findet aber auch bei WWC die Tatsache, dass alleine das Wissen um eine Intervention deren Ergebnisse maßgeblich beeinflussen kann. Und das ist umso erstaunlicher, als dass die dazu so wichtige Arbeit von Rosenthal und Jacobson (1968) eigentlich als Standardwerk der Erziehungswissenschaft und in der Ausbildung von Pädagogen bekannt sein sollte. Rosenthal und Jacobson konnten als Erste und das besonders eindrucksvoll zeigen, wie sehr - so der dann so genannte Pygmalion- oder Rosenthal-Effekt - alleine der Glaube und die Erwartungen der Lehrtätigen das Verhalten und die Leistungen ihrer Schülerinnen und Schüler und deren weitere Entwicklung beeinflussen. Rosenthal und Jacobson hatten zwei nach ihren Intelligenztests gleichwertige Schülergruppen gebildet und den Lehrpersonen von einer dieser Gruppen mitgeteilt, dass es sich um nach den Tests besonders begabte Schülerinnen und Schüler handle. Diese sind in weiterer Folge nicht nur positiver beurteilt worden, sondern haben auch in späteren standardisierten Tests bessere Leistungen gezeigt.
 
    Zwar konnten die Ergebnisse von Rosenthal & Jacobson (1968) nicht immer vollständig repliziert werden, doch haben unter anderen auch die aktuellsten Arbeiten enge Zusammenhänge des Verhaltens und der Leistungen von Schülerinnen und Schülern mit den Erwartungen der Lehrkräfte (Wang et al., 2024) und Eltern (z. B. Liem et al., 2025) gezeigt. Und über die Macht des Glaubens und dessen Einfluss auf die Ergebnisse von Studien liegen auch zahlreiche andere Belege vor. Auch von Rosenthal und Jacobson (1968) wurde unter anderem auf den Hawthorne-Effekt und den Placebo-Effekt verwiesen, Phänomene, die ebenfalls den erziehungswissenschaftlichen Forscherinnen und Forschern bekannt sein sollten. Der Hawthorne-Effekt wurde benannt nach einer Reihe von Versuchen zum Einfluss der Beleuchtung auf die Arbeitsleistung in den amerikanischen Hawthorne-Laboratorien, bei denen sich herausgestellt hat, dass mit jeder Veränderung, unabhängig von deren Art, eine Leistungsverbesserung erfolgt ist (Roethlisberger et al., 1947). Und in der medizinischen Forschung ist bei der Beurteilung von neuen Medikamenten der Placebo-Effekt als der Effekt des Wissens um eine Behandlung seit Jahrzehnten eine als selbstverständlich zu berücksichtigende Einflussgröße (vergleiche Klingler, 1989). Dass der Forscher-Enthusiasmus vor allem bei neuen Verfahren zu günstigen Ergebnissen führt, ist eine in der Pharmaforschung schon lange bekannte Tatsache, die auch pädagogischen Forschergeistern zu denken geben sollte: "Treat as many patients as possible with the new drugs ... while they still have the power to heal" (Shapiro, 1960, S. 114, nach Rosenthal & Jacobson). Schließlich muss in diesem Zusammenhang auch auf den sogenannten Allegianceeffekt hingewiesen werden, den Effekt, der durch die Verbundenheit der Forscher mit einer bestimmten Behandlungsmethode entsteht, und sich in mehr oder weniger subtiler Weise auf deren Verhalten, Diagnostik und Auswertung der Ergebnisse auswirkt (Dragioti et al., 2015; Klingler, 2025). In Hinblick auf Erwartungseffekte haben Rosenthal und Jacobson aber die folgenden Warnungen abgeleitet: 

    "When educational innovations are introduced into operating educational systems, it seems very likely that the administrators whose permission is required and the teachers whose cooperation is required will expect the innovation to be effective. If they did not, they would be unlikely to give the required permission and cooperation. The experimental innovation, then, will likely be confounded with favorable expectations regarding their efficacy" (S. 170).
 
    Für die weitere pädagogische Forschung haben Rosenthal und Jacobson (1968, S. 170) den systematischen Einsatz von "Erwartungs-Kontrollen" empfohlen, bei denen vergleichbare Erwartungen bezüglich der Effekte bestehen. Entsprechendes geschieht durch den Einsatz von Placebo-Gruppen in der pharmakologischen Forschung, ist aber mit Problemen verbunden, wenn die Art der Intervention wie etwa bei pädagogischen oder psychotherapeutischen Maßnahmen deutlich erkennbar ist. Hier hätte man ähnlich wie in der Psychotherapieforschung wohl am wenigsten mit einem Erwartungs- oder Allegiancebias zu rechnen, wenn man Interventionen vergleicht, die von vergleichbar engagierten und ausgebildeten Therapeuten beziehungsweise Lehrkräften mit gutem Glauben an deren Wirksamkeit - "bona fide" durchgeführt werden (vergleiche Klingler, 2025). Aber pädagogische Maßnahmen werden untersucht, als hätte es nie einen Placebo-, Hawthorne- oder Rosenthaleffekt gegeben und, wenn überhaupt, dann bevorzugt mit "treatment as usual" oder "business as usual" verglichen. Solche Vergleiche liefern zwar eher die so begehrten Signifikanzen, aber man kann nie sicher sein, ob diese nicht lediglich die Effekte von Glauben und Hoffnungen spiegeln.
  
 
Beispiele, Probleme und die beste vorhandene Evidenz

    Vermutlich gibt es aber keine Studien, welche nicht irgendwelche Unsicherheiten zurücklassen. Hier Beispiele aus der Erziehungswissenschaft zu den Effekten von 1. Sprachcamps (May et al., 2008; Kinze, 2012), 2. Frühförderung (Atteberrry et al., 2019) und 3. Programmen zur Behandlung von Verhaltensproblemen (Ialongo et al., 2019):
 
    1. Seit Jahren werden vom Jugenderholungswerk Hamburg Theater-Sprachcamps für Schülerinnen und Schüler der 3. Schulstufe mit einem erhöhten Förderbedarf in Deutsch angeboten. Die Teilnahme erfolgt auf Initiative der Schule und Anmeldung durch die Eltern, die Camps werden mit einer Dauer von etwa 3 Wochen in den Ferien durchgeführt und erfreuen sich bei Kindern, Eltern und Lehrpersonen größter Beliebtheit. Regelmäßig erfolgen Evaluationen mit einer Anwendung von standardisierten Tests, Befragungen der Teilnehmer und Lehrpersonen, nicht nur bei den Campteilnehmerinnen und -teilnehmern, sondern auch bei Kindern einer Kontrollgruppe, die als solche mit vergleichbaren Deutschproblemen von den Lehrpersonen zusammengestellt wurde. Schon beim ersten Camp waren die Erwartungen von Kindern und Eltern sehr positiv. Und es haben sich auch günstige Einflüsse auf die untersuchten sprachlichen Kompetenzen gezeigt, die allerdings nicht anhaltend und nach Ablauf des Schuljahres wieder ausgeglichen waren, wie durch folgendes Beispiel über Grammatik-Testleistungen veranschaulicht wird  (nach May et al., 2008):  
 
    Ähnliche Entwicklungen waren auch für andere Testleistungen festzustellen, auch in der Evaluation von weiteren Theater-Sprachcamps. Die Aufteilung der Kinder auf Camp- und Kontrollgruppe ist dabei leider nie randomisiert erfolgt, weshalb nicht auszuschließen ist, dass sich in die Auswahl der Kinder unterschiedliche prognostische Einflüsse eingeschlichen haben. Interessant auch, dass der Verlust der Camp-Vorteile weniger deutlich nach den Beurteilungen der Lehrkräfte als nach den standardisierten Tests ausfällt. "Offenbar wählen die Lehrkräfte für die Einschätzung der Kompetenzen ehemaliger Campkinder einen mehr wohlwollenden Maßstab als für die Kontrollgruppenkinder" (Kinze, 2012, S. 98). Und die vorübergehenden Effekte könnten alleine an der kurzfristigen Begeisterung der Beteiligten liegen und an deren Verrauschen im Laufe des folgenden Schuljahres.
 
    2. In einer Studie von Atteberry et al. (2019) aus den Vereinigten Staaten wurden vierjährige Kinder eines Schuldistrikts per Zufall für ein Jahr auf halbtägige (3 Stunden, vier Tage/Woche) oder ganztägige (6 Stunden, fünf Tage/Woche) Vorkindergartenplätze zugewiesen. Erwartungsgemäß ist diese randomisierte Einteilung nicht von allen Eltern akzeptiert worden, tatsächlich besuchten nur 86 Prozent den ihnen zugewiesenen Ganztagesplatz und nur 62 Prozent den Halbtagesplatz. Vornehmlich aus diesem Grund wurde die Auswertung zweigleisig durchgeführt: Als "intent-to-treat"-Auswertung mit allen Daten entsprechend der erfolgten Zuweisung und als "complier-average-treatment-effects"-Auswertung mit den Daten nur jener, die den Kindergarten entsprechend ihrer Zuordnung besucht haben. Nach einem Jahr mit Ganztageskindergarten bestanden bei diesen Kindern allgemein günstigere Werte in standardisierten Wortschatz- und Schulreifetests sowie nach Beobachtungsratings ihrer Lehrkräfte, die allerdings nur hinsichtlich einzelner DIBELS-Ratings (Dynamic Indicators of Basic Early Literacy SkillsUniversity of Oregon, 2025) statistische Signifikanz erreichten. Als Schwächen der Untersuchung wurde von den Autoren ausgewiesen, dass a) für die Ausgangswerte der Schätzskalen nur unvollständige Daten vorlagen, b) die Folgen der hohen Anzahl an Abweichungen von der Randomisierung nicht ausreichend abzuschätzen sind, c) die Zuordnung der Lehrkräfte zu den verglichenen Gruppen nicht randomisiert erfolgt war. Dennoch wurde von "the first rigorous evidence on the impact of full-day preschool on children’s school readiness skills" ausgegangen. Auch hier bleibt allerdings wieder unklar, welchen Einfluss das Wissen der Beteiligten über die für eine Gruppe deutlich intensivere Förderung hatte.

    Zu den Studien von Atterberry et al. (2019) und Ialongo et al. (2019) muss bemerkt werden, dass diese als methodisch vergleichsweise hochwertig einzustufen sind, sie haben nach Stand vom 15.10.25 auch ein entsprechendes Prädikat des What Works Clearinghouse bekommen: "Meets WWC Standards without Reservations". Für die Vermeidung von Unsicherheiten wäre allerdings noch mehr erforderlich und auch möglich. Hier sei an die Biasquellen nach der Cochrane-Organisation (Higgins et al., 2020) und einige in der Psychotherapieforschung angewendete Qualitätskriterien (Cuijpers et al., 2010; Klingler, 2025) erinnert und exemplarisch auf die folgenden zentralen Probleme eingegangen: 1. Randomisierung, 2. Interventionsqualität, 3. Beurteilungsmodus, 4. Erwartungen, 5. Allegiance.
 
    1. Eine saubere Randomisierung der verglichenen Maßnahmen muss als eine tatsächlich unabdingbare Maßnahme gelten, durchgeführt nach Möglichkeit durch eine dritte Instanz, ein Computerverfahren oder verschlossene Umschläge. Bei Psychotherapiestudien (Cuijpers et al., 2009) hat sich gezeigt, dass sich mit Mängeln bei der Randomisierung höhere Effektstärken ergeben, also eine Verzerrung in positive Richtung. Für die untersuchten Personen wird nicht selten eine Bereitschaft für eine Teilnahme an randomisierten Interventionen durch entsprechende Anreize gefördert, beispielsweise mit kostenfreien Angeboten. Sollte bei einem zu geringen Anteil der zu Untersuchenden eine Bereitschaft für eine Randomisierung absehbar sein, dann kämen auch parallele Vergleiche bei solchen, die randomisiert wurden, und anderen, die sich frei für eine Maßnahme entschieden haben, infrage. Ähnliches wird gelegentlich auch in der Therapieforschung durchgeführt, so wie beispielsweise von Zoellner et al. (2019) bei einem Vergleich von Psychotherapie und medikamentöser Therapie.
 
    2. Vor allem in der Psychotherapieforschung wird beim Vergleich unterschiedlicher Interventionen zumeist auch darauf geachtet, dass diese von vergleichbarer Qualität sind. Das betrifft nicht nur die Intensität, den zeitlichen und personellen Aufwand für die Behandlung, sondern auch eine vergleichbare Ausbildung und Erfahrung der Durchführenden und deren Supervision durch Experten und deren Kontrolle mit vergleichend ausgewerteten Ton- oder Video-Stichproben. 
 
    3. Weitestgehender Standard in der medizinischen und psychologischen Therapieforschung ist auch eine Blindbeurteilung der interessierenden abhängigen Variablen, bei der also die Beurteiler nicht wissen dürfen, welcher Behandlungsgruppe die Beurteilten angehören. Bei einer fehlenden Blindbeurteilung wären größere Effektstärken zu erwarten (Cuijpers et al., 2010; Salazar et al., 2025), also wiederum eine positive Verfälschung. Eine "verblindete" Durchführung von Verhaltensbeobachtungen, Testvorgaben und Auswertungen durch unabhängige Personen, die nichts über die Art der Intervention und die Fragestellung der Untersuchung wissen, wäre auch in der erziehungswissenschaftlichen Forschung möglich und dringend vonnöten.
 
    4. Auch in der erziehungswissenschaftlichen Forschung ist verbreiteter Standard, dass Ausgangswerte und mögliche andere prognostische Variablen erfasst und hinsichtlich ihres möglichen Einflusses geprüft werden. Umso erstaunlicher ist es, dass so wichtige Einflussgrößen, wie die hinsichtlich einer Intervention gegebenen Erwartungen kaum berücksichtigt werden. Das geschieht auch in der Psychotherapieforschung eher selten, erfolgt dann zumeist durch Fragen wie nach Borkovec und Nau  (1972), etwa "Wie sinnvoll erscheint Ihnen die angebotene Behandlung", "Welche Verbesserungen erwarten Sie sich durch diese Behandlung", welche naturgemäß erst nach der darüber erfolgten Aufklärung gestellt werden. Beispiele einer Anwendung liegen vor, etwa von Bryant et al. (2008) oder Sloan et al. (2018) mit einer Befragung der zu Behandelnden selbst und von Nock et al. (2007) mit einer Befragung der Eltern von zu behandelnden Kindern. Entsprechend wäre auch bei pädagogischen Interventionen der Einfluss der Erwartungen von Eltern und Lehrpersonen ebenso wie jener von anderen prognostischen Variablen zu erfassen, und zu prüfen, wie weit durch diese die Ergebnisse beeinflusst werden.  
 
    5. In Überlappung mit Erwartungseffekten bestehen auch sogenannte Allegiance-Effekte, die durch eine besondere Verbundenheit und ein besonderes Engagement der Forscherinnen und Forscher für eine der verglichenen Interventionen genährt werden. Solche Effekte haben sich auch in der Psychotherapieforschung als positiv verzerrend erwiesen (Dragioti et al., 2015), auch in Studien, in denen eine Blindbeurteilung der Effekte erfolgt und keine unterschiedlichen Erwartungen der Behandelten erkennbar sind. Denn Allegiance-Effekte können sich sehr subtil auswirken, auf Beurteilungstendenzen und Erwartungen, die  durch Blindbeurteilung und Erwartungsprüfungen nicht völlig ausgeschlossen werden können, ja auch durch bewusste oder unbewusste "Fehler" oder Tendenzen in der Auswertung. So fallen Effekte für solche Behandlungsmethoden günstiger aus, für die sich im Forschungsteam Autorinnen oder Autoren von entsprechenden Lehrbüchern oder Manualen finden (Klingler, 2025). Eingeschränkt könnten solche Effekte dadurch werden, dass Personen mit derartigen Eigeninteressen höchstens an der Ausbildung und Supervision der Durchführenden beteiligt sind, aber keinesfalls an der Erfassung und Auswertung der Ergebnisse. Besser wäre noch, Personen mit Eigeninteressen vollständig aus solchen Studien auszuschließen oder sie mit Forscherteams durchzuführen, in denen sich Vertreterinnen und Vertreter von beiden zu vergleichenden Behandlungen befinden. Entsprechendes wird zunehmend in der Psychotherapieforschung nicht nur gefordert, sondern auch realisiert, beispielsweise bei Bohus et al. (2020) oder Schnurr et al. (2022).
 
    Es muss nochmals betont werden, dass auch mit einer Verwirklichung der hier skizzierten Verbesserungsmöglichkeiten verzerrte oder fehlerhafte Ergebnisse nicht vollständig auszuschließen sind. Aber sie können manche Unsicherheiten abschwächen oder vermindern. Und es sind genau jene Ergebnisse, die mit weniger Unsicherheiten verbunden sind und denen damit eine größere Gültigkeit und Verlässlichkeit zuzuschreiben wäre, welche in einer evidenzbasierten Wissenschaft als die "beste vorhandene Evidenz" bei allen Empfehlungen oder Entscheidungen zu priorisieren wären.  
 
 
Die Sonderstellung der Pädagogik 
 
    Hinsichtlich des Grades der begründenden Evidenzen besiedeln pädagogische und bildungspolitische Entscheidungen mit großer Mehrheit die untersten Ebenen der in der Medizin üblichen Evidenzhierarchien. Vermutlich dürfen wir froh sein, dass hier höhere Standards die Regel sind. Aber da wie dort geht es um Menschen.
 
    Es waren der im Vergleich zur Medizin erkennbare Mangel an der Existenz und der Berücksichtigung von hochwertigen Studien, welche noch 1996 Hargreaves, immerhin Professor in Cambridge, veranlassten, der Pädagogik den Rang einer Wissenschaft abzusprechen:
 
"Teaching is not at present a research-based profession. I have no doubt that if it were,
teaching would be more effective and more satisfying" (David, H. Hargreaves, 1996, S. 1).
 
    Das scheint für den deutschsprachigen Raum auch heute noch zumindest diskussionswürdig. Nach jüngsten Ergebnissen dürfte hier an den Schulen zwar eine erfreuliche Berufszufriedenheit vorliegen, doch scheint die Attraktivität des Berufes nicht ausreichend, um den gerade bei jüngeren Lehrkräften in Österreich bestehenden Ausstiegsabsichten und einem Mangel an voll ausgebildeten Bediensteten entgegenzuwirken (OECD, 2025a und b, TALIS, 2025).
 
    Hinsichtlich der Vergleiche mit der Medizin muss allerdings berücksichtigt werden, dass in der Pädagogik die Rahmenbedingungen nochmals schwieriger sind: So hat man in der Pädagogik 1. noch komplexere Zielsetzungen zu beachten, 2. sich sehr viel stärker mit Einflussnahmen der Öffentlichkeit, der Medien und der Politik auseinanderzusetzen, 3. wegen der geringeren wirtschaftlichen Interessen und Gewinnaussichten keinerlei private Forschungsgelder zur Verfügung, 4. wegen einer geringeren beziehungsweise anderen Forschungstradition auch weniger administrative Erfahrung mit der Durchführung von randomisierten Vergleichsstudien.
 
    1. In der Medizin oder auch der Psychotherapie lassen sich fast alle Zielsetzungen unter jenen einer Abschwächung von definierten Krankheits- oder Leidenszuständen und der Verbesserung von Leistungsfähigkeit, Lebensqualität und auch Lebensfreude subsumieren. Diese Ziele haben natürlich auch einen Bezug zur Zukunft und zum sozialen Umfeld. Denn man wünscht sich ja möglichst nachhaltige Behandlungseffekte und dass diese auch günstige Auswirkungen für die Gemeinschaft haben, etwa hinsichtlich Arbeitsfähigkeit, Gesundheitsfolgekosten und Belastungen des Sozial- und Pensionssystems. Nun, Krankheits- oder Leidenszustände könnten auch Gegenstand der Pädagogik sein, zumindest deren Vorbeugung in der Gesundheitserziehung. Mit einer noch sehr viel stärkeren Zukunfts- und Gemeinschaftsorientierung geht es hier allerdings um nochmals weitere Ziele, um die Förderung von Leistungsvermögen, Lebensqualität und, keinesfalls zu vergessen, auch Lebensfreude sowie um die Vermittlung von Werthaltungen, welche einem erfüllten Leben im Sinne der eigenen Person, aber auch der Gemeinschaft von Nutzen sein können. Und hinsichtlich dieser so viel weiteren und komplexen Zielsetzungen scheint im Vergleich zur Medizin eine stärkere Einbeziehung von Elternschaft, Interessenvertretungen und Politik nicht nur gerechtfertigt, sondern auch erforderlich.
 
    2. Hinsichtlich pädagogischer Fragestellungen dürften sich auch mehr Menschen als Experten fühlen als in der Medizin. Auch Politiker sind einmal zur Schule gegangen und wissen Bescheid, was hier los und notwendig ist. Und beeinflussen oder bestimmen gelegentlich recht ungeniert bildungspolitische Maßnahmen, auch solche mit erheblicher Tragweite, für die sie zwar nicht die entsprechende Expertise, oft aber ausgesuchte Expertinnen oder Experten haben, aber keinerlei Verantwortung tragen müssen. Doch in Ermangelung von überzeugenden und gewichtigen Forschungsergebnissen kann dem aus der Erziehungswissenschaft wenig entgegengehalten werden.
 
    3. Der Mangel an hochwertigen Studien in der Pädagogik hat mit Sicherheit auch damit zu tun, dass sich mit deren Ergebnissen weniger unmittelbarer Gewinn erwirtschaften lässt als in anderen Disziplinen, so etwa in der medizinischen Forschung, speziell der pharmakologischen oder medizintechnischen. Erfolge oder Misserfolge pädagogischen Handelns werden sich nur in einer weniger offenkundigen Form und mit erheblicher zeitlicher Verzögerung ausmachen lassen, mit Kosten, die weitestgehend aufgeteilt auf die Gesamtgesellschaft werden und wieder, ohne dass die verantwortlichen Entscheidungsträger davon betroffen wären.
 
    4. Im Vergleich zur Medizin besteht in der Pädagogik vergleichsweise weniger Tradition und Erfahrung mit der Durchführung und zumeist recht aufwändigen Organisation von randomisierten Vergleichsstudien, entsprechend könnte die pädagogische Administration auch noch zu wenig darauf vorbereitet sein.
 
    Es ist nicht unwahrscheinlich, dass es diese Faktoren sind, jeder für sich und umso mehr noch alle zusammengenommen, welche einen nur wenig förderlichen Hintergrund für anspruchsvollere Forschungsinitiativen darstellen. Viele wollen mitreden und fühlen sich auch ohne entsprechende Voraussetzungen als Experten, wobei aber kaum ein unmittelbarer und vorzeigbarer Gewinn zu erwarten wäre, der wenigstens Anerkennung einbrächte! Wozu also der Aufwand, wenn man ohnehin den Durchblick hat und kein Interesse an jenen Dingen, die die Sache nur verkomplizieren?
 
 
Diskussion und Schlussfolgerungen 
 
    Diesem Abschnitt soll eine Tatsache vorangestellt werden, die nicht genug immer wieder deutlich herausgestrichen werden kann: Es geht hier um menschliche Leben und um die weitere Entwicklung unserer Gesellschaft! Denn pädagogische Maßnahmen können darüber entscheiden, ob sich ein Kind mit mangelnden Deutschkenntnissen integriert oder radikalisiert, ob eines mit einem Handicap ein lebenslanger Betreuungsfall wird oder ein Mensch, der zufrieden und selbstbestimmt sein Leben genießen kann, oder ob uns ein junger Staatsbürger mit einer Teilleistungsstärke oder -schwäche einmal mit großen wissenschaftlichen oder künstlerischen Leistungen beschenken kann.
 
    Auf den ersten Blick scheinen die vorliegenden Bildungsdaten für Österreich wie für Deutschland bestimmt nicht katastrophal, natürlich aber verbesserungsfähig. Für die Leseleistung, die einzige Kompetenz, die im Deutschen Bildungsbericht (Maaz et al., 2024, S. 164) für die Primar- und Sekundarstufe ausgewiesen wurde, hat sich in den letzten Jahren eine Abnahme ergeben, wohl nicht sehr dramatisch. Nach den Ländervergleichen (Bundesministerium für Bildung, Wissenschaft und Forschung, 2024; Statistisches Bundesamt Deutschland, 2025), die aber keinesfalls überbewertet werden sollten, sind die Schulleistungen in Deutschland und Österreich in etwa im Durchschnittsbereich. Hier liegen Deutschland und Österreich hinter der Schweiz, aber auch hinter wirtschaftlich weniger potenten Staaten. Im OECD-Vergleich liegen eher günstige Daten vor bezüglich des Anteils junger Erwachsener, die weder im Beruf noch in einer Ausbildung stehen, mit etwas schlechteren Ergebnissen für Österreich und allgemein leicht negativer Tendenz für beide Länder (OECD, 2025a). Besorgniserregend scheint aber die steigende Häufigkeit von jungen Menschen, die ihre Schullaufbahn ohne einen positiven Abschluss beenden müssen, hier wiederum mit etwas besseren Ergebnissen für Österreich (Eurostat, 2025). Doch wieder muss betont werden, dass es um eine optimale Bildung für alle geht und möglichst wenig junge Menschen durch den "Bildungsrost" fallen sollten.
 
    Die auf internationale Initiativen durchgeführten aufwändigen und das System belastenden Datensammlungen liefern kaum Aufschlüsse über Verbesserungsmöglichkeiten. Aus ihnen können keinerlei Schlussfolgerungen über ursächliche Zusammenhänge gezogen werden. Ergebnisse einer kontinuierlichen Schulevaluation, eines Feedbacksystems und systematische Kompetenzmessungen sind als eine erste Beurteilungsgrundlage für schulische Interventionen zwar durchaus akzeptabel, aber ebenfalls nicht ausreichend. Denn die Ergebnisse solcher Maßnahmen sind immer durch subjektiven Glauben, Hoffnungen und Erwartungen beeinflusst, welche häufig zu positiv verfälschten Ergebnissen führen, oft auch bei objektiven Leistungstests. Damit besteht die Gefahr, dass immer wieder neue Maßnahmen mit zunächst großer Begeisterung eingeführt werden, die dann aber bald wieder einer Ernüchterung weichen müssen. 
 
    Für viele pädagogische und bildungspolitische Fragestellungen der Zeit gibt es kaum ausreichend gesicherte und belastbare Forschungsergebnisse. Das muss leider gleichermaßen der Erziehungswissenschaft wie der Bildungs- und Wissenschaftspolitik zur Last gelegt werden. Für die Qualität der erziehungswissenschaftlicher Forschung gibt es allerdings keine offiziellen Ländervergleiche. Obgleich ein Mangel an randomisierten Vergleichsstudien eingestanden wird, zumindest etwas kleinlaut in Österreich (Lüftenegger et al., 2024, S. 540), ist dieser, wie auch die ERIC-Recherchen belegen, im ganzen deutschen Sprachraum eklatant. Wie sich gezeigt hat, bestehen allerdings auch bei randomisierten Studien zahlreiche Verfälschungsmöglichkeiten, nicht nur, aber wiederum auch durch die letztlich immer gegebenen Hoffnungen und Erwartungen der Beteiligten. Diese und andere Fehlerquellen scheinen hier, zumindest nach den vorhandenen Publikationen zu schließen, völliges Neuland. Damit wäre den deutschsprachigen Erziehungswissenschaftlerinnen und -wissenschaftlern auch anzuraten, sich mit den aus ihrer eigenen Disziplin (What Works Clearinghouse, 2022) und aus benachbarten Disziplinen bekannten Biasquellen (Higgins et al., 2020; Salazar et al., 2025) und Qualitätskriterien (z.B. Cuijpers et al., 2010) etwas eingehender auseinanderzusetzen! Ein schlechtes Licht auf die Erziehungswissenschaft in Österreich - für Deutschland wurde das nicht recherchiert - werfen auch einzelne "Schlampereien", die in dieser Form in der Wissenschaft  nicht vorkommen sollten. Da nun zumindest für Österreich keinerlei belastbare Ergebnisse darüber vorliegen, dass irgendeine der von der Erziehungswissenschaft empfohlenen beziehungsweise von der Bildungspolitik realisierten Maßnahmen eine nachhaltige Verbesserung der Leistungen oder der Zufriedenheit von Schülerinnen, Schülern oder Lehrtätigen ergeben hat, scheint gar nicht unwahrscheinlich, dass das Funktionieren des Systems mit den wenigstens durchschnittlichen Ergebnissen im Wesentlichen dem Können und Engagement der Lehrerinnen- und Lehrerschaft zu verdanken ist.
  
    Für die Erziehungswissenschaft scheint ein eher kryptisches "dateninformiertes" Handeln, bei dem man nicht genau weiß, auf welche Daten zurückgegriffen wird, bei weitem nicht ausreichend. Selbstverständliche Aufgabe wäre, wie in anderen Disziplinen auch, bei interessierenden Fragestellungen zunächst systematisch zu recherchieren und aufzuzeigen, welche Untersuchungen vorliegen, und bei diesen sorgfältig und unter Anwendung von strikten methodischen Kriterien zu prüfen, bei welchen die gültigsten und verlässlichsten Ergebnisse zu erwarten wären. Und so die vorhandene Evidenz oder deren Qualität nicht ausreichen, dann wären auch eigene Untersuchungen zu realisieren, das aber bitte unter einer besseren Beachtung wissenschaftlicher Qualitätskriterien!
 
    Der Politik käme die Verantwortung zu, eine qualitativ anspruchsvolle evidenzorientierte erziehungswissenschaftliche Forschung einzufordern und durch Bereitstellung nicht nur der erforderlichen Finanzmittel, sondern auch der entsprechenden legislativen und administrativen Rahmenbedingungen zu ermöglichen und zu fördern. Unüberlegte schädliche Schnellschüsse, wie in der jüngeren Vergangenheit in Österreich, sollten dadurch verhindert werden, dass notwendige Maßnahmen nicht nur durch opportune "am besten passende" Fachleute und "stakeholder" abgesegnet werden, sondern eine verbindliche, breite und transparente Beteiligung verschiedener Gruppen erfolgt. Diesbezüglich sinnvoll wäre, dass hinsichtlich allgemeiner und grundsätzlicher pädagogischer Zielsetzungen auch eine breitere aber transparente Einbindung der Gesellschaft erfolgen sollte. Spezifischere Entscheidungen zur Durchführung und Methodik von Maßnahmen wären aber besser dem engeren Kreis der unmittelbar Befassten und Betroffenen zu überlassen, mit Erziehungswissenschaft, Lehrerinnen-, Lehrer- und Elternschaft.
 
 
Zusammenfassung
 
    1. Angesichts der großen Bedeutung für individuelle Schicksale und die Entwicklung der Gesellschaft sind bildungspolitische Entscheidungen und diesbezügliche Empfehlungen seitens der Erziehungs- beziehungsweise Bildungswissenschaft mit einer hohen Verantwortung verbunden.
 
    2. Wegen der komplexen zukunftsbezogenen Zielsetzungen im Bildungswesen sollten hier von der Politik nicht nur einzelne Erziehungswissenschaftlerinnen und -wissenschaftler einbezogen werden, sondern in einer breiteren Form auch angrenzende Sozialwissenschaften, Interessenvertreter, die Eltern-, Lehrerinnen- und Lehrerschaft, und das vor allem in einer transparenten und verbindlichen Weise. 
 
    3. Eine in dieser Weise erfolgende breite Beteiligung der Gesellschaft sollte die allgemeineren pädagogischen Zielsetzungen betreffen, hinsichtlich der Entscheidungen über spezifische Maßnahmen oder Methoden zur Erreichung dieser Ziele sollte der Einschätzung durch die unmittelbarer damit befassten und davon betroffenen Gruppen ein besonderes Gewicht zukommen, nämlich der Erziehungswissenschaft, Eltern-, Lehrerinnen- und Lehrerschaft.
 
    4. Der Erziehungswissenschaft kommt die große Verantwortung zu, für eine verlässliche Datengrundlage für allfällige Entscheidungen zu sorgen. Die Teilnahme an internationalen Vergleichsstudien und ein Spekulieren über die diesbezüglichen Ergebnisse wären entschieden zu wenig, ebenso wie ein Herauspicken der gerade am besten passenden Ergebnisse. Notwendig wäre eine möglichst sorgfältige Beurteilung und Klassifikation von Ergebnissen nach methodischen Kriterien, um als die "beste Evidenz" jene auszumachen, von der die größtmögliche Gültigkeit und Verlässlichkeit zu erwarten wäre. Und vor allem da, wo erforderlich, wäre der Gewinn verlässlicher Ergebnisse aus anspruchsvolleren eigenen Studien anzustreben..
 
    5. Für die Politik besteht diesbezüglich wiederum die Verantwortung, die Stellungnahmen oder Vorschläge aller zu beteiligenden Gruppen sorgfältig zu prüfen und in den Entscheidungen zu berücksichtigen, aber auch dafür, eine hochwertige erziehungswissenschaftliche Forschung einzufordern, aber durch entsprechende gesetzliche, administrative und budgetäre Maßnahmen auch zu ermöglichen und zu fördern.
  

Literatur
 
Atteberry, A., Bassok, D., & Wong, V. C. (2019). The Effects of Full-Day Prekindergarten: Experimental Evidence of Impacts on Children’s School Readiness. Educational Evaluation and Policy Analysis, 41(4), 537-562. https://doi.org/10.3102/0162373719872197.

AWMF-Institut für Medizinisches Wissensmanagement. (2022). Evidenzbasierte Leitlinienempfehlungen in S3-Leitlinien: AWMF-Regelwerk und Empfehlungen der AWMF-Leitlinienkommission. https://www.awmf.org/fileadmin/user_upload/dateien/downloads_regelwerk/202301_Hilfe_Evidenzbasierte_Empfehlungen.pdf (12.09.25).

Bohus, M., Kleindienst, N., Hahn, C., Müller-Engelmann, M., Ludäscher, P., Steil, R., Fydrich, T., Kuehner, C., Resick, P. A., Stiglmayr, C., Schmahl, C. & Priebe, K. (2020). Dialectical Behavior Therapy for Posttraumatic Stress Disorder (DBT-PTSD) Compared With Cognitive Processing Therapy (CPT) in Complex Presentations of PTSD in Women Survivors of Childhood Abuse: A Randomized Clinical Trial. JAMA psychiatry, 77(12), 1235–1245. https://doi.org/10.1001/jamapsychiatry.2020.2148.

Borkovec, T. D. & Nau, S. D. (1972). Credibility of analogue therapy rationales. Journal of behavior therapy and experimental psychiatry, 3, 257–260. http://dx.doi.org/10.1016/0005-7916(72)90045-6.

Brezinka, W. (2019). Vom Erziehen zur Kritik der Pädagogik. Erfahrungen aus Deutschland und Österreich. Wien: Böhlau.

Bryant, R. A., Mastrodomenico, J., Felmingham, K. L., Hopwood, S., Kenny, L., Kandris, E., Creamer, M. (2008). Treatment of acute stress disorder: A randomized controlled trial. Archives of general psychiatry, 65, 659–667.

Bundesministerium für Bildung, Wissenschaft und Forschung (BMBWF) (2024). Nationaler Bildungsbericht Österreich. https://www.bmb.gv.at/Themen/schule/bef/nbb.html (25.09.25).

Canadian Task Force on the Periodic Health Examination (1979). The periodic health examination. Canadian Medical Association Journal 121, 1193-1254. https://pmc.ncbi.nlm.nih.gov/articles/PMC1704686/pdf/canmedaj01457-0037.pdf.

Cuijpers, P., Straten, A., Bohlmeijer, E., Hollon, S. D. & Andersson, G. (2010). The effects of psychotherapy for adult depression are overestimated: A meta-analysis of study quality and effect size. Psychological medicine, 40, 211-23. 10.1017/S0033291709006114.

Domitrovich, C. E., Greenberg, M. T., Cortes, R. C., & Kusche, C. (1999). The Preschool PATHS Curriculum. Deerfield, MA: Channing Bete Publishing Company.

Dragioti, E., Dimoliatis, I., Fountoulakis, K. N. & Evangelou, E. (2015). A systematic appraisal of allegiance effect in randomized controlled trials of psychotherapy. Annals of general psychiatry, 14, 25. https://doi.org/10.1186/s12991-015-0063-1.

Embry, D. D., Staatemeier, G., Richardson, C., Lauger, K., & Mitich, J. (2003). The PAX good behavior game (1st ed.). Center City, MN: Hazelden.

Erling, E. J., Gitschthaler, M., & Schwab, S. (2022). Is segregated language support fit for purpose? Insights from German language support classes in Austria. European Journal of Educational Research, 11(1). https://www.eu-jer.com/articles/EU-JER_11_1_573.pdf.

Eurostat (2025). Frühzeitige Schul- und Ausbildungsabgänger nach Geschlecht und Erwerbsstatus. https://ec.europa.eu/eurostat/databrowser/view/edat_lfse_14/default/table category=chldyth.yth.yth_educ.

Greenberg, M. T., & Kusche, C. A. (2006). Building social and emotionalcompetence: The PATHS Curriculum. In S. R. Jimerson, & M. J. Furlong (Eds.), Handbook of school violence and school safety: From research to practice (pp. 395– 412). Mahwah, NJ: Erlbaum.

Hargreaves, D. H. (1996), Teaching as a research-based profession: possibilities and prospects. https://eppi.ioe.ac.uk/cms/Portals/0/PDF%20reviews%20and%20summaries/TTA%20Hargreaves%20lecture.pdf (11.09.25).

Higgins, J. P. T., Savović, J., Page, M. J., Elbers, R. G & Sterne, J. A. C. (2020). Assessing risk of bias in a randomized trial. In J. P. T. Higgins et al. (Hrsg.), Cochrane Handbook for Systematic Reviews of Interventions, Chapter 8, https://training.cochrane.org/handbook/current/chapter-08.

Ialongo, N. S., Domitrovich, C., Embry, D., Greenberg, M., Lawson, A., Becker, K. D., & Bradshaw, C. (2019). A randomized controlled trial of the combination of two school-based universal preventive interventions. Developmental Psychology, 55(6), 1313–1325. https://doi.org/10.1037/dev0000715.

Institut des Bundes für Qualitätssicherung im österreichischen Schulwesen (2025). IQS Forschungsdatenbibliothek. https://www.iqs.gv.at/fdb. (02.10.25).

Kinze, J. (2012). Das Hamburger TheaterSprachCamp – Methoden und Ergebnisse der Evaluation. Scenario, 1, 85-102.

Klingler, O. J. (2025). Seelischen Verwundungen - Die Behandlung der posttraumatischen Belastungsstörung und anderer Traumafolgestörungen, Behandlungsmethoden im Vergleich, Review und Metaanalysen. Norderstedt: Books on Demand.

Kroisleitner, O. (2025). OECD-Vergleich: Österreicher können schlechter lesen, Kinder bleiben öfter sitzen. Der Standard, 12.09.25. https://www.derstandard.at/story/3000000286825/oecd-vergleich-oesterreicher-koeschlechter-kinder-bleiben-oefter-sitzen?ref=article (12.09.25).

Leibniz-Institut für Bildungsforschung und Bildungsinformation (2025). https://www.dipf.de/de/institut/das-dipf/geschichte/geschichte-des-dipf#0 (18.09.25).

Liem, G. A. D., Wong, Z. Y., Chan, M., Chia Liu, W., Zainudin, N. I., Tan, S. H., Poon, K. K., Kang, T., & Ng, S. C. (2025). Perceived parental expectations and their role in academic and psychosocial functioning. International Journal of Behavioral Development, 49(5), 431-445. https://doi.org/10.1177/01650254251321444.

Lüftenegger, M., Kampa, N. & Pietsch, M. (2024). Nutzung von Daten für die Schul- und
Unterrichtsentwicklung. In: Bundesministerium für Bildung, Wissenschaft und Forschung (BMBWF). Nationaler Bildungsbericht Österreich, S.513-561. https://www.bmb.gv.at/Themen/schule/bef/nbb.html (25.09.25).

Maaz, K., Artelt, C., Brugger, P., Buchholz, S., Kuger, S., Kühne, S., Leerhoff, H., Schrader, J., Seeber, S., Autor:innengruppe Bildungsberichterstattung: Bildung in Deutschland 2024. Ein indikatorengestützter Bericht mit einer Analyse zu beruflicher Bildung. Bielefeld: wbv Publikation 2024, XXIX, 399 S. - URN: urn:nbn:de:0111-pedocs-317256 - DOI: 10.25656/01:31725; 10.3278/6001820iw.

May, P., Hunger, S. & Kinze, J. (2009). TheaterSprachCamp Sommer 2007. Ergebnisse der Evaluation
mit Ergänzungen zur Nachtestung 2008. Hamburger Landesinstitut für Lehrerbildung und Schulentwicklung.

Meumann, E. (1911). Vorlesungen zur Einführung in die experimentelle Pädagogik und ihre psychologischen Grundlagen. Leipzig: Engelmann.

Nock, M. K., Ferriter, C., & Holmberg, E. (2007). Parent beliefs about treatment credibility and effectiveness: Assessment and relation to subsequent treatment participation. Journal of Child and Family Studies, 16(1), 27–38. https://doi.org/10.1007/s10826-006-9064-7.

OECD. (2025a). Bildung auf einen Blick. OECD-Indikatoren. Bundesministerium für Forschung, Technologie und Raumfahrt, Deutschland für die deutsche Übersetzung. https://www.oecd.org/content/dam/oecd/de/publications/reports/2025/09/education-at-a-glance-2025_c58fc9ae/9783763979257.pdf.

OECD. (2025b). Results from TALIS 2024: The State of Teaching, TALIS, OECD Publishing, Paris,
https://doi.org/10.1787/90df6235-en.

Opriessnig, S., Waxenegger, A., & Oberwimmer, K. (2019). Evaluationsbericht. Evaluation Sprachfördermaßnahmen nach §8e SchOG. Bundesinstitut für Bildungsforschung, Innovation & Entwicklung des österreichischen Schulwesens (https://www.iqs.gv.at/_Resources/Persistent/248ab34233b1b6a587478c66d29c410a27fd33a4/Evaluation_SFM_2019_final.pdf).

Roethlisberger, F. J., Dickson W. J. & Wright, H. A. (1947). Management and the Worker. An Account of a Research Program Conducted by the Western Electric Company. Cambridge: Harvard University Press. https://archive.org/details/managementworker0000roet_z9l6/page/n5/mode/2up (06.10.20).

Rosenthal, R. & Jacobson, L. (1968). Pygmalion in the classroom. Teacher Expectation and Pupils' Intellectual Development. New York: Holt, Rinehart and Winston, Inc.

Salazar, J., Moustgaard, H., Bracchiglione, J., & Hróbjartsson, A. (2025). Empirical evidence of observer bias in randomized clinical trials: updated and expanded analysis of trials with both blinded and non-blinded outcome assessors. Journal of clinical epidemiology, 183, 111787. https://doi.org/10.1016/j.jclinepi.2025.111787.

Satterfield, J. M., Spring, B., Brownson, R. C., Mullen, E. J., Newhouse, R. P., Walker, B. B.
et al. (2009). Toward a transdisciplinary model of evidence-based practice. The Milbank
Quarterly, 87(2), 368–390. https://doi.org/10.1111/j.1468-0009.2009.00561.x.

Schnurr, P. P., Chard, K. M., Ruzek, J. I., Chow, B. K., Resick, P. A., Foa, E. B., Marx, B. P., Friedman, M. J., Bovin, M. J., Caudle, K. L., Castillo, D., Curry, K. T., Hollifield, M., Huang, G. D., Chee, C. L., Astin, M. C., Dickstein, B., Renner, K., Clancy, C. P., Collie, C., … Shih, M. C. (2022). Comparison of Prolonged Exposure vs Cognitive Processing Therapy for Treatment of Posttraumatic Stress Disorder Among US Veterans: A Randomized Clinical Trial. JAMA network open, 5(1), e2136921. https://doi.org/10.1001/jamanetworkopen.2021.36921.

Shapiro, A. K. (1960). A contribution to a history of the placebo effect. Behavioral Science, 5, 109-135.

Sloan, D. M., Unger, W., Lee, D. J., & Beck, J. G. (2018). A Randomized Controlled Trial of Group Cognitive Behavioral Treatment for Veterans Diagnosed With Chronic Posttraumatic Stress Disorder. Journal of traumatic stress, 31(6), 886–898. https://doi.org/10.1002/jts.22338.

Statistisches Bundesamt Deutschland (2025). Pisa-Studie 2022. https://www.destatis.de/DE/Themen/Laender-Regionen/Internationales/Thema/bevoelkerung-arbeit-soziales/bildung/PISA2022.html.

TALIS (2025). Lehrer*innen im Fokus. Evidenzbasierte Einblicke in Unterricht,
Professionalisierung und die schulische Arbeitswelt. Koschmieder, C. & Unterköfler-Klatzer, D. (Hrsg.), Graz: Leykam. DOI: https://doi.org/10.56560/isbn.978-3-7011-0568-7.

University of Oregon (2025). DIBELS®. Dynamic Indicators of Basic Early Literacy Skills. https://dibels.uoregon.edu/ (08.10.25).

U.S. Department of Education (2025). Education Resources Information Center (ERIC) and Other Clearinghouses. https://www.ed.gov/about/ed-initiatives/educational-resources-information-center-eric-and-other-clearinghouses (11.09.25).

Wang, Y., Qin, Y., Gao, K., Qi, W., & Sang, G. (2024). Perceived teacher expectations and the academic engagement of junior high school students in rural China: The role of academic self-efficacy. School Psychology International, 46(1), 51-67. https://doi.org/10.1177/01430343241285337.

Weimer, H. (1992). Geschichte der Pädagogik. 19. völlig neu bearb. Aufl. von Juliane Jacobi. - Berlin: de Gruyter.

What Works Clearinghouse. (2022). What Works Clearinghouse procedures and standards handbook,
version 5.0. U.S. Department of Education, Institute of Education Sciences. https://ies.ed.gov/ncee/wwc/Handbooks (12.09.25).

What Works Clearinghouse. (2025). Education Evaluation and Regional Assistance (NCEE).

Wiesinger, A. & Kirner, V. (2025). Ein System mit Deckel: Warum die Sonderpädagogik an ihre Grenzen stößt. Der Standard. https://www.derstandard.at/story/3000000286926/lehrermangel-immer-mehr-quereinsteiger-stopfen-luecken?ref=article (19.09.25).

Wikipedia (2025). Bildungssystem in Österreich. https://de.wikipedia.org/wiki/Bildungssystem_in_%C3%96sterreich (01.09.25).

Zoellner, L. A., Roy-Byrne, P. P., Mavissakalian, M., & Feeny, N. C. (2019). Doubly Randomized Preference Trial of Prolonged Exposure Versus Sertraline for Treatment of PTSD. The American journal of psychiatry, 176(4), 287–296. https://doi.org/10.1176/appi.ajp.2018.17090995.





Kommentare

Beliebte Posts aus diesem Blog

Darf ich mich vorstellen?

Die Feinde des RCT, kognitive Dissonanzen und das bewusstseinsbestimmende Sein