Die Replikationskrise: Wie sie funktioniert – und warum sie die Wissenschaft erschüttert
Die Hälfte der Ergebnisse der Sozialwissenschaften kann von unabhängigen Forschern nicht reproduziert werden. Dies deckt tiefe strukturelle Probleme bei der Veröffentlichung, Finanzierung und Anreizsetzung von Studien auf – und führt zu Reformen, die das wissenschaftliche Arbeiten verändern könnten.
Das Problem hinter den Schlagzeilen
Wissenschaft sollte sich selbst korrigieren. Ein Forscher veröffentlicht ein Ergebnis, andere Wissenschaftler wiederholen das Experiment, und das Ergebnis hält entweder stand oder nicht. In der Praxis funktioniert diese Rückkopplungsschleife jedoch seit Jahren nicht mehr richtig. Die Replikationskrise – auch Reproduzierbarkeitskrise genannt – bezieht sich auf die weitverbreitete Unfähigkeit unabhängiger Forscher, veröffentlichte wissenschaftliche Ergebnisse zu reproduzieren. Sie betrifft die Psychologie, die Medizin, die Wirtschaftswissenschaften und fast jede empirische Disziplin.
Das Ausmaß ist erschreckend. Eine bahnbrechende Studie der Open Science Collaboration aus dem Jahr 2015 versuchte, 100 veröffentlichte psychologische Studien zu replizieren. Obwohl 97 % der Originale statistisch signifikante Ergebnisse berichteten, hielten nur 36 % stand. In der Krebsbiologie versuchten Wissenschaftler des Pharmaunternehmens Amgen, 53 bahnbrechende präklinische Arbeiten zu bestätigen, und waren nur bei sechs erfolgreich – eine Fehlerrate von 89 %.
Ein massiver neuer Test
Die bisher umfassendste Anstrengung, das SCORE-Projekt (Systematizing Confidence in Open Research and Evidence), wurde im April 2026 in Nature veröffentlicht. Das von der U.S. Defense Advanced Research Projects Agency mit fast 8 Millionen Dollar finanzierte siebenjährige Programm umfasste 865 Forscher, die rund 3.900 sozialwissenschaftliche Arbeiten analysierten, die zwischen 2009 und 2018 in 62 Zeitschriften aus den Bereichen Wirtschaftswissenschaften, Psychologie, Politikwissenschaft, Bildungswesen und mehr veröffentlicht wurden.
Die Ergebnisse waren ernüchternd. Von 274 Behauptungen, die einer direkten Replikation unterzogen wurden, erbrachten nur 55,1 % statistisch signifikante Ergebnisse in der ursprünglichen Richtung. Auf der Ebene der einzelnen Arbeiten wurden nur 49,3 % erfolgreich repliziert. Die Replikationsraten variierten geringfügig zwischen den Disziplinen – von 42,5 % in einigen Bereichen bis zu 63,1 % in anderen –, aber keine Disziplin blieb verschont. Schlimmer noch: Selbst die Studien, die repliziert wurden, zeigten Effektstärken, die weniger als die Hälfte der ursprünglich berichteten betrugen.
Warum so viele Studien scheitern
Mehrere strukturelle Kräfte treiben die Krise an:
- Publikationsbias. Fachzeitschriften haben in der Vergangenheit neuartige, positive Ergebnisse bevorzugt. Eine Studie, die einen dramatischen Effekt findet, wird veröffentlicht; eine Studie, die nichts findet, landet in der "Schublade". Dies führt zu einer Literatur, die auf aufsehenerregende, aber fragile Ergebnisse ausgerichtet ist.
- Geringe statistische Aussagekraft. Viele Studien verwenden Stichprobengrößen, die zu klein sind, um reale Effekte zuverlässig zu erkennen. Schätzungen zufolge liegt die durchschnittliche statistische Aussagekraft in der Psychologie bei etwa 35 %, was bedeutet, dass die meisten Studien von vornherein zu wenig Aussagekraft haben.
- Forscherische Freiheitsgrade. In jeder Phase – von der Hypothesenbildung bis zur Datenanalyse – stehen Wissenschaftler vor Entscheidungen, die nicht vollständig durch bewährte Verfahren eingeschränkt sind. Flexible Entscheidungen darüber, welche Daten ausgeschlossen, welche Variablen getestet und wann die Datenerhebung beendet werden soll, können die Falsch-Positiv-Rate erhöhen, manchmal unbeabsichtigt.
- "Veröffentlichen oder untergehen"-Anreize. Der berufliche Aufstieg hängt von der häufigen Veröffentlichung in hochrangigen Fachzeitschriften ab, was Geschwindigkeit und Neuheit gegenüber Strenge und Replikation belohnt.
Was die Reproduzierbarkeit tatsächlich vorhersagt
Das SCORE-Projekt deckte einen Faktor auf, der stark damit korrelierte, ob eine Studie reproduziert werden konnte: Datenverfügbarkeit. Nur etwa ein Drittel der Arbeiten in der Stichprobe hatte die zugrunde liegenden Daten und den Computercode leicht zugänglich gemacht. Diejenigen, die dies taten, wurden mit deutlich höherer Wahrscheinlichkeit repliziert. Transparenz, so stellt sich heraus, ist der beste Prädiktor für Zuverlässigkeit.
Reformen greifen
Die Krise hat bereits begonnen, die wissenschaftliche Praxis zu verändern. Registrierte Berichte – ein Veröffentlichungsformat, bei dem Forscher ihre Methoden und Analysepläne zur Begutachtung einreichen, bevor sie Daten erheben – werden inzwischen von Hunderten von Zeitschriften angeboten. Da die Veröffentlichung unabhängig vom Ergebnis garantiert ist, entfällt der Anreiz, positiven Ergebnissen nachzujagen.
Auch Open-Science-Praktiken breiten sich aus. Große Geldgeber wie die U.S. National Institutes of Health und der Europäische Forschungsrat fordern zunehmend den Datenaustausch. Tools wie StatCheck scannen automatisch Arbeiten auf statistische Inkonsistenzen. Basisgemeinschaften, darunter das Center for Open Science, bieten Schulungen und Infrastruktur für transparente Forschung.
Diese Reformen sind kein Allheilmittel. Die Veränderung der Anreizstrukturen – wie Einstellungskommissionen Kandidaten bewerten, wie Stipendien vergeben werden – geht weiterhin langsam voran. Aber die Richtung ist klar: Die Wissenschaft lernt, ihre eigene Arbeit zu überprüfen, eine Replikation nach der anderen.
Bleib auf dem Laufenden!
Folge uns auf Facebook für die neuesten Nachrichten und Artikel.
Folge uns auf Facebook