Jak działa kryzys replikacji – i dlaczego wstrząsa nauką

Problem kryjący się za nagłówkami

Nauka powinna sama się korygować. Badacz publikuje odkrycie, inni naukowcy powtarzają eksperyment, a wynik albo się potwierdza, albo nie. W praktyce jednak ta pętla sprzężenia zwrotnego od lat szwankuje. Kryzys replikacji – zwany również kryzysem odtwarzalności – odnosi się do powszechnej niemożności niezależnych badaczy do odtworzenia opublikowanych wyników naukowych. Dotyka on psychologii, medycyny, ekonomii i niemal każdej dyscypliny empirycznej.

Skala zjawiska jest oszałamiająca. W przełomowym projekcie z 2015 roku, przeprowadzonym przez Open Science Collaboration, podjęto próbę replikacji 100 opublikowanych badań psychologicznych. Chociaż 97% oryginalnych badań wykazało statystycznie istotne wyniki, tylko 36% z nich utrzymało się podczas replikacji. W biologii nowotworów naukowcy z firmy farmaceutycznej Amgen próbowali potwierdzić 53 przełomowe artykuły przedkliniczne i udało im się to tylko w sześciu przypadkach – co daje 89% wskaźnik niepowodzeń.

Ogromny nowy test

Najbardziej kompleksowe dotychczas przedsięwzięcie, projekt SCORE (Systematizing Confidence in Open Research and Evidence), został opublikowany w Nature w kwietniu 2026 roku. Finansowany przez U.S. Defense Advanced Research Projects Agency kwotą blisko 8 milionów dolarów, siedmioletni program zaangażował 865 badaczy do analizy około 3900 artykułów z zakresu nauk społecznych, opublikowanych w latach 2009–2018 w 62 czasopismach obejmujących ekonomię, psychologię, nauki polityczne, edukację i inne.

Wyniki były otrzeźwiające. Spośród 274 twierdzeń poddanych bezpośredniej replikacji, tylko 55,1% dało statystycznie istotne wyniki w pierwotnym kierunku. Na poziomie artykułów, tylko 49,3% zostało pomyślnie zreplikowanych. Wskaźniki replikacji różniły się nieznacznie w poszczególnych dyscyplinach – od 42,5% w niektórych dziedzinach do 63,1% w innych – ale żadna dyscyplina nie została oszczędzona. Co gorsza, nawet badania, które udało się zreplikować, wykazały wielkość efektu mniejszą niż połowa tego, co pierwotnie zgłoszono.

Dlaczego tak wiele badań zawodzi

Kryzys napędzany jest przez kilka sił strukturalnych:

Bias publikacyjny. Czasopisma historycznie preferowały nowatorskie, pozytywne wyniki. Badanie, które znajduje dramatyczny efekt, zostaje opublikowane; badanie, które nic nie znajduje, marnieje w „szufladzie”. Tworzy to literaturę tendencyjną w kierunku efektownych, ale kruchych wyników.
Niska moc statystyczna. Wiele badań wykorzystuje zbyt małe próby, aby wiarygodnie wykryć rzeczywiste efekty. Szacunki sugerują, że średnia moc statystyczna w psychologii oscyluje wokół 35%, co oznacza, że większość badań jest od początku niedoszacowana.
Swoboda badaczy. Na każdym etapie – od formułowania hipotez po analizę danych – naukowcy stają przed wyborami, które nie są w pełni ograniczone przez najlepsze praktyki. Elastyczne decyzje dotyczące tego, które dane wykluczyć, które zmienne testować i kiedy przestać zbierać dane, mogą zawyżać wskaźniki fałszywie pozytywnych wyników, czasami nieumyślnie.
Motywacja „publikuj albo giń”. Awans zawodowy zależy od częstego publikowania w czasopismach o wysokim impakcie, co nagradza szybkość i nowatorstwo kosztem rygoru i replikacji.

Co faktycznie przewiduje odtwarzalność

Projekt SCORE ujawnił jeden czynnik, który silnie korelował z możliwością odtworzenia badania: dostępność danych. Tylko około jedna trzecia artykułów w próbie udostępniła swoje dane źródłowe i kod komputerowy. Te, które to zrobiły, były znacznie bardziej prawdopodobne do zreplikowania. Okazuje się, że przejrzystość jest najlepszym predyktorem wiarygodności.

Reformy zapuszczają korzenie

Kryzys już zaczął przekształcać praktykę naukową. Raporty rejestrowane – format publikacji, w którym badacze przesyłają swoje metody i plany analizy do recenzji przed zebraniem danych – są obecnie oferowane przez setki czasopism. Ponieważ publikacja jest gwarantowana niezależnie od wyniku, eliminuje to motywację do ścigania pozytywnych wyników.

Praktyki otwartej nauki również się rozprzestrzeniają. Najwięksi fundatorzy, tacy jak U.S. National Institutes of Health i European Research Council, coraz częściej wymagają udostępniania danych. Narzędzia takie jak StatCheck automatycznie skanują artykuły pod kątem niespójności statystycznych. Oddolne społeczności, w tym Center for Open Science, zapewniają szkolenia i infrastrukturę dla przejrzystych badań.

Te reformy nie są panaceum. Zmiana struktur motywacyjnych – sposobu, w jaki komisje rekrutacyjne oceniają kandydatów, sposobu przyznawania grantów – pozostaje powolna. Ale kierunek podróży jest jasny: nauka uczy się sprawdzać własną pracę, jedna replikacja na raz.

Jak działa kryzys replikacji – i dlaczego wstrząsa nauką

Problem kryjący się za nagłówkami

Ogromny nowy test

Dlaczego tak wiele badań zawodzi

Co faktycznie przewiduje odtwarzalność

Reformy zapuszczają korzenie

Powiązane artykuły

Jak metoda prędkości radialnych wykrywa obce światy

Jak działają dżety czarnych dziur – i dlaczego to ma znaczenie

Czym jest strefa Złotowłosej – i jak napędza poszukiwania życia?

Jak metoda prędkości radialnych wykrywa obce światy

Jak działa autonomiczna jazda typu end-to-end – bez potrzeby map

Jak działają dżety czarnych dziur – i dlaczego to ma znaczenie

Czym jest strefa Złotowłosej – i jak napędza poszukiwania życia?

Jak sztuczna inteligencja wykrywa raka skóry – i dlaczego to ma znaczenie

Nie przegap nowych artykułów!