Nowy zestaw badań opublikowany w tym miesiącu sugeruje, że aż połowy wszystkich wyników opublikowanych w renomowanych czasopismach z zakresu nauk społecznych nie można powtórzyć w drodze niezależnej analizy. Jest to część długotrwałego problemu występującego w wielu dziedzinach badań – najbardziej widocznego w naukach społecznych i psychologii, choć obawy zgłaszano także w obszarach badań biomedycznych.
Najnowsza praca to siedmioletni projekt o nazwie Systematizing Confidence in Open Research and Evidence (Score), w ramach którego opublikowano dotychczas trzy badania obejmujące 3900 artykułów z zakresu nauk społecznych. Ustalono, że prawdopodobieństwo reprodukcji było większe w przypadku nowszych artykułów oraz tych opublikowanych w czasopismach wymagających szerokiego udostępniania danych źródłowych. Badania medyczne borykają się także z własnymi ograniczeniami: różna liczba przypadków i ograniczona wielkość próby oznaczają, że w praktyce mogą bardziej przypominać nauki społeczne niż fizykę laboratoryjną. Jest oczywiste, że decydenci powinni zachować ostrożność w przypadku wszelkich twierdzeń, które nie mają szerokiej i solidnej bazy dowodów.
Język jest kluczowy: odtwarzalność sprawdza, czy wyniki można odtworzyć na podstawie tych samych danych i metod. Replikacja sprawdza, czy odkrycie dotyczy nowych danych w różnych kontekstach. Nauka rzadko daje dokładnie identyczne wyniki, a ustalenie, dlaczego tak się dzieje, jest częścią gromadzenia wiedzy. Jednak coraz częściej politycy starają się zamienić niepewność w zaprzeczenie i przekształcić zwykłą niepewność naukową w dowód porażki. Właśnie dlatego w dekrecie Białego Domu z maja 2025 r. podkreślono „kryzys odtwarzalności” w nauce, co w istocie stanowi Trumpowskie wezwanie do wątpliwości i bezczynności.
Niestety, projekty weryfikacyjne na dużą skalę, takie jak te podejmowane przez Score, są nieliczne. Większość badaczy akademickich wolałaby spędzać czas na pracy, która z większym prawdopodobieństwem poprawi ich karierę. Zespół Score ponownie przeanalizował istniejące dane i w osobnej pracy odtworzył badania od podstaw w ponad 100 artykułach. Około 49% nadal nie udało się powtórzyć pierwotnego wyniku. To wskazuje na głębszy problem. Ponowna analiza danych jest stosunkowo prosta; przeprowadzenie identycznego eksperymentu nie jest. Odtworzenie eksperymentów w badaniach społecznych i medycznych, których wyniki zależą od złożonych systemów ludzkich, jest trudne. Sztuczna inteligencja może pomóc w podjęciu decyzji, co należy przetestować, ale nie może zmniejszyć kosztów i czasu związanych z powielaniem wyników badań.
Nie każda nieudana replikacja sygnalizuje kryzys. Niektóre ustalenia nie mają większego znaczenia; badania replikacyjne same w sobie mogą być błędne. Przy ustalaniu kierunków polityki wyniki, które nie powtarzają się w sposób ciągły, należy porównać z szerszą bazą dowodów. Traktowanie braku replikacji jako dyskwalifikacji myli niepewność z ignorancją. Grozi to paraliżem procesu decyzyjnego tam, gdzie osąd ma największe znaczenie. Większa przejrzystość utrudnia zwykłe oszustwa i umożliwia identyfikację błędów. Główni fundatorzy, tacy jak brytyjska Rada ds. Badań Ekonomicznych i Społecznych, już tego wymagają, a podejście powinno być uniwersalne.
Niektórzy są optymistyczni, twierdząc, że badania „ostatecznie korygują autokorektę”. Rozwiązanie długoterminowe – zmiana zachęt w celu przetestowania istniejących wyników – zwiększyłoby pewność. Wymaga to jednak restrukturyzacji kultury badawczej i finansowania. Na razie pozostaje to w dużej mierze umowne. Badania te powinny wzmocnić argumenty za zmianami i służyć jako ostrzeżenie. Nauki społeczne są potężnym narzędziem do zrozumienia świata, a zaufanie będzie budowane poprzez uznanie niepewności, a nie jej odrzucanie.