Skrywane rozterki badaczy
Podstawowym celem badaczy nauk społecznych i ekonomicznych jest wyciąganie wniosków na podstawie badań empirycznych wykorzystujących dane. Bardzo ważne jest, żeby wygenerowane wyniki były spójne oraz możliwe do uogólnienia i powtórzenia. Przykładowo analizy przeprowadzone dla jednego kraju powinny być w łatwy sposób replikowalne z wykorzystaniem danych z innych krajów.
Oczywiste jest, że w literaturze dostępne są różne oszacowania tego samego zjawiska np. luki płacowej ze względu na płeć. Ale to czy naukowcy deklarują o 12% czy 15% niższe zarobki kobiet niż mężczyzn w dużej mierze wynika z pracy z różnymi zbiorami danych czy wykorzystania różnych metod wyliczania luki płacowej. Natomiast replikowalność wyników w tym kontekście oznacza, że wykorzystanie tego samego zbioru danych i takiej samej metody powinno dostarczyć dokładnie takich samych wniosków.
Wiarygodność wyników empirycznych w dużej mierze zależy od sposobu, w jaki badacze wykorzystują i analizują zebrane dane. Naukowcy podejmują setki decyzji dotyczących gromadzenia, przygotowania i przetwarzania danych w swoich badaniach. Wiele z nich – zazwyczaj model i metoda estymacji – jest szczegółowo opisywana i odpowiednio argumentowana przy opisie metodologii badania, ale wiele z tych decyzji, często bardzo technicznych, jest niejako „ukrytych” i dostępnych tylko po dogłębnej analizie kodu źródłowego. Informacje te nie są ukryte celowo. Po prostu zazwyczaj publikacje naukowe mają ograniczenia dotyczące liczby stron czy słów. Częściej skupiają się na dokładnym opisaniu wniosków, a nie zagłębiają się w techniczne szczegóły analizy, zrozumiałe tylko dla nielicznych odbiorców.
Wiele z tych decyzji wydaje się też być nieznacząca, bo czy usunięcie kilku obserwacji z kilkutysięcznego zbioru danych może mieć jakiś wpływ na ostateczne wyniki? Wyobraźmy sobie przykładowo zbiór danych o mieszkańcach gminy X. Załóżmy, że chcemy zbadać czy kobiety rzeczywiście zarabiają mniej niż identyczni mężczyźni. Problem pojawia się, gdy brakuje części danych, np. o edukacji. Badacz staje przed wyborem: usunąć ze zbioru osoby o których nie ma pełnych informacji, czy też spróbować – w rozsądny sposób – samodzielnie je uzupełnić? Albo jak potraktować obserwacje odstające – tzw. outliery, czyli wartości znacząco odbiegające od tych spodziewanych – które wynikają z np. błędnego kodowania? Usunąć je czy pozostawić, bo stanowią dodatkową wartość? Inna wątpliwość: w jaki sposób pogrupować lata edukacji, żeby uzyskać poziomy wykształcenia? Czy 12 lat edukacji zawsze oznacza wykształcenie średnie? No i jeszcze: w jaki sposób zakodować odpowiedzi „Odmawiam odpowiedzi na to pytanie”? Możemy mnożyć takie pytania w nieskończoność.
Amerykańscy naukowcy pod kierunkiem dr Nicka Huntington-Kleina z Uniwersytetu w Seattle postanowili sprawdzić, jak duży jest wpływ takich – wydawać by się mogło – mało znaczących decyzji na ostateczne wyniki badań. Wykorzystali dwa opublikowane wcześniej w wysokiej jakości czasopismach badania empiryczne, które były replikowane przez siedmiu badaczy. Każdy z nich dysponował dokładnie takim samym zestawem danych, aby odpowiedzieć na to samo pytanie badawcze.
Wnioski z tego eksperymentu są szokujące: każdy badacz inaczej wybrał obiekty w próbie badawczej. Żaden nie pracował z dokładnie taką samą liczbą obserwacji. Co więcej nikt nie był w stanie dokładnie zreplikować próby z oryginalnej publikacji. Istotność statystyczna oszacowanych efektów różniła się w zależności od replikacji, a w przypadku jednego badania oszacowany znak był przeciwny – tj. dodatni wpływ w oryginalnym badaniu oszacowany jako ujemny. Stwierdzono zatem znaczne zróżnicowanie zarówno wyników, jak i konstrukcji zbioru danych.
Zróżnicowanie między replikacjami oznacza, że nawet w opublikowanych wynikach badań pozostaje spora niepewność i należy do nich podchodzić z pewną dozą ostrożności. Co więcej, znaczna część różnic we wnioskach wynika z etapu czyszczenie danych, w którym wiele decyzji podejmowanych przez badaczy może być trudnych do zauważenia i oceny. Zatem problemy z wiarygodnością publikowanych badań w dużej mierze wynikają ze swobody jaką analitycy dysponują danymi. Jak wiele więc zależy od analityka? Wszystko.
Co możemy zrobić? Na pewno nie chcemy ograniczać swobody analityków danych. Przedstawione różnice nie wynikają z tego, że ktoś źle coś policzył, ale z tego, że każdy policzył coś dobrze, ale w inny sposób. Jednym z sugerowanych rozwiązań problemu jest dodawanie do publikacji szczegółowych dodatków zawierających wszystkie techniczne decyzje analityka wraz z kodem źródłowym. Przykładowo American Economic Association od 2020 roku prosi o złożenie kodu wraz z każdym składanym artykułem. Znaczącym ułatwieniem byłaby również standaryzacja procesu czyszczenia danych przez dostawców surowych danych.
Dr Huntington-Klein prowadzi obecnie drugą rundę badań nad replikowalnością wyników empirycznych, do której zgłosiło się ponad 200 naukowców i analityków danych z całego świata, również z Polski. Wyniki najnowszego eksperymentu poznamy w styczniu 2024 roku.