Korelacje grubymi sieciami szyte

Hubert Drążkowski

W statystyce łatwo znaleźć jest odpowiedź, wynik analizy, ale znacznie trudniej o pewność, na które pytanie jest to odpowiedź. Dzieje się tak ze względu na zderzenie złożoności procesów generujących dane z założeniami o tych danych i narzędziach, które dostarczają odpowiedzi. Częstym założeniem, na gruncie którego wiele popularnych metod statystycznych operuje jest to o niezależności obserwacji pomiędzy sobą. Choć często założenie to jest spełnione, ludzie egzystują jednak w sieci powiązań, w społeczności. Ignorowanie tychże relacji może prowadzić do odpowiedzi na inne pytania niż zamierzone przez naukowców, zwłaszcza w eksperymentach o małych próbach. Najnowsze badania pokazują, że obecność powiązań w sieci może po części wyjaśniać kryzys replikowalności eksperymentów.

Badania w naukach społecznych czy naukach o zdrowiu często są kosztowne. Ludzi trzeba namówić do udziału w badaniach, sam eksperyment musi być przeprowadzony w kontrolowanych warunkach, a ich prywatne dane są poufne. Z tego powodu wiele badań przeprowadzanych jest na małą skalę. Często dane pochodzą z jednej wybranej szkoły, firmy czy szpitala. Ludzie w takich grupach są często dla siebie na przykład znajomymi, członkami rodziny, sąsiadami czy są związani genetycznie. Czy można ten fakt pominąć?

Youjin Lee i Elizabeth Ogburn (Johns Hopkins Bloomberg School of Public Health) w artykule z 2020 roku pokazały matematycznie, że możliwa jest sytuacja, w której nawet gdy cechy osoby i zmienna wynikowa (np. wynik choroby) są niezależne przyczynowo-skutkowo, ale są powiązane w sieci, może prowadzić do pozornych zależności manifestujących się w danych. Nie wzięcie pod uwagę powiązań w sieci prowadzi do niedoszacowania błędu i zbyt mało konserwatywnych przedziałów ufności, błędnych oszacowań. Powiązania w sieci zakłócają prawdziwą zależność z co najmniej dwóch powodów. Po pierwsze, obecna jest ukryta zmienna, która wpływa na podobieństwo obserwacji, taka jak homofilia, genetyka, geografia czy środowisko. Po drugie, sieć jest medium przekazywania informacji, czy szerzej – zasobów.

Autorki badania zaproponowały nowy test statystyczny, aby wykrywać obecność powiązań sieciowych. Czerpią inspiracje z literatury zajmującej się powiązaniami przestrzennymi. Powiązania sieciowe, też są w końcu powiązaniami przestrzennymi, tylko w bardziej abstrakcyjnej przestrzeni. Swoją metodę stosują na popularnym zbiorze danych Framingham Heart Study pochodzącym z badania epidemiologicznego dotyczącego chorób serca. Ich wyniki sugerują, że wiele z opublikowanych na tych danych badań mogło zbyt optymistycznie informować o swoich wynikach.

Wnioski z tego badania przyczyniają się do wyjaśnienia kryzysu replikowalności eksperymentów. Wiele artykułów w naukach społecznych takich jak psychologia czy socjologia publikuje konfliktujące ze soba wyniki. Po części może to wynikać z faktu, że nie biorą pod uwagę sieciowych powiązań. Remedium na tego typu problemy jest zbieranie danych od osób niezależnych od siebie, przeprowadzanie badań na dużą skalę lub branie pod uwagę ich zależności sieciowych pomiędzy sobą w modelach explicite.

Karl Pearson kiedyś rzekł, że „statystyka jest gramatyką nauki”. To na jej fundamentach i za pomocą jej narzędzi dochodzi do większości odkryć naukowych. Ważnym jest więc, aby inwestować w lepsze rozumienie narzędzi statystycznych i procesów generujących dane oraz podnosić wykształcenie statystyczne naukowców z nimi pracujących.

Tags:

Tłoczone z danych