Big data (mess)?

Ekonomiści (przynajmniej niektórzy) potrzebują danych, żeby testować swoje teorie. Problem główny w tym, że przetestować możemy tylko te teorie, na które już wpadliśmy. Fachowo nazywa się to obciążenie z powodu dedukcji (ang. deduction bias), co oznacza, że testujemy tylko te zależności, na które ktoś już wpadł. Pierwszym „ruchem społecznym”, który próbował z tym sposobem pracy walczyć była tzw. Komisja Cowles’a pod przewodnictwem Christophera Simmsa, która wprowadziła do modelowania makroekonomicznego ateoretyczne modele VAR. Kłopot z takimi modelami polegał głównie na tym, że ich predykcje, choć co do kierunku radziły sobie dobrze z danymi, gorzej było z tzw. statystyczną istotnością.

Druga rewolucja przyszła wraz z wprowadzeniem do ekonomii modelowania Bayesowskiego – skoro nie wiemy, jaka jest „prawdziwa prawda” niech nauczą nas jej dane. W modelach Bayesowskich co prawda są jakieś założenia a priori, ale ich rolę w dalszym procesie estymacji bardzo rygorystycznie się testuje. Zaletą takiego podejścia jest poprawa własności predykcyjnych, ale problem z nimi polega na tym, że tak naprawdę nie wiemy, dzięki czemu osiągamy poprawę. Od lat więc wielu ludzi stara się to podejście ulepszać i rozszerzać, by wiedzieć lepiej, co konkretnie dzieje się w środku w modelu, ale wciąż nie jesteśmy „w domu”.
Czy big data może być taką trzecią rewolucją? Wielu twierdzi, że tak i powodów po temu jest kilka. Pierwszy z nich bardzo ilustratywnie przedstawił Sendhil Mullainathan w czasie tegorocznego Hahn Lecture na Royal Economic Society Annual Conference w Manchesterze (dostępny dla wszystkich i za darmo). Sendhil Mullainathan jest profesorem Harvardu i przedstawił bardzo atrakcyjną argumentację, że jeśli big data są także wide – tj. obserwujemy wiele aspektów danej obserwacji – to umiejętnie analizowane dane mogą nam zasugerować wzorce niezależnie od teorii, od której wyjdziemy. A sugestia wzorców to nie tylko „generator pomysłów” na teorie, ale wręcz (niemal) doskonały generator powiązań, które teoria powinna odtwarzać. Czego chcieć więcej?

Drugi doskonały powód, dla którego big data mogą być totalną rewolucją w badaniach jest oczywiście to, że po raz pierwszy możemy oglądać dane „tam” gdzie one faktycznie powstają. Tak naprawdę big data zaczęło się od finansów – gdy giełdy się skomputeryzowały i nawet NYSE przestało zawierać transakcje na karteczkach, dostępne stały się dane dotyczące każdej jednej transakcji, w ułamkach sekund. Dlaczego to było fajne? Bo cała teoria finansów dotyczy transakcji właśnie, a nie ich bilansu raz na dzień, godzinę czy minutę. Finansistom pozazdrościli „normalni” ekonomiści. Skoro ekonomia pracy jest o zawieraniu kontraktu, powinniśmy obserwować kontrakt właśnie, a nie status na rynku pracy na koniec kwartału. Skoro nierówności dotyczą płac/dochodów, powinniśmy obserwować faktyczne pensje/świadczenia/podatki, a nie deklaracje losowej próbki z całej populacji. Skoro … itd. Kuli śniegowej nie dało się zatrzymać. Efekty takiego podejścia są kolosalne i już o nich pisaliśmy. Zespół Raja Chetty’ego (Harvard University) badał nierówności śledząc losy ludzi w danych podatkowych przez niemal trzydzieści lat, o czym już pisaliśmy wcześniej. Douglas A. Webber analizował kilkaset milionów kontraktów pomiędzy pracodawcą i pracownikami na podstawie połączonych danych podatkowych, ubezpieczeniowych i sprawozdawczości przedsiębiorstw. Dzięki temu wiemy m.in., że silniejsza pozycja przetargowa danego pracodawcy na danym lokalnym rynku pracy ma znaczące przełożenie na nierówności dochodowe w USA, ale już nie na dyskryminację kobiet. Dowiadujemy się tego nie centrum censeo, że nasze dane „mierzą” to co chcemy - tylko „na pewno”, co ma kolosalne znaczenie dla debat o płacy minimalnej i uregulowaniach prawnych relacji między pracownikami i pracodawcami.

Skoro tyle jest plusów, co budzi wątpliwości? Pierwszą z nich jest prywatność. Badania dotyczące nierówności prowadzone przez zespół Raja korzystają z indywidualnych informacji (po numerze ubezpieczenia społecznego, co jest amerykańskim odpowiednikiem PESEL) dotyczących już dzieci, bo osoby obserwowane były już od 16 roku życia. W szczytnym celu co prawda, ale jednak ogląda się ścieżkę życia (miejsc zamieszkania, szkół, dochodów) osoba po osobie. I oczywiście – z pewnością! – Raja Chetty’ego i nikogo z jego zespołu nie obchodzi, czy dany numer to jego kolega z ławki i jak sobie radzi zawodowo jego była dziewczyna. Ale gdyby to kogoś interesowało – mógłby to zrobić. Wszystkie mrożące krew w żyłach opowieści o tym, jak np. służby „podchodzą” kandydatów na współpracowników zaczynają się zawsze od szukania haków – big data pozwala co do zasady wyszukać ludzi po hakach. Drugą z tych wątpliwości jest to, że w pewnym sensie wypuszczamy dżina z butelki. Skoro można robić takie analizy na danych bieżących, można także robić je na danych historycznych. Wspaniały zespół Anny Aizer (Brown University) zebrał dane na temat konkretnych dzieci, których matki wystąpiły o zasiłek wdowi w latach 20tych w USA – po nazwisku identyfikowali numer ubezpieczenia społecznego, a po nim weryfikowali w jakim wieku i w jakim zdrowiu zmarli ci, którzy jako półsieroty skorzystali z finansowego wsparcia państwa (obecnie wsparcie poza środkami finansowymi obejmuje także dożywianie, opiekę zdrowotną, edukacyjną, itp. – nie wiadomo, czy w kategoriach empirycznych te „dodatki” dają naprawdę wartość dodaną dla beneficjentów i a renty wdowie z lat 1920-ych były pozbawione jakichkolwiek innych form wsparcia poza zasiłkiem). Zespół badawczy odwiedzał odpowiedniki polskich OPS-ów, wyciągali dane z kartotek i na ich podstawie identyfikowali beneficjentów z przed niemal wieku. W innym badaniu Megan Lynn Fasules i Mary Eschelbach Hansen (obie z American University) odwiedzają odpowiedniki polskich wydziałów statystycznych urzędów gmin by weryfikować zachowanie małych przedsiębiorstw narażonych na trudniejszą sytuację ekonomiczną, które mogą skorzystać z opcji bankructwa firmy lub indywidualnego bankructwa konsumenckiego (w pierwszym przypadku nie tracą składek emerytalnych, ale muszą spłacić długi osobiste, w drugim tracą i składki i długi). To są wszystko megaciekawe tematy, ale jednak dane całkowicie indywidualizowalne i osobowe. Gdzie się zatrzymamy?