Porównanie metod wielokrotnej imputacji dla danych nominalnych - DwuMIan 2022
Powszechnym problemem, z którym mierzą się badacze są braki danych, zwłaszcza w naukach społecznych. Bardzo często dane używane w badaniach mierzone są na skali nominalnej, czyli bez żadnego naturalnego porządku i ciągłości. W celu zwiększenia rozmiaru próbki, zapobieganiu obciążenia estymatorów czy zwiększenia mocy testów statystycznych używa się metod imputacji braków. Obecnym złotym standardem radzenia sobie z opisanym problemem jest wielokrotna imputacja, która pozwala na włączenie do modelu niepewności związanej ze strukturą braków danych i strukturą nieobserwowalności. W literaturze można spotkać się z wieloma propozycjami algorytmów, które miałyby systematycznie wypełniać brakujące luki, biorąc pod uwagę podobieństwo obserwacji i zależności w obserowalanych danych. Z drugiej strony brakuje porównania opublikowanych metod, zwłaszcza dla danych nominalnych.
Niniejszy referat wygłoszony na konferencji zastosowań matematyki organizowanej przez wydziały MINI PW oraz MIM UW "DwuMian 2022" prezentuje wyniki artykułu zajmującego się wyżej opisaną problematyką. Praca porównuje kilka obecnych w literaturze metod wielokrotnej imputacji dla wielowymiarowych danych nominalnych. Porównanie odbywa się na drodze symulacji, wielokrotnego próbkowania z rzeczywistej bazy danych i każdorazowo amputowania wartości według mechanizmu MCAR albo MAR. Następnie aplikowane są algorytmy wielokrotnej imputacji. Zbadane zostały dwie metody uczenia maszynowego, dwie głębokiego uczenia i siedem klasyfikowanych do klasycznej teorii statystyki. Celem badania była ocena i porównanie zdolnosci odtwarzania wielowymiarowych zalezności populacyjnych oraz wskazanie w tym względzie porządku wśród analizowanych metod. Jakość imputacji mierzona była poprzez pomiar trafności prognozy idiosynkratycznej brakującej wartości, obciążenia estymatorów i ich zmienności w oszacowaniu populacyjnych wielowymiarowych frakcji, a także pokrycia przedziałów ufności uzyskanych za pomocą reguł Rubina. Z analizy wynika, że algorytm MICE CART dominował nad pozostałymi metodami. Algorytmy MIDA, GAIN, nieparametryczny hot deck i MICE LDA nie uzyskiwały nominalnego pokrycia przedziałów ufnosci.
A common problem researchers face is data scarcity, especially in social sciences. Very often, the data used in research are measured on a nominal scale, which means there is no natural order and continuity. To increase sample size, prevent estimator bias, or increase the power of statistical tests, imputation methods for missing data are used. The current gold standard for dealing with this problem is multiple imputation, which allows for incorporating the uncertainty related to the structure of missing data and the structure of non-observability into the model. In the literature, one can find many proposed algorithms designed to systematically fill in the missing gaps, taking into account the similarity of observations and dependencies in the observed data. On the other hand, there is a lack of comparison of published methods, especially for nominal data.
This paper, presented at the "DwuMian 2022" conference on applications of mathematics organized by the MINI PW and MIM UW faculties, presents the results of an article addressing the above-mentioned issue. The work compares several multiple imputation methods present in the literature for multidimensional nominal data. The comparison is conducted through simulation, repeated sampling from a real database, and each time amputating values according to the MCAR or MAR mechanism. Then, multiple imputation algorithms are applied. Two machine learning methods, two deep learning methods, and seven classified into classical statistical theory were examined. The aim of the study was to evaluate and compare the ability to reproduce multidimensional population dependencies and to indicate the order among the analyzed methods in this regard. The quality of imputation was measured by the accuracy of predicting the idiosyncratic missing value, the bias of the estimators, and their variability in estimating population multidimensional fractions, as well as the coverage of confidence intervals obtained using Rubin's rules. The analysis shows that the MICE CART algorithm dominated the other methods. The MIDA, GAIN, non-parametric hot deck, and MICE LDA algorithms did not achieve nominal coverage of confidence intervals.