Brakujące dane

Brakujące dane, braki danych – miejsca w danych, których wartości nie są znane. Mogą powstawać w sposób naturalny (np. w wyborach znane są wstępne wyniki jedynie z części komisji wyborczych) lub sztuczny (np. po usunięciu obserwacji odstających).

Techniki pracy z brakującymi danymi

  • imputacja
    • imputacja EM, (ang. expectation-maximization imputation)
    • multiple imputation Rubina
  • estymacja metodą największej wiarygodności
  • dodanie zmiennej mówiącej, że w danym miejscu znajduje się brak danych i zastąpienie go np. zerem
  • usunięcie całych obserwacji w których występuje brak danych
  • dla metod porównujących pary wartości (np. korelacja) usuwanie par z brakiem danych
  • zastąpienie średnią lub medianą
  • Mplus
  • MCAR (ang. missing completely at random)
  • tzw. cenzorowanie w przypadku analizy przeżycia

Bibliografia

  • Little, R. J. A. & Rubin, D. B.. Statistical Analysis with Missing Data. John Wiley and Sons, New York, 2002.
  • Acock, A. C, Working With Missing Values, JOURNAL OF MARRIAGE AND FAMILY, 2005, VOL 67; NUMBER 4, pages 1012-1028
  • Jan Van den Broeck, Solveig Argeseanu Cunningham, Roger Eeckels, and Kobus Herbst, Data Cleaning: Detecting, Diagnosing, and Editing Data Abnormalities, PLoS Med. 2005 October; 2(10): e267. [1]

Linki zewnętrzne