Statystyka nieparametryczna

Statystyka nieparametryczna – gałąź statystyki, zajmująca się modelami i metodami, niewymagającymi założeń odnośnie do rozkładu populacji z której losowana jest próba.

Przymiotnik "nieparametryczna" podkreśla, że w odróżnieniu od wielu klasycznych metod statystycznych algorytmy te nie polegają na estymacji żadnych parametrów z góry założonego rozkładu[1] zmiennej losowej w populacji.

Metody nieparametryczne należą do tzw. odpornych metod statystycznych (ang. robust methods), gdyż są mało wrażliwe na obserwacje odstające. Najpopularniejszą grupą metod nieparametrycznych są rangowe metody statystyczne.

Termin statystyka nieparametryczna może także odnosić się do statystyki - funkcji próby, której interpretacja nie jest związana z dopasowywaniem parametrów jakiegokolwiek rozkładu. Typowym przykładem są miary oparte na rangach.

Cel i zastosowania

Metody nieparametryczne są szeroko używane przy badaniu zmiennych na skali porządkowej (jak punktowa ocena filmu od 1 do 6 gwiazdek), lub kolejność preferencji klienta.

Kolejnym polem zastosowania metod nieparametrycznych są dane w których występują obserwacje odstające. Metody parametryczne dają wówczas błędne wyniki, gdyż ich założenia nie są spełnione - obserwacje odstające są z definicji przykładem odstępstwa od założonego rozkładu. Metody nieparametryczne, ze względu na mniejszą liczbę założeń, są mniej wrażliwe na takie błędy.

Kolejnym argumentem za użyciem metod nieparametrycznych jest ich prostota. W pewnych przypadkach, nawet jeśli użycie metod parametrycznych jest uzasadnione, metody nieparametryczne prościej zastosować.

Metody parametryczne mają generalnie większą liczbę założeń, szczególnie względem rozkładu populacji. Założenia te nigdy nie są całkowicie spełnione[2]. Kwestia, czy obserwowane odstępstwa od założeń są dostatecznie małe, by daną metodę parametryczną można było zastosować, jest w dużej mierze decyzją statystyka. Metody nieparametryczne wymagają mniej tego rodzaju decyzji i dzięki temu dają mniej okazji do pomyłek lub niejednoznaczności analizy.

W przypadku jednak, gdy rozkład faktycznie jest bardzo zbliżony do założonego, metody parametryczne dają lepsze rezultaty od nieparametrycznych - generują mniejszy błąd i bardziej istotne statystycznie wyniki, a testy mają większą moc.

Modele nieparametryczne

Modele nieparametryczne zwykle różnią się tym od parametrycznych, że struktura modelu nie jest założona a priori, lecz jest dostosowywana do danych. Termin nieparametryczny nie oznacza tu, że w danym modelu nie występują żadne parametry, lecz, że ich liczba i natura jest elastyczna.

  • histogram jest prostym nieparametrycznym modelem gęstości prawdopodobieństwa.
  • estymator jądrowy gęstości daje lepszą estymację gęstości.
  • regresja nieparametryczna (w szczególności drzewa regresyjne) i regresja semiparametryczna są odpowiednikami standardowych modeli regresji.

Popularne metody nieparametryczne

Testy

Praktycznie każdy test parametryczny ma przynajmniej jeden odpowiednik nieparametryczny. Kilka z nich wymienione jest poniżej:

  • test Andersona-Darlinga
  • test chi-kwadrat
  • test Q Cochrana
  • kappa Cohena
  • test Efrona-Petrosiana
  • dokładny test Fishera
  • test Friedmana na rangach
  • test Kołmogorowa-Smirnowa
  • test Kruskala-Wallisa na rangach
  • test Kuipera
  • test McNemara (szczególny przypadek testu chi-kwadrat)
  • test permutacyjny Pitmana
  • test Siegela-Tukeya
  • test Studenta-Newmana-Keulsa (SNK)
  • test Wilcoxona

Ceną za większą odporność na obserwacje odstające jest w przypadku testów nieparametrycznych mniejsza moc. Innymi słowy większa próba może być konieczna, aby test nieparametryczny dawał ten sam poziom istotności co test parametryczny, jednak wyniki są w mniejszym lub żadnym stopniu zależne od rozkładu populacji i obserwacji odstających.

Miary zależności zmiennych

Inne miary nieparametryczne

Inne metody nieparametryczne

Przypisy

  1. większość metod parametrycznych zakłada brzegowy rozkład normalny lub wielowymiarowy rozkład normalny wektora próby
  2. Założenia nie są spełnione choćby dlatego, że idealny rozkład ciągły nigdy nie występuje w skwantowanej przyrodzie. Ponadto najczęściej rozważany rozkład normalny ma niezerową gęstość dla każdej liczby rzeczywistej, podczas gdy w przyrodzie każda zmienna jest ograniczona, np. nie istnieją ludzie o ujemnym czy kilometrowym wzroście

Bibliografia

  • Larry Wasserman: All of Nonparametric Statistics. Springer, 2007. ISBN 0-387-25145-6.
  • Jean Dickinson Gibbons, Subhabrata Chakraborti: Nonparametric Statistical Inference. Wyd. 4. CRC, 2003. ISBN 0-8247-4052-1.

Zobacz też