Statystyka nieparametryczna

Statystyka nieparametryczna – gałąź statystyki, zajmująca się modelami i metodami, niewymagającymi założeń odnośnie do rozkładu populacji z której losowana jest próba.

Przymiotnik "nieparametryczna" podkreśla, że w odróżnieniu od wielu klasycznych metod statystycznych algorytmy te nie polegają na estymacji żadnych parametrów z góry założonego rozkładu^[1] zmiennej losowej w populacji.

Metody nieparametryczne należą do tzw. odpornych metod statystycznych (ang. robust methods), gdyż są mało wrażliwe na obserwacje odstające. Najpopularniejszą grupą metod nieparametrycznych są rangowe metody statystyczne.

Termin statystyka nieparametryczna może także odnosić się do statystyki - funkcji próby, której interpretacja nie jest związana z dopasowywaniem parametrów jakiegokolwiek rozkładu. Typowym przykładem są miary oparte na rangach.

Cel i zastosowania

Metody nieparametryczne są szeroko używane przy badaniu zmiennych na skali porządkowej (jak punktowa ocena filmu od 1 do 6 gwiazdek), lub kolejność preferencji klienta.

Kolejnym polem zastosowania metod nieparametrycznych są dane w których występują obserwacje odstające. Metody parametryczne dają wówczas błędne wyniki, gdyż ich założenia nie są spełnione - obserwacje odstające są z definicji przykładem odstępstwa od założonego rozkładu. Metody nieparametryczne, ze względu na mniejszą liczbę założeń, są mniej wrażliwe na takie błędy.

Kolejnym argumentem za użyciem metod nieparametrycznych jest ich prostota. W pewnych przypadkach, nawet jeśli użycie metod parametrycznych jest uzasadnione, metody nieparametryczne prościej zastosować.

Metody parametryczne mają generalnie większą liczbę założeń, szczególnie względem rozkładu populacji. Założenia te nigdy nie są całkowicie spełnione^[2]. Kwestia, czy obserwowane odstępstwa od założeń są dostatecznie małe, by daną metodę parametryczną można było zastosować, jest w dużej mierze decyzją statystyka. Metody nieparametryczne wymagają mniej tego rodzaju decyzji i dzięki temu dają mniej okazji do pomyłek lub niejednoznaczności analizy.

W przypadku jednak, gdy rozkład faktycznie jest bardzo zbliżony do założonego, metody parametryczne dają lepsze rezultaty od nieparametrycznych - generują mniejszy błąd i bardziej istotne statystycznie wyniki, a testy mają większą moc.

Modele nieparametryczne

Modele nieparametryczne zwykle różnią się tym od parametrycznych, że struktura modelu nie jest założona a priori, lecz jest dostosowywana do danych. Termin nieparametryczny nie oznacza tu, że w danym modelu nie występują żadne parametry, lecz, że ich liczba i natura jest elastyczna.

histogram jest prostym nieparametrycznym modelem gęstości prawdopodobieństwa.
estymator jądrowy gęstości daje lepszą estymację gęstości.
regresja nieparametryczna (w szczególności drzewa regresyjne) i regresja semiparametryczna są odpowiednikami standardowych modeli regresji.

Popularne metody nieparametryczne

Testy

Praktycznie każdy test parametryczny ma przynajmniej jeden odpowiednik nieparametryczny. Kilka z nich wymienione jest poniżej:

test Andersona-Darlinga
test chi-kwadrat
test Q Cochrana
kappa Cohena
test Efrona-Petrosiana
dokładny test Fishera
test Friedmana na rangach
test Kołmogorowa-Smirnowa
test Kruskala-Wallisa na rangach
test Kuipera
test McNemara (szczególny przypadek testu chi-kwadrat)
test permutacyjny Pitmana
test Siegela-Tukeya
test Studenta-Newmana-Keulsa (SNK)
test Wilcoxona

Ceną za większą odporność na obserwacje odstające jest w przypadku testów nieparametrycznych mniejsza moc. Innymi słowy większa próba może być konieczna, aby test nieparametryczny dawał ten sam poziom istotności co test parametryczny, jednak wyniki są w mniejszym lub żadnym stopniu zależne od rozkładu populacji i obserwacji odstających.

Miary zależności zmiennych

Inne miary nieparametryczne

mediana
rozstęp ćwiartkowy
W Kendalla

Inne metody nieparametryczne

regresja medianowa
drzewa klasyfikacyjne
drzewa regresyjne
algorytmy genetyczne
sieci neuronowe
gradacyjna analiza odpowiedniości (GCA)

Przypisy

↑ większość metod parametrycznych zakłada brzegowy rozkład normalny lub wielowymiarowy rozkład normalny wektora próby
↑ Założenia nie są spełnione choćby dlatego, że idealny rozkład ciągły nigdy nie występuje w skwantowanej przyrodzie. Ponadto najczęściej rozważany rozkład normalny ma niezerową gęstość dla każdej liczby rzeczywistej, podczas gdy w przyrodzie każda zmienna jest ograniczona, np. nie istnieją ludzie o ujemnym czy kilometrowym wzroście

Bibliografia

Larry Wasserman: All of Nonparametric Statistics. Springer, 2007. ISBN 0-387-25145-6.
Jean Dickinson Gibbons, Subhabrata Chakraborti: Nonparametric Statistical Inference. Wyd. 4. CRC, 2003. ISBN 0-8247-4052-1.

Zobacz też

statystyka parametryczna
gradacyjna analiza danych
ranga i metody rangowe
odporne metody statystyczne

[1] większość metod parametrycznych zakłada brzegowy rozkład normalny lub wielowymiarowy rozkład normalny wektora próby

[2] Założenia nie są spełnione choćby dlatego, że idealny rozkład ciągły nigdy nie występuje w skwantowanej przyrodzie. Ponadto najczęściej rozważany rozkład normalny ma niezerową gęstość dla każdej liczby rzeczywistej, podczas gdy w przyrodzie każda zmienna jest ograniczona, np. nie istnieją ludzie o ujemnym czy kilometrowym wzroście

[1]

[2]

Navigation

Nawigacja

Portale tematyczne