Poziom istotności

Przy mocy ok. 70% rozkłady prawdopodobieństwa dla statystyki testowej w hipotezie zerowej i alternatywnej w znacznej części nie pokrywają się
Rozkłady prawdopodobieństwa dla statystyki testowej w hipotezie zerowej i alternatywnej, w dwustronnym teście t dla dwóch grup niezależnych. W tym idealizowanym przypadku relatywnie duża wielkość efektu d=0,5 przekłada się na znaczną różnicę położenia obu rozkładów, a relatywnie obszerna wielkość próby N=100 na ich węższą wariancję. Te dwa parametry oraz jednostronne α=0,05 wyznaczają razem oczekiwany poziom β≈0.3 (moc statystyczną ok. 70%), ponieważ determinują jaka część obu rozkładów leży po niewłaściwie je klasyfikującej stronie krytycznych wartości testowych. W wielu powtórzeniach losowania z takich rozkładów należy oczekiwać, że ok. 30% prób z hipotezy alternatywnej i 5% z zerowej zostanie zaklasyfikowanych błędnie.

Poziom istotności (α) – przyjęte z góry dopuszczalne ryzyko popełnienia błędu I rodzaju (uznania prawdziwej hipotezy zerowej za fałszywą), pozwalające określić, powyżej jakich odchyleń zaobserwowanych w próbie test rozstrzygnie na korzyść hipotezy alternatywnej. Stosowany przy weryfikacji hipotez statystycznych i estymacji przedziałowej w podejściu częstościowym w statystyce[1][2].

Zakłada trafność przyjętego modelu statystycznego, spełnienie jego wymagań (np. o doborze próby, homoskedastyczności i braku współliniowości), oraz przestrzeganie algorytmu wnioskowania częstościowego. Łamanie tych założeń nazwano P-hackingiem; zrywa ono gwarancję że oczekiwana częstość błędów będzie zgodna z przyjętym ryzykiem. Najczęściej stosowane testy opierają się na modelu liniowym (np. test chi-kwadrat, analiza wariancji czy test t Studenta), czasem doprecyzowanym na tyle, aby rozluźnić część jego ogólnych założeń[3][4].

Determinuje, ceteris paribus, ryzyko błędu II rodzaju (β: nieodrzucenia fałszywej hipotezy zerowej; jego dopełnieniem, 1–β, jest moc testu). W tym stopniu, w jakim rozkłady statystyki dla porównywanych hipotez pokrywają się, im surowszy poziom istotności, tym niższa moc testu i większe ryzyko β. Na moc statystyczną wpływ ma także m.in. wielkość efektu i rozmiar próby[5].

W zgodzie z pierwotną propozycją Fishera oraz Neymana i Pearsona, wybór wartości α zależy od badacza, natury problemu i od tego, jak dokładnie chce on weryfikować swoje hipotezy. Jak opisuje Gigerenzer, często „bezmyślnie” przyjmuje się dwustronne α=0,025+0,025=0,05[1].

Wartość założonego poziomu istotności jest porównywana z wyliczoną na podstawie testu statystycznego wartością p (lub jego ekwiwalentem). Jeśli wartość p jest większa, rezultaty badania są niekonkluzywne. W propozycji Neymana–Pearsona, należy w tej sytuacji postępować tak jakby prawdziwa była hipoteza zerowa H0 (która zwykle postuluje brak efektu lub różnic), nie daje to jednak samodzielnych podstaw do przekonania, że tak rzeczywiście jest. Brak istotności testu w jednym badaniu nie oznacza samo w sobie, że sfalsyfikowano hipotezę badawczą. Wysokie p może wynikać również na przykład z niskiej mocy testu[2][6].

Jeśli wartość p jest niższa, można postępować tak jakby prawdziwa była hipoteza alternatywna, i o ile założenia modelu i algorytmu były dochowane, powinno to prowadzić do błędu w długim okresie tylko w odsetku realizacji testu równym α. To również nie daje samodzielnych podstaw do rozstrzygnięcia o prawdziwości hipotez. Zjawiska o bliskiej zeru wielkości efektu i bez praktycznego znaczenia mogą przekroczyć próg istotności statystycznej, np. jeśli test ma wysoką moc – np. w dużych próbach. Wykrycie korelacji nie świadczy również automatycznie o istnieniu związku przyczynowego; wnioskowanie przyczynowe wymaga odrębnego, specyficznego modelowania i realizacji testów szczegółowych hipotez zgodnych z jego przewidywaniami[2][6].

Zobacz też

Przypisy

  1. a b Gerd Gigerenzer, Mindless statistics, „The Journal of Socio-Economics”, 33 (5), 2004, s. 587–606, DOI10.1016/j.socec.2004.09.033 [dostęp 2019-03-31] (ang.).
  2. a b c Raymond Hubbard i inni, Confusion over Measures of Evidence (p’s) versus Errors (α's) in Classical Statistical Testing, „The American Statistician”, 57 (3), 2003, s. 171–182, JSTOR30037265 [dostęp 2017-01-15].1 stycznia
  3. Earl Babbie: Badania społeczne w praktyce. Warszawa: Wydawnictwo Naukowe PWN, 2007, s. 508.
  4. W.J. Conover, Ronald L. Iman, Rank Transformations as a Bridge Between Parametric and Nonparametric Statistics, „The American Statistician”, 35 (3), 1981, s. 124, DOI10.2307/2683975, JSTOR2683975 [dostęp 2019-04-03].
  5. Jacob Cohen, The earth is round (p < .05)., „American Psychologist”, 49 (12), 1994, s. 997–1003, DOI10.1037/0003-066X.49.12.997, ISSN 1935-990X [dostęp 2019-03-31] (ang.).
  6. a b Valentin Amrhein, Sander Greenland, Blake McShane, Scientists rise up against statistical significance, „Nature”, 567 (7748), 2019, s. 305–307, DOI10.1038/d41586-019-00857-9, ISSN 0028-0836 [dostęp 2019-04-03] (ang.).

Bibliografia

  • Mieczysław Sobczyk, Statystyka. Podstawy teoretyczne, przykłady, zadania, Wyd. UMCS, ISBN 83-227-1153-0..

Media użyte na tej stronie

Wysoka moc statystyczna.png
Autor: Jaszczuroczłek, Licencja: CC BY-SA 4.0
Rozkłady prawdopodobieństwa dla statystyki testowej w hipotezie zerowej i alternatywnej, w teście t dla dwóch grup niezależnych, przy N=100, d=0,5 co oznacza poziom mocy statystycznej ok. 70%