Wartość p

Przy założeniu hipotezy zerowej rozkład prawdopodobieństwa statystyk z próby ma postać rozkładu normalnego. Pozwala to na łatwe określenie, jakie wyniki są mało prawdopodobne w świetle hipotezy zerowej.
Przy założeniu hipotezy zerowej rozkład prawdopodobieństwa statystyk z próby ma postać rozkładu normalnego. Pozwala to na łatwe określenie, jakie wyniki są mało prawdopodobne – w świetle hipotezy zerowej.
Nomogram pozwalający na bayesowskie oszacowanie wynikowego prawdopodobieństwa subiektywnego hipotezy zerowej na podstawie wartości i prawdopodobieństwa zaczątkowego[1].

Wartość p, p-wartość, prawdopodobieństwo testowe (ang. p-value, probability value) – prawdopodobieństwo, że zależność jaką zaobserwowano w losowej próbie z populacji mogła wystąpić przypadkowo, wskutek losowej zmienności prób, choć w populacji wcale nie występuje. Jest to narzędzie służące jedynie do podstawowej kontroli błędów, i świadczy o wartości dowodowej danych jedynie pośrednio. Według wielu przeglądów i komentarzy błędne interpretacje wartości są w naukach powszechne[2].

Jest definiowane ściśle jako prawdopodobieństwo kumulatywne wylosowania próby takiej lub bardziej skrajnej jak zaobserwowana, przy założeniu, że hipoteza zerowa jest prawdziwa. Wartość jest używana we wnioskowaniu częstościowym przy weryfikacji hipotez statystycznych jako narzędzie kontroli błędów pierwszego rodzaju, polegających na uznawaniu fałszywych hipotez za prawdziwe. Jeśli wartość jest niższa, niż przyjęty z góry poziom istotności statystycznej (oraz jeśli model jest trafny, a jego założenia spełnione) można postępować tak, jakby hipoteza zerowa została odrzucona[3][4].

Wartość to prawdopodobieństwo skrajnych danych przy założeniu hipotezy zerowej: Można je rozumieć jako stopień, w jakim dane są zaskakujące, jeśli nie spodziewaliśmy się wykryć w danych kompletnie niczego. Nie należy jej mylić z prawdopodobieństwem danych przy założeniu alternatywnej hipotezy badawczej, ani z prawdopodobieństwem hipotez w świetle danych; mogą mieć one zupełnie inne wartości:

Według oryginalnej propozycji Ronalda Fishera wartość może być używana do oceny wartości dowodowej danych, jednak jest to interpretacja obarczona licznymi zastrzeżeniami. Współtwórcy podejścia częstościowego, Neyman i Pearson, uważali, że takie oceny są nieuprawnione[3][4]. W realistycznych sytuacjach wartość nie musi silnie korelować z prawdziwością hipotezy zerowej[5]. Prawidłowo stosowana metodologia częstościowa nie służy do decydowania wprost o prawdziwości hipotez, zwłaszcza na podstawie pojedynczych badań, ale do unikania błędów decyzyjnych przy wielokrotnym powtarzaniu testów.

Istnieją sytuacje, w których wniosek, do którego prowadzi obliczanie wartości jest błędny lub wręcz absurdalny, przede wszystkim jeśli badacz popełni błędy metodologiczne lub oszustwa (tzw. P-hacking): np. nie zastosuje poprawki na porównania wielokrotne. Autorzy postera konferencyjnego z 2009 r. zilustrowali to, wykonując badanie fMRI na martwym łososiu. Próby, w których nieżywej rybie pokazywano fotografie ludzi, wiązały się z istotną statystycznie zmianą aktywacji obszarów w jej mózgu (przed poprawkami)[6][7].

Definicja

W modelu wnioskowania częstościowego przed wykonaniem eksperymentu wybiera się krytyczny poziom istotności odpowiadający dopuszczalnemu w ocenie badacza ryzyku popełniania błędu pierwszego rodzaju oraz model statystyczny odpowiadający hipotezie zerowej tj. zakładający brak istnienia jakiegokolwiek efektu w populacji. W praktyce z reguły stosowany jest poziom istotności Wartość to obliczone na podstawie danych prawdopodobieństwo uzyskania takich lub bardziej skrajnych obserwacji w modelu hipotezy zerowej Odczytuje się ją zależnie od testu i tego, czy zakładamy jedno-, czy dwustronną hipotezę alternatywną – z jednej lub obu stron dystrybuanty właściwego dla niego rozkładu. Przed rozpowszechnieniem komputerów korzystano z tablic statystycznych, co było zaletą podejścia częstościowego, zapewniającego w ten sposób gotowe rozwiązania dla najczęściej spotykanych postaci problemów. Jeśli wartość jest mniejsza od przyjętego poziomu istotności, wynik uważa się za zaskakujący w świetle i określa się go jako istotny statystycznie. Jest to rozstrzygnięcie zero-jedynkowe – wynik jest albo istotny na przyjętym poziomie, albo nie[8][9]. Jeśli eksperyment uwzględnia wielokrotne wykonywanie testów statystycznych, poziom istotności powinien uwzględniać poprawkę przeciwdziałającą problemowi porównań wielokrotnych, np. Bonferroniego.

Użycie unormowanej wielkości, w przeciwieństwie do różnorodnych statystyk testowych (z, F, t, chi-kwadrat, D Kołmogorowa-Smirnowa itp.), pozwala bezpośrednio porównywać to, na ile dane z różnych eksperymentów są zaskakujące – przy założeniu hipotezy zerowej.

Interpretacja

Wartość niższa od krytycznego poziomu istotności w podejściu częstościowym uprawnia jedynie do postępowania doraźnie tak, jakby hipoteza zerowa została odrzucona. Jest parametrem konkretnych obserwacji (próby statystycznej), a nie hipotezy badawczej. Nie wyraża wprost prawdopodobieństwa hipotezy alternatywnej: Nie wyraża też ryzyka popełnienia błędu pierwszego rodzaju (wynosi ono zawsze tyle, jaki przyjęto poziom istotności, najczęściej ). Nie wyraża również istotności praktycznej badanego zjawiska – niską wartość można uzyskać przy mikroskopijnych różnicach międzygrupowych (wielkości efektu), jeśli wielkość próby (moc statystyczna) jest bardzo duża. Jacob Cohen zwraca uwagę, że w naturze nie istnieją efekty idealnie zerowe, i w każdej parze zmiennych można oczekiwać jakiejś współzmienności, choćby mikroskopijnej. Miarą istotności praktycznej wyniku jest wielkość efektu z jej przedziałem ufności[2][10].

Wartość wyższa od poziomu istotności jest nieinformacyjna – nie świadczy ani za, ani przeciwko hipotezie zerowej. Wartość taka może oznaczać, że badanie miało zbyt niską moc statystyczną – w takim przypadku przedział ufności rezultatu będzie obejmować zarówno zero, jak i wyniki odległe od zera. Aby rzetelnie stwierdzić, czy zaobserwowane dane rzeczywiście świadczą na rzecz braku efektu praktycznie różnego od zera, a nie wynikają np. z niskiej mocy, można na przykład wykonać test równoważności (taki jak TOST – od ang. two one sided tests)[11]. Możliwe jest też na przykład, że badane zjawisko jest powierzchownie podobne do hipotezy zerowej – jak np. niektóre mechanizmy doboru naturalnego w biologii ewolucyjnej – i hipoteza badawcza musi być wyrażona w postaci bardziej szczegółowego modelu[12].

To, czy badanie może być uważane za przekonujące, zależy od jego konstrukcji i powtarzalności, a nie surowej wartości pojedynczego badania czy alternatywnych odpowiedników takich jak czynnik Bayesa[2][9].

Rozkład wartości

Rozkład wartości p dla H1 ilustrujący, że przy wysokiej mocy wartości istotne statystycznie mogą nadal być bardziej prawdopodobne dla H0
Rozkład wartości dla H0 i H1 przy mocy testu ~90%. W takiej sytuacji znaczna część wartości poniżej progu istotności 0,05, pomimo przekroczenia wartości krytycznej, pozostaje bardziej prawdopodobna dla hipotezy zerowej niż alternatywnej.

Przy bardzo wysokiej mocy statystycznej testów, wyniki, które leżą poniżej, ale blisko progu istotności statystycznej (np. o wartości z przedziału 0,02–0,05), mogą świadczyć wbrew konwencjonalnym interpretacjom procedury bardziej na rzecz hipotezy zerowej. Jest to wariant paradoksu Lindleya.

Gdy różnica, której istnienie testujemy, jest w rzeczywistości nieobecna (hipoteza zerowa jest prawdziwa), rozkład oczekiwanych wartości jest jednostajny – każda wartość jest identycznie prawdopodobna. Spodziewamy się, że 5% wyników przypadkowo znajdzie się w każdym 5% rozkładu istotności, także w 0–0,05.

Gdy testujemy faktycznie istniejącą różnicę (hipoteza zerowa jest fałszywa), rozkład wartości jest silnie prawoskośny – w stopniu zależącym od mocy statystycznej badania. Przy bardzo wysokiej mocy statystycznej większość testów fałszywej hipotezy zerowej powinna osiągać wartości bliskie zeru. Wartości tylko trochę bardziej odległe – już np. w przedziale 0,02–0,05 – mogą wbrew spełniania kryterium „istotności statystycznej” świadczyć bardziej na rzecz prawdziwości hipotezy zerowej[13][14].

Jeśli zbiór badań tego samego zjawiska, szczególnie pochodzących z jednej publikacji lub od jednego autora, nie jest w pełni zgodny z oczekiwanym rozkładem – nie jest jednostajnie prawoskośny – można podejrzewać, że ma miejsce tendencyjność publikacji, błąd lub oszustwo naukowe (P-hacking). Narzędziem służącym do sprawdzania tego podejrzenia jest na przykład -curve[15].

Przykład

Wyobraźmy sobie eksperyment sprawdzający, czy moneta jest symetryczna (jednakowa jest szansa otrzymania orła, jak i reszki). Hipoteza zerowa jest więc taka, że moneta jest symetryczna i każde odchylenie liczby otrzymanych orłów od liczby reszek jest tylko przypadkiem. Przypuśćmy, że wyniki eksperymentu to wyrzucenie co najmniej 14 orłów z 20 rzutów. Wartość takiego wyniku jest szansą na to, żeby uczciwa moneta dała przynajmniej 14 orłów na 20 rzutów lub najwyżej 6 reszek na 20 rzutów. Prawdopodobieństwo tego, że na 20 rzutów symetrycznej monety otrzymamy co najmniej 14 orłów wynosi

Otrzymujemy zatem wartość większą od konwencjonalnego poziomu istotności 0,05, tak więc nie ma podstaw do podważania hipotezy o tym, że moneta jest symetryczna.

Zobacz też

Przypisy

  1. Leonhard Held, A nomogram for Pvalues, „BMC Medical Research Methodology”, 10, 2010, s. 21, DOI10.1186/1471-2288-10-21, ISSN 1471-2288, PMID20233437, PMCIDPMC2851703 [dostęp 2017-01-30].
  2. a b c Sander Greenland i inni, Statistical tests, P values, confidence intervals, and power: a guide to misinterpretations, „European Journal of Epidemiology”, 31 (4), 2016, s. 337–350, DOI10.1007/s10654-016-0149-3, ISSN 0393-2990, PMID27209009, PMCIDPMC4877414 [dostęp 2017-02-09] (ang.).
  3. a b Jesper W. Schneider, Null hypothesis significance tests. A mix-up of two different theories: the basis for widespread confusion and numerous misinterpretations, „Scientometrics”, 102 (1), 2014, s. 411–432, DOI10.1007/s11192-014-1251-5, ISSN 0138-9130 [dostęp 2017-01-15] (ang.).
  4. a b Raymond Hubbard i inni, Confusion over Measures of Evidence (p’s) versus Errors (α's) in Classical Statistical Testing, „The American Statistician”, 57 (3), 2003, s. 171–182, JSTOR30037265 [dostęp 2017-01-15].
  5. David Trafimow, Stephen Rice, A Test of the Null Hypothesis Significance Testing Procedure Correlation Argument, „The Journal of General Psychology”, 136 (3), 2009, s. 261–270, DOI10.3200/GENP.136.3.261-270, ISSN 0022-1309, PMID19650521 [dostęp 2017-01-15].
  6. Charles Seife, The Mind-Reading Salmon, „Scientific American”, 305 (2), Polskie tłumaczenie: Łosoś telepata. „Świat Nauki”. nr. 10 (242), s. 14, październik 2011. Prószyński Media. ISSN 0867-6380., s. 30–30, DOI10.1038/scientificamerican0811-30a [dostęp 2017-01-15].
  7. Craig M. Bennett, MB Miller, GL Wolford, Neural correlates of interspecies perspective taking in the post-mortem Atlantic Salmon: an argument for multiple comparisons correction, „ResearchGate”, 47 (1), 2009, DOI10.1016/S1053-8119(09)71202-9, ISSN 1053-8119 [dostęp 2017-01-15].
  8. Gerd Gigerenzer, Mindless statistics, „The Journal of Socio-Economics”, 33 (5), Statistical Significance, 2004, s. 587–606, DOI10.1016/j.socec.2004.09.033 [dostęp 2017-01-15].
  9. a b Ronald L. Wasserstein, Nicole A. Lazar, The ASA’s Statement on p-Values: Context, Process, and Purpose, „The American Statistician”, 70 (2), 2016, s. 129–133, DOI10.1080/00031305.2016.1154108, ISSN 0003-1305 [dostęp 2017-01-15].
  10. Jacob Cohen, The earth is round (p < .05): Rejoinder., „APA PsycNET”, 50 (12), 1995, DOI10.1037/0003-066X.50.12.1103, ISSN 1935-990X [dostęp 2017-01-15].
  11. Daniel Lakens, Equivalence Tests: A Practical Primer for t-Tests, Correlations, and Meta-Analyses, „Social Psychological and Personality Science, in press”, 2017.
  12. Jerald B. Johnson, Kristian S. Omland, Model selection in ecology and evolution, „Trends in Ecology & Evolution”, 19 (2), 2004, s. 101–108, DOI10.1016/j.tree.2003.10.013 [dostęp 2019-03-30] (ang.).
  13. Thomas Sellke, M.J. Bayarri, James O. Berger, Calibration of ρ Values for Testing Precise Null Hypotheses, „The American Statistician”, 55 (1), 2001, s. 62–71, DOI10.1198/000313001300339950, ISSN 0003-1305 [dostęp 2019-03-14].
  14. Daniël Lakens, On the challenges of drawing conclusions from p-values just below 0.05, „PeerJ”, 3, 2015, e1142, DOI10.7717/peerj.1142, ISSN 2167-8359, PMID26246976, PMCIDPMC4525697 [dostęp 2017-01-08].
  15. Uri Simonsohn, Joseph P. Simmons, Leif D. Nelson, Better P-curves: Making P-curve analysis more robust to errors, fraud, and ambitious P-hacking, a Reply to Ulrich and Miller (2015), „Journal of Experimental Psychology. General”, 144 (6), 2015, s. 1146–1152, DOI10.1037/xge0000104, ISSN 1939-2222, PMID26595842 [dostęp 2017-01-08].

Media użyte na tej stronie

Rozkład wartości p dla H0 i H1 przy wysokiej mocy testu.svg
Autor: Jaszczuroczłek, Licencja: CC BY-SA 4.0
Wykres wygenerowany przy pomocy poniższego kodu języka R, przedstawiający oczekiwany rozkład wartości p przy wysokiej mocy testu dla H0 i H1.

library(tidyverse); library(ggthemes)
n = 34; delta = 0.8; sigma = 1; sims = 50000 # power ~= 0.9

tstats = replicate(sims, t.test(rnorm(n, delta, sigma))$statistic)
tstatsnull = replicate(sims, t.test(rnorm(n, 0, sigma))$statistic)

pvals = 1 - pf(tstats^2, df1 = 1, df2 = n - 1)
pvalsnull = 1 - pf(tstatsnull^2, df1 = 1, df2 = n - 1)

df = gather(tibble(pvals, pvalsnull), dist, pval)

ggplot(df, aes(pval, fill=dist)) + 
  geom_histogram(alpha=0.5, position="identity", binwidth=0.0025) + 
  scale_fill_colorblind(name="Rozkład (moc≈0,9)",labels=expression("H"[1],"H"[0]))+
  scale_x_continuous(name=expression("wartość "*italic("p"))) + 
  theme(legend.position="bottom") +
  geom_vline(xintercept=0.05) + coord_cartesian(xlim=c(0,0.07), ylim=c(0,500)) +
  scale_y_continuous(name="liczba symulacji", trans="sqrt") 
P-value nomograph for Bayesian posterior estimation.jpg
Autor: Leonhard Held, Licencja: CC BY 4.0
A nomograph which easily translates any prior probability and P value to minimum posterior probabilities.