Wielkość efektu

Wielkość efektu – ilościowa miara siły zjawiska (np. różnica między grupą kontrolną a grupą eksperymentalną) obliczana na podstawie danych[1].

Miara ta uzupełnia wnioskowanie statystyczne, obok wartości p, nie stawiając hipotezy o rzeczywistym związku pomiędzy zmiennymi. Jest wykorzystywana w metaanalizach podsumowujących badania z danego obszaru nauki. Analiza mocy wybranego testu oraz planowanie wielkości próby wymagają podania założonej wielkości efektu. Na podstawie tej wartości wykonywane są dalsze obliczenia (wielkość próby, poziom istotności).

Ilustracją znaczenia wielkości efektu jest historia badania opublikowanego w 2014 przez pracowników portalu społecznościowego Facebook, które przyciągnęło dużą uwagę medialną. Jego wyniki zdawały się sugerować, kiedy zredukowano liczbę pokazywanych użytkownikowi postów o pozytywnie emocjonalnym wydźwięku, jego własne statusy również rzadziej zawierały wyrazy nacechowane pozytywne (d Cohena = 0,02), a częściej negatywnie (d Cohena = 0,001). Choć efekt ten był dzięki ogromnej wielkości próby bardzo „istotny statystycznie”, wielkości efektu (d=0,02, d=0,001) były bardzo bliskie zeru, więc zjawisko miało niemal zerowe znaczenie praktyczne. Komentarze prasowe w dużej mierze pomijały ten aspekt wyników, i skupiały się na nieetyczności samego niejawnego eksperymentu[2][3].

Z uwagi na różnorodność typów danych i zastosowanej metodologii istnieje wiele rodzajów wielkości efektu mierzących różne aspekty badania. Oszacowywanie wielkości efektu na podstawie danych wprowadza dodatkową mnogość wielkości efektów: w zależności od samych danych, od zastosowanej metodologii oraz przedmiotu zainteresowania badacza.

Podanie wielkości efektu jest nie tylko dobrą praktyką naukowca, ale też elementem koniecznym w publikacjach badań naukowych[4]. Dodatkowo, raportując wielkość efektu, należy podać miernik, jaki użyto do obliczenia tej wartości (np. d Cohena, r Pearsona)[1].

Znaczenia pojęcia wielkości efektu

Jacob Cohen zdefiniował pojęcie wielkości efektu jako stopień do jakiego zjawisko istnieje[5]. W zależności od kontekstu, możemy posługiwać się trzema znaczeniami pojęcia wielkości. Zwykle nie prowadzi to do nieporozumień, ale należy zdawać sobie sprawę z istnienia sposobów ujęcia terminu „wielkość efektu”.

Wielkość efektu jako wymiar

Wielkość efektu rozumiana jako wymiar jest abstrakcyjnym pojęciem dotyczącym typu informacji, który interesuje badawcza w zjawisku[1]. Jednocześnie nie jest związana z żadną konkretną operacjonalizacją, ani jednostką. Przykładowo wielkością efektu jako wymiar może być zmienność, która sama w sobie nie wyraża się żadnym równaniem, ani też nie posiada jednostki, ale można ją ująć jako odchylenie standardowe, wariancję czy rozstęp.

Miernik (wskaźnik) wielkości efektu

Miernik, inaczej: wskaźnik, wielkości efektu, to równanie, za pomocą którego obliczana jest wielkość efektu. Raportując wielkość efektu w pracy badawczej, należy podać jaki indeks zastosowano.

Wartość wielkości efektu

Wartość wielkości efektu jest liczbą obliczoną na podstawie danych poprzez konkretne równanie matematyczne opisujące interesujący badacza wymiar wielkości efektu (np. zmienność). Wartość ta wskazuje na siłę zjawiska. Przykładowo, weźmy pod uwagę standaryzowaną różnicę pomiędzy średnimi (miernik wielkości efektu). Jest to operacjonalizacja tego, jak się różnią grupa kontrolna i grupa badawcza. Wartość standaryzowanej różnicy pomiędzy średnimi może wynieść d Cohena = 0,62. Ta liczba to dokładnie jest wartość wielkości efektu.

Typy wielkości efektu

Wielkość efektu oparta na wyjaśnianej wariancji

Ten typ wielkości efektu szacuje ilość wariancji wyjaśnionej przez model w eksperymencie.

Współczynnik korelacji r Pearsona

Współczynnik korelacji r Pearsona wprowadzony przez Karla Pearsona jest szeroko wykorzystywaną miarą wielkości efektu dla danych ilościowych powiązanych ze sobą związkiem – na przykład, badając związek pomiędzy wagą urodzenia a długością życia.

Współczynnik korelacji może być również użyty, kiedy zmienne są binarne. Współczynnik korelacji r Pearsona przyjmuje wartości z przedziału od −1 do 1. Wartość −1 wskazuje na idealną, liniową, negatywną zależność. Wartość +1 oznacza idealną, liniową, dodatnią zależność. Jacob Cohen podaje wskazówki interpretacji wielkości efektu dla nauk społecznych[6][7]:

Wielkość efektur
Mała0,10
Średnia0,30
Duża0,50
Współczynnik determinacji

Związany z wielkością efektu jest współczynnik determinacji r², liczony jako kwadrat współczynnika korelacji r Pearsona. W przypadku dwóch zmiennych, jest to miara proporcji zmienności (wariancji) dzielonej przez te zmienne. Współczynnik determinacji r² przyjmuje wartości z przedziału od 0 do 1. Ponieważ są to wartości zawsze dodatnie, to na jego podstawie nie można wyciągnąć wniosku o kierunku korelacji pomiędzy zmiennymi.

Eta-kwadrat, η²

Eta-kwadrat (η²) opisuje stosunek wariancji zmiennej zależnej wyjaśnioną (w sensie czysto korelacyjnym) przez zmienną niezależną (predyktor), przy stałych wartościach pozostałych zmiennych niezależnych (predyktorów). η² jest odpowiednikiem r² i jest obciążonym estymatorem wariancji wyjaśnionej przez model w populacji (czyli oszacowuje jedynie wielkość efektu w próbie). Podobnie jak r², każda dodatkowa zmienna w modelu powoduje wzrost wartości η². Ponadto ta wielkość efektu podaje jedynie zmienność w próbie, nie zaś w populacji, co oznacza, że zawsze przeszacowuje wielkość efektu w populacji, jednak obciążenie maleje wraz ze wzrostem elementów w próbie.

gdzie:

SSB – międzygrupowa suma kwadratów,
SST – całkowita suma kwadratów.
Omega-kwadrat ω²

Mniej obciążonym estymatorem wyjaśnionej wariancji w populacji jest ω²[8][9][10].

Forma tego wzoru jest ograniczona do między-osobniczej analizy z równą liczbą elementów w komórkach. Ponieważ jest mniej obciążony (ale nie nieobciążony), ω² jest bardziej pożądany niż η². Jednakże może być go trudniej obliczyć przy bardziej złożonych analizach.

f² Cohena

f² Cohena jest jedną z miar wielkości efektu używanych w kontekście F-testu w ANOVA albo w regresji wielokrotnej. Jego obciążenie (czyli przeszacowanie wielkości efektu dla ANOVA) zależy od obciążenia miar wyjaśnianej zmienności (np. R², ω², η²).

gdzie R² jest współczynnikiem korelacji wielorakiej.

Podobnie, f² może być zdefiniowane jako

lub

dla modeli opisanych przez powyższe miary wielkości efektu[11]

Wielkość efektu oparta na średnich albo na dystansie między średnimi

Wielkość efektu θ oparta na średnich zwykle wykorzystuje standaryzowaną różnicę między dwiema próbami[12] gdzie μ1 jest wartością oczekiwaną dla jednej populacji, a μ2 jest wartością oczekiwaną dla drugiej populacji oraz σ jest odchyleniem standardowym albo dla obu populacji, albo dla jednej z nich.

W praktyce, powyższe wartości są nieznane dla całej populacji i muszą być oszacowywane na podstawie próby. W ten sposób powstało wiele wersji wielkości efektu opartych na różnicy między średnimi w zależności od tego, jakich estymatorów użyto.

Podany wzór opisujący wielkość efektu przypomina obliczanie statystyki t w teście t-Studenta, z tą różnicą, że w statystyce t używany jest czynnik To oznacza, że dla danej wielkości efektu, poziom istotności wzrasta wraz ze wzrostem próby. W przeciwieństwie do statystyki t, wielkość efektu oszacowuje parametr w populacji, zatem wielkość próby nie ma na nią wpływu.

d Cohena

d Cohena jest zdefiniowane jako różnica pomiędzy średnimi podzielona przez odchylenie standardowe w próbie

d Cohena jest często używany w szacowaniu wielkości próby obok pożądanej mocy testu przy założonym poziomie istotności. Mniejsze d Cohena oznacza konieczność zwiększenia liczności próby, i na odwrót.

Jacob Cohen nie określił dokładnie co znaczy odchylenie standardowe s we wzorze, ponieważ zdefiniował to jako standardowe odchylenie w próbach (zakładając, że są równe). Inni autorzy obliczają standardowe odchylenie bardziej jawnie zgodnie z definicją odchylenia standardowego w obu niezależnych próbach:

gdzie wariancja grupy została określona wzorem:

Ta definicja d Cohena jest nazwana estymatorem największej wiarygodności przez Hedgesa i Olkina. Jest pokrewna do g Hedgesa z uwagi na czynnik skalujący (poniżej).

Δ Glassa

W 1976 Gene V. Glass zaproponował estymator wielkości efektu, który wykorzystuje jedynie odchylenie standardowe w drugiej próbce.

Druga próbka może oznaczać grupę kontrolną. Według Glassa, jeśli porównujemy kilka grup do grupy kontrolnej, to lepszym rozwiązaniem jest użycie odchylenia standardowego pochodzącego z grupy kontrolnej po to, aby wielkości efektu nie różniły się ze względu na różne wariancje mając ten sam licznik (różnica w średnich). Przy spełnieniu założenia o równości wariancji we wszystkich próbach, odchylenie standardowe σ dla wszystkich obserwacji jest dokładniejszym estymatorem.

g Hedgesa

W 1981 roku Larry Hedges zaproponował inny miernik wielkości efektu, g Hedgesa, opartą na standaryzowanej różnicy

W tym wzorze odchylenie standardowe dla całej próby jest obliczanie nieco inną metodą niż w d Cohena. Początkowo, można było obliczać odchylenie standardowe dla całej próby w ten sposób:

Jednakże estymator dla wielkości efektu w populacji θ jest estymatorem obciążonym. Obciążenie można zmniejszyć poprzez pomnożenie przez czynnik

Hedges i Olkin odnoszą się do powyższego mniej obciążonego estymatora jako d, ale nie jest to ta sama wielkość efektu co d Cohena. Dokładna forma czynnika korygującego obciążenie zawiera w sobie funkcję gamma.

Ψ, standaryzowana średnia kwadratowa

Jest to estymator wielkości efektu używany w przypadku porównań wielokrotnych np. ANOVA[11], analogiczny do d albo g. Najprostszy wzór na Ψ, używany w przypadku jednoczynnikowej ANOVA:

Wzory uogólnione dla wieloczynnikowego modelu również znajdują się w literaturze[11].

Rozkład wielkości efektu opartej na średnich

Jeśli dane mają rozkład normalny, to skalowane g Hedgesa, ma niecentralny rozkład t-Studenta z parametrem niecentralności oraz (n1 + n2 – 2) stopniami swobody. Podobne, skalowana Δ Glassa ma niecentralny rozkład z n2 – 1 stopniami swobody. Przy użyciu powyższych rozkładów, jest możliwe obliczenie wartości oczekiwanej i wariancji wielkości efektu. W przypadku odpowiednio dużych prób używane są aproksymacje dla wariancji. Nieobciążonym estymatorem wariancji g Hedgesa jest[13]

Wielkość efektu dla zmiennych kategorialnych (dyskretnych)

  

  

Phi (φ)V Craméra (φc)

Popularnie używane miary związku dla test chi-kwadrat to współczynnik Phi oraz V Craméra (V Craméra czasami jest nazywane phi Craméra i zapisywane jako φc). Współczynnik Phi jest związany z punktowo-dwuseryjną korelacją oraz z d Cohena i oszacowuje rozmiar związku pomiędzy dwoma zmiennymi (2x2). Natomiast V Craméra może być użyty ze zmiennymi o większej ilości kategorii.

Phi może być obliczone na podstawie pierwiastka kwadratowego statystyki chi-kwadrat podzielonej przez wielkość próby. Podobnie, V Craméra jest obliczane poprzez podzielenie pierwiastka kwadratowego statystyki chi-kwadrat przez wielkość próby i mniejsza z liczb: wierszy lub kolumn (tabela powyżej).

Phic jest interkorelacją między dwoma zmiennymi dyskretnymi i może być obliczana dla każdej liczby wierszy i kolumn[14]. Jednakże podobnie tak jak wartości chi-kwadrat mają tendencję do wzrostu wraz z liczbą komórek, im większa różnica między liczbą kolumn c a liczbą wierszy r, tym bliższa 1 jest wartość V Craméra bez znaczącej korelacji między zmiennymi.

V Craméra jest stosowana jako miara dobroci dopasowania (np. wówczas, gdy c=1). W tym przypadku funkcjonuje jako miara tendencji ku pewnej wartości. W takich przypadkach, należy użyć wartości r jako k, aby zachować V w przedziale [0,1]. W przeciwnym wypadku, użycie c zredukuje równanie na wielkość efektu do równania na Phi.

Iloraz szans

Iloraz szans (odds ratio, OR) to miara wielkości efektu odpowiednia wówczas, kiedy pytanie badawcze dotyczy stopnia związku pomiędzy dwoma zmiennymi binarnymi (zero-jedynkowymi).

Rozważmy następujący przykład. W grupie kontrolnej, na każdych dwóch studentów przystępujących do egzaminu i zaliczających przedmiot przypada jeden student, któremu nie powiodło się. W tym przypadku szansa zaliczenia egzaminu to dwa do jednego (lub 2/1 = 2). W grupie badanej, na jednego studenta, który nie zaliczył egzamin, przypada sześciu studentów, którzy pomyślnie przeszli sprawdzian. W tym przypadku szansa zaliczenia egzaminu to sześć do jednego (albo 6/1=6). W ten sposób, wielkością efektu jest tutaj stosunek szansy zaliczenia egzaminu w grupie badanej, która trzy razy większa od szansy zaliczenia w grupie kontrolnej (ponieważ 6 podzielone przez 2 to 3). Zatem iloraz szans to 3. Powyższa statystyka jest mierzona na innej skali niż d Cohena, w związku z czym powyższa wartość 3 jest nieporównywalna do d Cohena równej 3.

Ryzyko względne

Ryzyko względne, zwane również pod nazwą iloraz ryzyk, jest ryzykiem (prawdopodobieństwem) zdarzenia względem innych niezależnych zmiennych. Ta miara wielkości efektu różni się od ilorazu szans z uwagi na to, że porównuje prawdopodobieństwa, zamiast szans, ale asymptotycznie zbliża się do ilorazu szans dla małych prawdopodobieństw. Używają przykładu powyżej, prawdopodobieństwo zaliczenia egzaminu w grupie kontrolnej i badanej jest odpowiednio: 2/3 (0,67) oraz 6/7 (0,86). Wielkość efektu jest obliczana w bardzo podobny sposób – poprzez prawdopodobieństwo. Zatem ryzyko względne wynosi 1,28. Ze względu na raczej wysokie prawdopodobieństwo zaliczenia egzaminu, otrzymujemy dużą różnicę pomiędzy ryzykiem względnym a ilorazem szans. Gdybyśmy jednak zastosowali mniejsze prawdopodobieństwa porażki w równaniu, zamiast sukcesu, to wówczas różnica pomiędzy tymi dwoma wartościami wielkości efektu nie byłaby taka duża.

Pomimo że obie miary wielkości efektu są użyteczne, to różnią się pod względem statystycznych zastosowań. W badaniach medycznych, iloraz szans jest często wykorzystywany w badaniach kontrolnych (case-control study). Ryzyko względne jest używane w próbach zrandomizowanych albo w badaniach kohortowych. Kiedy przypadki pojawienia się choroby są rzadkie w populacji (przyjmuje się około mniej niż 10%), wówczas iloraz szans jest uważany za dobry estymator ilorazu ryzyka. Jeśli jednak, przypadki choroby są częstsze, iloraz szans i iloraz ryzyk zaczynają się różnić, w tym sensie, że iloraz szans niedoszacowuje albo przeszacowuje iloraz ryzyk, kiedy estymator jest mniejszy lub większy od 1. Kiedy estymatory występowania choroby są dostępne, są metody przełożenia ilorazu szans na iloraz ryzyk.

Wielkość efektu rozumiana potocznie

Tak jak nazwa wskazuje, w rozumieniu potocznym wielkość efektu służy do opisania wielkości efektu tak, aby osoby z małym statystycznym doświadczeniem mogły zrozumieć to pojęcie. Ta wielkość efektu jest terminem ukutym przez Kennetha McGrawa i S.P. Wonga i jest używana do zilustrowania różnicy pomiędzy dwoma grupami.

Kerby zauważa, że podstawą do zrozumienia wielkości efektu w potocznym rozumieniu tego pojęcia jest „para”, zdefiniowana jako wyniki w jednej grupie obserwacji sparowane z wynikami w drugiej grupie obserwacji. Na przykład jeśli w badaniach mamy 10 osób w grupie badanej i 10 osób w grupie kontrolnej, to liczba par wynosi 100. Potocznie rozumiana wielkość efektu porządkuje wszystkie, porównuje pary i w rezultacie podaje procent par wspierających hipotezę.

Jako przykład, rozważmy leczenie chronicznej choroby takiej jak artretyzm, a zmienną wynikową oceniająca mobilność i ból osoby badanej. Rozważmy też, 10 osób w grupie leczenie i 10 osób w grupie kontrolnej. Liczba par wynosi 100. Rezultaty uzyskane na podstawie próby mogą być następujące: „Porównując pacjentów z grupy badanej do pacjentów z grupy kontrolnej, uzyskano 80 na 100 par, w których wynik osoby z grupy badanej wykazywał poprawę po leczeniu”.

Taka wartość parametru z próby jest nieobciążonym estymatorem parametru z populacji[15]. Parametr z populacji w rozumieniu potocznym może być podawany pod względem par wybranych losowo z populacji. McGraw i Wong używają przykładu porównania wzrostu między kobietami a mężczyznami, opisując wartość populacyjnego parametru w rozumieniu potocznym następująco: „W jakiejkolwiek losowo wybranej parze młodego mężczyzny i młodej kobiety, prawdopodobieństwo wyższego wzrostu młodego mężczyzny wynosi 0,92, i prosto rzecz ujmując, na 92 z 100 ślepych randek mężczyzna jest wyższy niż kobieta” (s.381).

Rangowo-dwuseryjna korelacja

Rangowo-dwuseryjna korelacja jest wielkością efektu związaną z wielkością efektu potocznie rozumianą. Miara została wprowadzona przez Curetona jako wielkość efektu dla testu U Manna-Whitneya. Oznacza to, że mając dwie grupy, wyniki zostają przekonwertowane na rangi. Wzór na prostą różnicę Kerby’ego (poniżej) pozwala obliczyć rangowo-dwuseryjną korelację na podstawie potocznie rozumianej wielkości efektu.

Niech f będzie proporcją par przemawiających na rzecz hipotezy (potocznie rozumiana wielkość efektu). Niech u będzie proporcją par zaprzeczających hipotezie. Rangowo-dwuseryjna korelacja r jest prostą różnicą pomiędzy dwoma proporcjami r = f − u.

Innymi słowy, korelacja jest tutaj różnicą pomiędzy wielkością efektu rozumianą potocznie a jej dopełnieniem. Przykładowo, niech, w potocznym ujęciu wielkość efektu wynosi 60%, zatem rangowo-dwuseryjna korelacja wynosi 60–40%, stąd otrzymujemy, r = 0,2. Wzór Kerby’ego jest kierunkowy – wskazuje kierunek zależności. Dodatnie wartości przemawiają na rzecz hipotezy.

Niekierunkowy wzór dla rangowo-dwuseryjnej korelacji został zaproponowany przez Wendta i przyjmuje tylko dodatnie wartości[16]. Korzyścią ze stosowania wzoru Wendta jest to, że można go szybko obliczyć na podstawie informacji zawartych w opublikowanym artykule. Wzór ten wykorzystuje jedynie wartość statystyki U z testu Manna Whitneya oraz liczebność próby z obu grup:

Następny przykład pokazuje działanie wzoru. Rozważmy badanie zdrowia 20 seniorów, spośród których 10 jest w grupie kontrolnej a 10 w grupie badanej. Stąd mamy 100 par. Program zdrowotny przewiduje, że dieta, ćwiczenia i suplementacja poprawiają pamięć, co jest mierzone wystandaryzowanym testem. Test U Manna Whitneya pokazuje, że osoby starsze w grupie eksperymentalnej charakteryzują się lepszą pamięcią w 70 na 100 par i gorszą pamięcią w pozostałych parach. Statystyka U Manna Whitneya jest mniejsza z 70 i 30, zatem U = 30. Korelacja pomiędzy pamięcią a leczeniem według wzoru Kerby’ego wynosi r = 70/100 − 30/100 = 0,4. Korelacja według wzoru Wendta wynosi r = 1 − (2*30)/10*10 = 0,4.

„Mała”, „średnia”, „duża” wielkość efektu

Uznanie wielkości efektu za „małą”, „średnią”, czy „dużą” zależy od kontekstu badania i definicji operacyjnej wielkości efektu. Zaproponowane przez Cohena kryteria są wszechobecne w wielu obszarach nauki. Analiza mocy i planowanie wielkości próby wymagają założenia wielkości efektu w populacji. Wielu badaczy traktuje kryteria Cohena jako domyślne hipotezy alternatywne. To podejście jest krytykowane, zdaniem Russela V. Lentha – są to „T-shirtowe wielkości efektu”[17].

Jest trudno dość do tej samej wielkości próby, jaka została użyta we wcześniejszych badaniach, gdzie wielkość efektu była duża, średnia, albo mała. Metodą jest wykorzystywanie standaryzowanej wielkości efektu jako celu. Pomyślmy o „średniej” wielkości efektu. Wybierzemy wówczas to samo n (liczba elementów w próbie) bez względu na rzetelność narzędzia, albo specyfikę jednostek badanych. Mianowicie, wiele poważnych aspektów zagadnienia jest pomijanych. „Średni” nic nie mówi!

d Cohena w zakresie 0,2 do 0,3 może oznaczać „małą” wielkość efektu, około 0,5 oznacza „średnią”, a od 0,8 oznacza „dużą” wielkość efektu, przy czym d Cohena może osiągać wartości większe od jedności.

Cohen w swoich artykułach[6] uprzedził zastrzeżenia Lentha:

Terminy „mały”, „średni”, „duży” są względne, nie tylko wobec siebie, ale również wobec obszaru nauki behawioralnych, a nawet specyfiki badania lub użytej w nim metody. W obliczu tej względności, istnieje pewne niebezpieczeństwo w proponowaniu zwyczajowych definicji dla tych terminów w kontekście analizy mocy. Ryzyko to niemniej jest tolerowane ponieważ wierzymy, że narażając się na nie więcej zdobędziemy niż stracimy poprzez stworzenie jakiegoś źródła odniesienia w przypadku, gdy nie istnieją inne sposoby oszacowania wielkości efektu. (s.25)

W idealnym świecie, badacze interpretowaliby istotność swoich wyników w odniesieniu do znaczącego kontekstu albo przez zmierzenie swojego wkładu w wiedzę. Jeśli to niemożliwe, kryteria Cohena są ostatnią deską ratunku[4].

Wydany przez United States Department of Education raport mówi, że: „Wszechobecne, masowe wykorzystanie kryteriów Cohena do oceny wielkości efektu poza obszarami związanych z naukami behawioralnymi jest niewłaściwe i mylące”. W raporcie nie znalazły się inne źródła interpretacji wielkości efektu.

Przypisy

  1. a b c Ken Kelley. On Effect Size. „Psychological Methods”. 17 (2). s. 137–152. DOI: 10.1037/a0028086. 
  2. Jeffrey T. Hancock, Jamie E. Guillory, Adam D.I. Kramer, Experimental evidence of massive-scale emotional contagion through social networks, „Proceedings of the National Academy of Sciences of the United States of America”, 111 (24), 2014, s. 8788–8790, DOI10.1073/pnas.1320040111, ISSN 0027-8424, PMID24889601 [dostęp 2019-03-28] (ang.).
  3. David Shaw, Facebook’s flawed emotion experiment: Antisocial research on social network users, „Research Ethics”, 12 (1), 2016, s. 29–34, DOI10.1177/1747016115579535, ISSN 1747-0161 [dostęp 2019-03-28] (ang.).
  4. a b Leland Wilkinson. Statistical methods in psychology journals: Guidelines and explanations. „American Psychologist”. 54 (8), s. 594–604, 1999. DOI: 10.1037/0003-066X.54.8.594. 
  5. Jacob Cohen: Statistical Power Analysis for the Behavioral Sciences (revised ed.). Academic Press, Inc., 1977, s. 5. ISBN 0-12-179060-6.
  6. a b Jacob Cohen: Statistical Power Analysis for the Behavioral Sciences (second ed.). Lawrence Erlbaum Associates, 1988, s. 590.
  7. Jacob Cohen. A power primer. „Psychological Bulletin”. 112 (1). s. 155–159. DOI: 10.1037/0033-2909.112.1.155. 
  8. Bortz, 1999, p. 269f.
  9. Bühner & Ziegler (2009, p. 413f).
  10. Tabachnick & Fidell (2007, p. 55).
  11. a b c Steiger, J. H. 2004. Beyond the F test: Effect size confidence intervals and tests of close fit in the analysis of variance and contrast analysis. Psychological Methods 9:(2) 164-182. http://www.statpower.net/Steiger%20Biblio/Steiger04.pdf.
  12. Larry V. Hedges, Ingram Olkin: Statistical Methods for Meta-Analysis. Orlando: Academic Press, 1985, s. 78. ISBN 0-12-336380-2.
  13. Larry V. Hedges, Ingram Olkin: Statistical Methods for Meta-Analysis. Orlando: Academic Press, 1985, s. 86. ISBN 0-12-336380-2.
  14. Sheskin, David J. (1997). Handbook of Parametric and Nonparametric Statistical Procedures. Boca Raton, Fl: CRC Press.
  15. Grissom RJ. Statistical analysis of ordinal categorical status after therapies. „Journal of Consulting and Clinical Psychology”. 62 (2), s. 281–284, 1994. DOI: 10.1037/0022-006X.62.2.281. 
  16. H.W. Wendt. Dealing with a common problem in social science: A simplified rank-biserial coefficient of correlation based on the U statistic. „European Journal of Social Psychology”. 2 (4), s. 463–465, 1999. DOI: 10.1002/ejsp.2420020412. 
  17. Russell V. Lenth: Java applets for power and sample size. Division of Mathematical Sciences, the College of Liberal Arts or The University of Iowa. [dostęp 2008-10-08]. (ang.).