P-hacking

P-hacking, p-hacking, data dredging (z ang., nadużywanie danych), QRP (ang. questionable research practices – wątpliwe praktyki badawcze) – błędy metodologiczne, jakich dopuszczają się badacze łamiący założenia przyjętego podejścia wnioskowania statystycznego, szczególnie w obszarze weryfikacji hipotez statystycznych, kierując się nadmierną motywacją uzyskania wyniku istotnego statystycznie, ze szkodą dla faktycznej wartości naukowej badań[1][2][3][4].

P-hacking polega na łamaniu założeń używanych modeli statystycznych, takich jak stosowanie niezależnych prób losowych, oraz na popełnianiu błędów logicznych.

Przykłady błędów typu P-hacking to:

Nadużycie metodologicznePrawidłowe podejście
Data fishing, HARKing (ang.) – wykonywanie niezaplanowanych porównań, w poszukiwaniu różnic istotnych statystycznie, i przedstawianie ich jako zaplanowanej weryfikacji hipotez.Badania eksploracyjne powinny być przedstawiane jako takie, a nie jako z góry zaplanowana weryfikacja hipotez[5].
Cherry picking (ang.), złudzenie publikacyjne – wybiórcze przedstawianie jedynie podzbioru porównań, które osiągnęły istotność statystyczną.Aby publikacje rzeczywiście prezentowały nominalny poziom ryzyka błędu I i II rodzaju, należy przedstawić wyniki wszystkich wykonanych testów[6][7].
Problem porównań wielokrotnych – wykonywanie wielu testów tej samej rodziny hipotez na tych samych danych, bez stosowania na to żadnej poprawki.W przypadku wykonywania wielu testów hipotezy na tych samych danych, należy uwzględnić problem porównań wielokrotnych i zastosować np. poprawkę Holma–Bonferroniego[8].
Podglądanie wyników w trakcie zbierania danych, i przedwczesne przerywanie badania, gdy tylko uzyska się istotność statystyczną.Jeśli badanie jest kosztowne, można rozważyć wykorzystanie technik analizy sekwencyjnej, pozwalającej na etapowe testowanie danych w trakcie ich zbierania, i przerwanie badania gdy tylko zostanie uzyskana istotność statystyczna, w sposób kontrolujący błędy I rodzaju[9][10][11].

Metody przeciwdziałania takiemu zjawisku obejmują między innymi prerejestrację planów badawczych, dającą notarialną gwarancję, że zaplanowana struktura analiz była przestrzegana, oraz częstsze wykonywanie replikacji badań[4][12]. Wicherts i in. zaproponowali listę kontrolną wyliczającą 34 błędy badawcze, których należy unikać[13].

Narzędzia pomagające wykryć P-hacking to takie metody metaanalityczne jak m.in. wykresy lejkowe[14][15] czy P-curve[16]. Wykryto dzięki nim pewną ilość nadużyć w badaniach, np. w obszarze psychologii społecznej[17][18]. Przeglądy publikacji wskazują że P-hacking jest często spotykany, jednak możliwe że nie ma poważnego wpływu np. na metaanalizy[19]. Przykładowo, w jednym z badań ankietowych do niezaplanowanego podglądania danych i przerywaniu badań przyznało się 55% z ok. 2000 naukowców[20]. Przeglądy zademonstrowały występowanie problemów tego typu między innymi w biznesowych badaniach A/B w informatyce[21], w ekologii behawioralnej[22], i w quasi-eksperymentach ekonomii[23].

Przypisy

  1. Joseph Simmons, Leif D. Nelson, Uri Simonsohn, Life After P-Hacking, „NA - Advances in Consumer Research Volume 41”, 2013 [dostęp 2017-01-15].
  2. S. Stanley Young, Alan Karr, Deming, data and observational studies, „Significance”, 8 (3), 2011, s. 116–120, DOI10.1111/j.1740-9713.2011.00506.x, ISSN 1740-9713 [dostęp 2017-01-15] (ang.).
  3. George Davey Smith, Shah Ebrahim, Data dredging, bias, or confounding, „British Medical Journal”, 325 (7378), 2002, s. 1437–1438, DOI10.1136/bmj.325.7378.1437, ISSN 0959-8138, PMID12493654 [dostęp 2017-01-15] (ang.).
  4. a b Wolfgang Forstmeier, Eric-Jan Wagenmakers, Timothy H. Parker, Detecting and avoiding likely false-positive findings – a practical guide, „Biological Reviews”, 92 (4), 2017, s. 1941–1968, DOI10.1111/brv.12315, ISSN 1469-185X [dostęp 2019-03-31] (ang.).
  5. Norbert L. Kerr, HARKing: Hypothesizing After the Results are Known, „Personality and Social Psychology Review”, 2 (3), 2016, s. 196–217, DOI10.1207/s15327957pspr0203_4 [dostęp 2017-01-31] (ang.).
  6. Regina Nuzzo, How scientists fool themselves – and how they can stop, „Nature”, 526 (7572), 2015, s. 182–185, DOI10.1038/526182a [dostęp 2017-01-31] (ang.).
  7. Andrew Gelman, Eric Loken, The Statistical Crisis in Science, „American Scientist”, 102 (6), DOI10.1511/2014.111.460 [dostęp 2017-01-31] (ang.).
  8. Olive Jean Dunn, Multiple Comparisons among Means, „Journal of the American Statistical Association”, 56 (293), 1961, s. 52–64, DOI10.1080/01621459.1961.10482090, ISSN 0162-1459 [dostęp 2017-01-31].
  9. Daniël Lakens, Ellen R.K. Evers, Sailing From the Seas of Chaos Into the Corridor of Stability, „Perspectives on Psychological Science”, 9 (3), 2014, s. 278–292, DOI10.1177/1745691614528520 [dostęp 2017-01-31] (ang.).
  10. P. Armitage, C.K. McPherson, B.C. Rowe, Repeated Significance Tests on Accumulating Data, „Journal of the Royal Statistical Society. Series A (General)”, 132 (2), 1969, s. 235–244, DOI10.2307/2343787, JSTOR2343787 [dostęp 2017-01-31].
  11. Daniël Lakens, Performing high-powered studies efficiently with sequential analyses, „European Journal of Social Psychology”, 44 (7), 2014, s. 701–710, DOI10.1002/ejsp.2023, ISSN 1099-0992 [dostęp 2017-01-31] (ang.).
  12. Joseph P. Simmons, Leif D. Nelson, Uri Simonsohn, False-Positive Psychology: Undisclosed Flexibility in Data Collection and Analysis Allows Presenting Anything as Significant, Rochester, NY: Social Science Research Network, 23 maja 2011 [dostęp 2017-01-15].
  13. Jelte M. Wicherts i inni, Degrees of Freedom in Planning, Running, Analyzing, and Reporting Psychological Studies: A Checklist to Avoid p-Hacking, „Frontiers in Psychology”, 7, 2016, DOI10.3389/fpsyg.2016.01832, ISSN 1664-1078 [dostęp 2019-03-31] (ang.).
  14. Matthias Egger i inni, Bias in meta-analysis detected by a simple, graphical test, „British Medical Journal”, 315 (7109), 1997, s. 629–634, DOI10.1136/bmj.315.7109.629, ISSN 0959-8138, PMID9310563 [dostęp 2017-01-15] (ang.).
  15. Jonathan A.C Sterne, Matthias Egger, Funnel plots for detecting bias in meta-analysis, „Journal of Clinical Epidemiology”, 54 (10), s. 1046–1055, DOI10.1016/s0895-4356(01)00377-8.
  16. Uri Simonsohn, Joseph P. Simmons, Leif D. Nelson, Better P-Curves: Making P-Curve Analysis More Robust to Errors, Fraud, and Ambitious P-Hacking, A Reply to Ulrich and Miller, Rochester, NY: Social Science Research Network, 10 lipca 2015 [dostęp 2017-01-15].
  17. Uri Simonsohn, Just Post It: The Lesson from Two Cases of Fabricated Data Detected by Statistics Alone, Rochester, NY: Social Science Research Network, 29 stycznia 2013 [dostęp 2017-01-15].
  18. Joseph P. Simmons, Uri Simonsohn, Power Posing: P-Curving the Evidence, Rochester, NY: Social Science Research Network, 26 września 2016 [dostęp 2017-01-15].
  19. Megan L. Head i inni, The Extent and Consequences of P-Hacking in Science, „PLoS Biology”, 13 (3), 2015, DOI10.1371/journal.pbio.1002106, ISSN 1544-9173, PMID25768323, PMCIDPMC4359000 [dostęp 2017-01-15].
  20. Leslie K. John, George Loewenstein, Drazen Prelec, Measuring the Prevalence of Questionable Research Practices With Incentives for Truth Telling, „Psychological Science”, 23 (5), 2012, s. 524–532, DOI10.1177/0956797611430953 [dostęp 2017-01-31] (ang.).
  21. Christophe van den Bulte i inni, p-Hacking and False Discovery in A/B Testing, Rochester, NY, 11 grudnia 2018 [dostęp 2019-03-31] (ang.).
  22. Michael D. Jennions i inni, Evidence that nonsignificant results are sometimes preferred: Reverse P-hacking or selective reporting?, „PLOS Biology”, 17 (1), 2019, e3000127, DOI10.1371/journal.pbio.3000127, ISSN 1545-7885, PMID30682013, PMCIDPMC6364929 [dostęp 2019-03-31] (ang.).
  23. Anthony G. Heyes, Nikolai Cook, Abel Brodeur, Methods Matter: P-Hacking and Causal Inference in Economics, „IZA Discussion Paper”, Rochester, NY, 17 września 2018 [dostęp 2019-03-31] (ang.).