Kwartet Anscombe’a

Wszystkie cztery zestawy danych wydają się być identyczne, jeżeli weźmiemy pod uwagę ich charakterystykę statystyczną, ale znacznie różnią się od siebie w ujęciu graficznym

Kwartet Anscombe'a to zestaw czterech zestawów danych o identycznych cechach statystycznych, takich jak średnia arytmetyczna, wariancja, współczynnik korelacji czy równanie regresji liniowej, jednocześnie wyglądających zgoła różnie przy przedstawieniu graficznym. Układ tych danych został stworzony w 1973 roku przez brytyjskiego statystyka Francisa Anscombe'a aby ukazać znaczenie graficznej reprezentacji danych przy okazji ich analizy statystycznej.

Cechy układów

CechaWartość
Średnia arytmetyczna zmiennej x9
Wariancja zmiennej x11
Średnia arytmetyczna zmiennej y7.50 (identyczna do dwóch cyfr po przecinku)
Wariancja zmiennej y4.122 lub 4.127 (identyczna do trzech cyfr po przecinku)
Współczynnik korelacji pomiędzy zmiennymi0.816 (identyczny do trzech cyfr po przecinku)
Równanie regresji liniowej (identyczny do kolejno: dwóch i trzech miejsc po przecinku)
Współczynnik determinacji R²0,666 (różnica pojawia się dopiero na czwartym miejscu po przecinku)

Dane wejściowe

Poniższa tabela zawiera dane wejściowe użyte przez Anscombe'a do przedstawienia problemu.

Kwartet Anscombe'a
IIIIIIIV
xyxyxyxy
10.08.0410.09.1410.07.468.06.58
8.06.958.08.148.06.778.05.76
13.07.5813.08.7413.012.748.07.71
9.08.819.08.779.07.118.08.84
11.08.3311.09.2611.07.818.08.47
14.09.9614.08.1014.08.848.07.04
6.07.246.06.136.06.088.05.25
4.04.264.03.104.05.3919.012.50
12.010.8412.09.1312.08.158.05.56
7.04.827.07.267.06.428.07.91
5.05.685.04.745.05.738.06.89

Bibliografia

  • F.J. Anscombe, "Graphs in Statistical Analysis," American Statistician, 27 lutego 1973, s. 17-21.
  • Tufte, Edward R. (2001). The Visual Display of Quantitative Information, 2nd Edition, Cheshire, CT: Graphics Press. ISBN 0-9613921-4-2
  • Sangit Chatterjee and Aykut Firat (2007). "Generating Data with Identical Statistics but Dissimilar Graphics: A Follow up to the Anscombe Dataset", American Statistician, 61(3), 248-254.

Media użyte na tej stronie

Anscombe's quartet 3.svg
Autor: , Licencja: CC BY-SA 3.0

This graphic represents the four datasets defined by Francis Anscombe for which some of the usual statistical properties (mean, variance, correlation and regression line) are the same, even though the datasets are different.

Reference:

  • Anscombe, Francis J. (1973) Graphs in statistical analysis. American Statistician, 27, 17–21.