Regresja liniowa
Regresja liniowa – w modelowaniu statystycznym, metody oparte o liniowe kombinacje zmiennych i parametrów dopasowujących model do danych. Dopasowana linia lub krzywa regresji reprezentuje oszacowaną wartość oczekiwaną zmiennej przy konkretnych wartościach innej zmiennej lub zmiennych W najprostszym przypadku dopasowana jest stała lub funkcja liniowa, na przykład:
Zmienna jest tradycyjnie nazywana zmienną objaśnianą lub zależną. Zmienne nazywa się zmiennymi objaśniającymi lub niezależnymi. Zarówno zmienne objaśniane i objaśniające mogą być wielkościami skalarnymi lub wektorami.
Regresja w ogólności to problem estymacji warunkowej wartości oczekiwanej. Regresja liniowa jest nazywana liniową, gdyż zakładanym modelem zależności między zmiennymi zależnymi a niezależnymi jest przekształcenie liniowe (afiniczne) względem parametrów, reprezentowane w przypadku wielowymiarowym przez macierz.
Model regresji liniowej
Niech dany będzie zbiór danych zaobserwowanych Model regresji liniowej zakłada, że istnieje liniowa (afiniczna) relacja pomiędzy zmienną zależną a wektorem regresorów Zależność ta jest modelowana przez uwzględnienie składnika losowego (błędu) który jest zmienną losową. Dokładniej, model ten jest postaci
gdzie oznacza transpozycję, tj. jest iloczynem skalarnym wektorów oraz
Powyższe równań można zapisać w sposób macierzowy:
gdzie:
Najczęściej wykorzystuje się do tego celu klasyczną metodę najmniejszych kwadratów i jej pochodne. Metoda ta jest najstarsza i najłatwiejsza do zastosowania, choć posiada wady (np. niewielką odporność na elementy odstające), które udało się usunąć w innych, mniej rozpropagowanych metodach. Są to odporne metody statystyczne, do których należy regresja medianowa i algorytmy z regularyzacją.
Niedostateczność prostych algorytmów w ogólnym przypadku pokazuje m.in. kwartet Anscombe’a – specjalnie przygotowany zestaw czterech zbiorów danych, które mają niemal tożsame wskaźniki statystyczne (średnią i wariancję w kierunku X i Y, współczynnik korelacji oraz prostą regresji) mimo znacząco różnego charakteru danych.
Testy oparte o model liniowy
Wiele klasycznych narzędzi statystycznych opatrzonych własnymi nazwami, takich jak współczynnik korelacji Pearsona, ANOVA czy test t Studenta jest szczególnymi przypadkami lub aspektami modelu liniowego. Dotyczy to również licznych testów nieparametrycznych, w których przypadku zamiast surowych wartości zmiennych stosuje się rangi obserwacji[1].
Historycznie, klasyczne narzędzia stanowiły proste, gotowe do użycia modele z dobrze opisanymi właściwościami. W wielu przypadkach wymagają one jedynie obliczenia kilku średnich arytmetycznych, ignorując tym samym większość informacji zawartych w danych. W ortodoksyjnym podejściu częstościowym test realizuje się następnie z reguły przez określenie prawdopodobieństwa danych przy założeniu modelu zerowego: o odpowiedniej dla sytuacji strukturze, ale zakładającego zerowe zależności. Modele zerowe dla klasycznych testów mają dobrze znane rozkłady prawdopodobieństwa, i wykonanie testu polegało na odnalezieniu odpowiedniej wartości w standardowej tabeli w podręczniku[2][3].
Prostota technik pozwoliła na ich łatwe i powszechne stosowanie w epoce niskiej dostępności i mocy komputerów. Zwyczaj ten ukrywa jednak ich strukturalną i poznawczą banalność, i zachęca do zaniedbywania surowych założeń warunkujących ich trafność. Współcześnie statystycy mogą tworzyć i stosować modele oraz testy dużo dokładniej dopasowane do konkretnych zastosowań i ograniczeń[2][3][4][5][6].
Poniższa tabela – oparta o pracę Lindeløva[7] – przedstawia równoważne klasycznym narzędziom modele liniowe, gdzie reprezentuje zmienne typu dummy, przyjmujące wartości 1 lub 0 dla obserwacji należących (lub nie) do konkretnej grupy obserwacji, to funkcja mapująca surowe wartości zmiennych na ich relatywne rangi (w niektórych przypadkach ze znakiem, rozróżniając wartości ujemne i dodatnie), a to wyraz błędu.
Nazwa zwyczajowa | Równoważny model liniowy | Opis słowny |
---|---|---|
test t Studenta dla jednej próby | Czy średnia (lub mediana) obserwacji jest ich dobrym predyktorem? | |
test Wilcoxona dla jednej próby | ||
test t Studenta dla par obserwacji | Czy średnia (lub mediana) różnic obserwacji jest ich dobrym predyktorem? | |
test Wilcoxona dla par obserwacji | ||
korelacja r Pearsona | Czy model liniowy jest dobrym predyktorem obserwacji (lub ich rang)? | |
korelacja Spearmana | ||
test Studenta dla dwóch prób | Czy średnie grup są dobrym predyktorem obserwacji (lub ich rang)? | |
test Manna-Whitneya | ||
jednoczynnikowa ANOVA | ||
test Kruskala-Wallisa | ||
jednoczynnikowa ANCOVA | Czy średnie grup oraz ich liniowy model są dobrym predyktorem obserwacji (lub ich rang)? | |
dwuczynnikowa ANOVA | Czy średnie grup oraz ich iloczynów są dobrym predyktorem obserwacji? |
Przypisy
- ↑ W.J. Conover , Ronald L. Iman , Rank Transformations as a Bridge Between Parametric and Nonparametric Statistics, „The American Statistician”, 35 (3), 1981, s. 124–129, DOI: 10.2307/2683975, ISSN 0003-1305, JSTOR: 2683975 [dostęp 2019-03-29] .
- ↑ a b William W. Rozeboom , The fallacy of the null-hypothesis significance test., „Psychological Bulletin”, 57 (5), 1960, s. 416–428, DOI: 10.1037/h0042040, ISSN 0033-2909 [dostęp 2019-03-29] (ang.).
- ↑ a b Gerd Gigerenzer , Mindless statistics, „The Journal of Socio-Economics”, 33 (5), 2004, s. 587–606, DOI: 10.1016/j.socec.2004.09.033 [dostęp 2019-03-29] (ang.).
- ↑ Andrew Gelman , Analysis of variance – why it is more important than ever, „The Annals of Statistics”, 33 (1), 2005, s. 1–53, DOI: 10.1214/009053604000001048, ISSN 0090-5364 [dostęp 2019-03-29] (ang.).
- ↑ 5: Fitting models to data, [w:] Russell A. Poldrack , Statistical Thinking for the 21st Century, 2019 [dostęp 2019-03-29] [zarchiwizowane z adresu 2019-03-29] .
- ↑ William W. Rozeboom , Good Science Is Abductive, not Hypothetico-Deductive, [w:] Lisa L. Harlow, Stanley A. Mulaik, James H. Steiger (red.), What If There Were No Significance Tests?, 1997 .
- ↑ Jonas Kristoffer Lindeløv , Common statistical tests are linear models (or: how to teach stats), Tabela udostępniona na licencji CC-BY, lindeloev.github.io, 2019 [dostęp 2019-03-29] .
Media użyte na tej stronie
Autor: Jaszczuroczłek, Licencja: CC BY-SA 4.0
Przykład regresji liniowej, oparty o dane dot. samochodów w USA. Wygenerowane przy pomocy poniższego kodu języka R:
library(ggplot2)
library(ggthemes)
ggplot(mpg, aes(x = displ, y = cty/2.352)) +
geom_jitter(width = 0.5, height = 0.5) + stat_smooth(method = "lm", se=F) +
scale_color_colorblind() + theme_tufte(base_size=12, base_family="sans serif") +
labs(x = "objętość skokowa silnika (l)", y = "zużycie paliwa (km/l)")
ggsave("test.svg", width=4, height=4)
Autor:
- Anscombe.svg: Schutz
- (label using subscripts): Avenue
This graphic represents the four datasets defined by Francis Anscombe for which some of the usual statistical properties (mean, variance, correlation and regression line) are the same, even though the datasets are different.
Reference:
- Anscombe, Francis J. (1973) Graphs in statistical analysis. American Statistician, 27, 17–21.