Regresja (statystyka)

Regresja – metoda statystyczna pozwalająca na opisanie współzmienności kilku zmiennych przez dopasowanie do nich funkcji. Umożliwia przewidywanie nieznanych wartości jednych wielkości na podstawie znanych wartości innych.

Formalnie regresja to dowolna metoda statystyczna pozwalająca estymować warunkową wartość oczekiwaną zmiennej losowej, zwanej zmienną objaśnianą[1], dla zadanych wartości innej zmiennej lub wektora zmiennych losowych (tzw. zmiennych objaśniających[1]).

Użycie regresji w praktyce sprowadza się do dwóch faz:

  • konstruowanie modelu – budowa tzw. modelu regresyjnego, czyli funkcji opisującej, jak zależy wartość oczekiwana zmiennej objaśnianej od zmiennych objaśniających. Funkcja ta może być zadana nie tylko czystym wzorem matematycznym, ale także całym algorytmem, np. w postaci drzewa regresyjnego, sieci neuronowej itp. Model konstruuje się tak, aby jak najlepiej pasował do danych z próby, zawierającej zarówno zmienne objaśniające, jak i objaśniane (tzw. zbiór uczący). Mówiąc o wyliczaniu regresji ma się na myśli tę fazę.
  • stosowanie modelu (tzw. scoring) – użycie wyliczonego modelu do danych w których znamy tylko zmienne objaśniające, w celu wyznaczenia wartości oczekiwanej zmiennej objaśnianej.

Dział statystyki zajmujący się modelami i metodami regresji zwany jest analizą regresji. Regresja, w której występuje więcej niż jedna zmienna objaśniająca, zwana jest regresją wieloraką (ang. multiple regression).

Globalne modele parametryczne

W modelach parametrycznych ogólna postać modelu jest założona z góry, a celem procedury regresji jest dobranie takich jej parametrów, które definiowałyby funkcję możliwie dobrze odpowiadającą próbie uczącej.

Zwykle stosuje się tzw. globalne modele parametryczne, gdzie wartości współczynników są takie same dla dowolnych wartości zmiennych objaśniających.

Ogólna postać modelu

W zapisie formalnym model przybiera zwykle postać:

gdzie:

– wektor zmiennych objaśniających (predyktorów),
– zmienna objaśniana,
– wektor współczynników regresji (zwykle będących liczbami rzeczywistymi)
– funkcja regresji o wartościach w liczbach rzeczywistych,
– błąd losowy, o rozkładzie być może zależnym od przy czym oraz Dzięki temu

Niekiedy wprowadza się do modelu także błąd zmiennych objaśniających. Wzór zwykle przybiera wówczas formę:

Miara błędu

Celem konstrukcji modelu jest przybliżenie nieznanej funkcji przez jej estymator Sprowadza się to do takiego wyznaczenia wektora współczynników aby zminimalizować w zbiorze uczącym funkcję straty

gdzie jest ustaloną miarą odległości[2] między wartościami i (tzw. miara błędu).

Wybór miary bardzo wpływa na algorytm i wyniki regresji. Zwykle jako miarę błędów stosuje się sumę kwadratów różnic (błędów regresji):

gdyż wówczas obliczenia są najprostsze – dopasowanie modelu sprowadza się do zastosowania prostej matematycznie metody najmniejszych kwadratów. Ma to jednak swoją wadę – kwadrat błędów dużo silniej zależy od obserwacji dla których błąd jest największy niż od tych, do których model dobrze się dopasował[3]. Metoda najmniejszych kwadratów daje więc niedokładne lub wręcz zafałszowane wyniki, jeśli w zbiorze uczącym występują obserwacje zbyt dalekie od średniej, tzw. elementy odstające (np. pomyłki przy wprowadzaniu danych).

W związku z tym stosowane są także inne miary błędów, bardziej odporne, takie jak np. wartość bezwzględna różnicy.

Najpopularniejsze modele parametryczne

Regresja liniowa

Model regresji liniowej ma ogólną postać kombinacji liniowej wyrazów:

Opracowano wiele algorytmów obliczania współczynników modelu liniowego, takich jak analityczna metoda najmniejszych kwadratów, metoda największej wiarygodności, lub numeryczna metoda gradientu prostego. Minimalizacja obciążenia oszacowań nie zawsze jest jedynym pożądanym celem, co ilustruje zagadnienie kompromisu między obciążeniem a wariancją, i co motywuje np. stosowanie algorytmów z regularyzacją.

Regresja liniowa z przekształceniami

Regresja liniowa dopuszcza dowolne przekształcenia zmiennych – nawet jeśli odzwierciedla to nieliniowe zależności – dopóki całość pozostaje liniową kombinacją, np[4].

Regresja liniowa z interakcjami

Szczególnym przypadkiem regresji liniowej jest model z interakcjami zmiennych, wyrażonymi jako ich produkt, np.

Regresja nieliniowa

Regresja, w której postać modelu nie sprowadza się do liniowej kombinacji wyrazów[4].

Stosowane są różne modele, budowane na potrzeby konkretnego przypadku. Dla jednej zmiennej objaśniającej może to być na przykład:

Modele nieliniowe są trudniejsze w oszacowaniu, i często wymagają numerycznych przybliżeń.

Uogólnione modele liniowe (GLM)

W modelach tych przyjmuje się następujące założenia:

  • Zmienne objaśniające wpływają na zmienną objaśnianą tylko przez tzw. składnik systematyczny
gdzie oznacza transpozycję macierzy
  • Rozkład prawdopodobieństwa zmiennej objaśnianej jest określony przez tzw. składnik losowy modelu:
  • Wartość oczekiwana składnika losowego zależy od składnika systematycznego w sposób określony przez tzw. funkcję wiążącą

W zależności od wyboru funkcji wiążącej otrzymuje się różne modele.

Nieznane parametry są zwykle estymowane za pomocą metod największej wiarygodności, quasi-największej wiarygodności, lub metod bayesowskich.

Regresja logistyczna

Szczególny przypadek GLM, stosowany, gdy zmienna objaśniana przyjmuje tylko dwie wartości (zwykle oznaczane 0 i 1), np. mówi, czy prognozowane zdarzenie będzie miało miejsce. Funkcją wiążącą jest w tym przypadku logit.

Regresja nieparametryczna

Alternatywną koncepcją jest regresja nieparametryczna. Metody regresji nieparametrycznej nie zakładają, że estymowana funkcja jest znana z dokładnością do skończenie wielu estymowalnych parametrów. Tym samym są często bardziej elastyczne w poszukiwaniu rozwiązań. Z drugiej strony w regresji parametrycznej o wiele prostszy jest matematyczny opis modelu, co pozwala na przykład na łatwe wyznaczanie przedziałów ufności prognozowanej wartości. W regresji nieparametrycznej bywa to trudniejsze.

Krokowa konstrukcja modelu regresji

Metody regresji krokowej (ang. stepwise regression) są często stosowanym, ale problematycznym sposobem na wybranie zmiennych objaśniających do modelu. Statystycy odradzają ich używanie, zwłaszcza jeśli badacze nie są świadomi towarzyszącemu technice ryzyku błędów, i nie stosują przeciwdziałających mu poprawek. Regresja krokowa prowadzi m.in. do błędu nadmiernego dopasowania do danych uczących. Lepszymi narzędziami oceny i wyboru alternatywnych modeli są np. kryteria informacyjne AIC i BIC, lub sprawdzian krzyżowy, oraz korzystanie z takich metod jak regresja regularyzowana typu lasso[5][6][7][8].

Regresja krokowa postępująca

W tej wersji zmienne są kolejno dodawane do modelu.

Przykładowo może ona polegać w pierwszym kroku na wyborze do modelu tej zmiennej objaśniającej, która jest najsilniej skorelowana ze zmienną objaśnianą i wyznacza model o istotnych parametrach. W drugim kroku wybierana jest kolejna zmienna objaśniająca, której wartości są najsilniej skorelowane z resztami kroku pierwszego, a rozszerzony model charakteryzuje się istotnością wszystkich parametrów. Oprócz istotności parametrów bada się również istotność współczynnika determinacji. Procedura podlega zakończeniu, gdy zabraknie zmiennych objaśniających lub dołączenie nowej zmiennej do równania prowadzi do utraty waloru istotności przez parametry lub współczynnik determinacji.

Regresja krokowa wsteczna

Polega w pierwszym kroku na skonstruowaniu modelu zawierającego wszystkie potencjalne zmienne objaśniające, a następnie na stopniowym eliminowaniu zmiennych tak, aby utrzymać model z najwyższą wartością współczynnika determinacji przy zachowaniu istotności parametrów.

Istnieją też metody mieszane, w których algorytm zarówno dodaje, jak i usuwa zmienne w kolejnych krokach.

Zobacz też

Przypisy

  1. a b Zmienne objaśniające są też nazywane zmiennymi niezależnymi, a zmienna objaśniana – zmienną zależną. Może być to tyle mylące, że zmienne objaśniające wcale nie muszą być statystycznie (nie)zależne od siebie, czy od zmiennych objaśnianych; terminy „zależne” i „niezależne” wskazują jedynie na (nie)zależność funkcyjną.
  2. To nie jest metryka – miara nie musi być symetryczna i może zachodzić
  3. Podobna sytuacja z podobnymi konsekwencjami występuje w przypadku wariancji i odchylenia standardowego – zobacz sekcję Wrażliwość na błędy obserwacji w artykule „Odchylenie standardowe”.
  4. a b George Arthur Frederick Seber, Chris J. Wild, Nonlinear regression, New York: Wiley, 1989, s. 4, ISBN 0-471-61760-1, OCLC 18018980 [dostęp 2019-03-29].
  5. Peter L. Flom, David L. Cassell, Stopping stepwise: Why stepwise and similar selection methods are bad, and what you should use, „NESUG 2007 Proceedings”, 2007.
  6. Roger Mundry, Charles L. Nunn, Stepwise Model Fitting and Statistical Inference: Turning Noise into Signal Pollution, „The American Naturalist”, 173 (1), 2009, s. 119–123, DOI10.1086/593303, ISSN 0003-0147 [dostęp 2019-03-29] (ang.).
  7. Mark J. Whittingham i inni, Why do we still use stepwise modelling in ecology and behaviour?: Stepwise modelling in ecology and behaviour, „Journal of Animal Ecology”, 75 (5), 2006, s. 1182–1189, DOI10.1111/j.1365-2656.2006.01141.x [dostęp 2019-03-29] (ang.).
  8. Robert Tibshirani i inni, Least angle regression, „The Annals of Statistics”, 32 (2), 2004, s. 407–499, DOI10.1214/009053604000000067, ISSN 0090-5364 [dostęp 2019-03-29] (ang.).

Bibliografia

  • Jacek Koronacki, Jan Ćwik: Statystyczne systemy uczące się. Warszawa: Wydawnictwa Naukowo-Techniczne, 2005. ISBN 83-204-3157-3.