Obserwacja odstająca

Obserwacja odstająca, element odstający (ang. outlier) – obserwacja relatywnie odległa od pozostałych elementów próby^[1]. Innymi słowy, posiadająca nietypową wartość zmiennej niezależnej (objaśniającej) lub nietypowe wartości obydwu zmiennych – zależnej (objaśnianej) i objaśniającej (objaśniających w analizie regresji wielokrotnej). Oznacza to, że związek między X_i a Y_i dla danej obserwacji może być inny niż dla reszty obserwacji w zbiorze danych.

Obserwacje odstające mogą odzwierciedlać rzeczywisty rozkład lub być rezultatem przypadku, ale mogą świadczyć też o błędnym pomiarze czy pomyłkach we wprowadzaniu informacji do bazy danych, itp. Duża liczba elementów odstających może też być sygnałem dobrania złego modelu.

Obserwacje odstające powstałe na skutek błędów w danych utrudniają i w skrajnym przypadku uniemożliwiają analizę. Szczególnie mało odporne na nie są metody i współczynniki bazujące na założeniu rozkładu normalnego i zależnościach liniowych, takie jak korelacja Pearsona, regresja liniowa, klasyczna analiza korespondencji, itp. Jeden element odstający może całkowicie zmienić wartość i znak korelacji, nawet z 0,9 do -0,9.

Konieczne jest więc albo usuwanie obserwacji odstających, albo stosowanie odpornych metod statystycznych (ang. robust), np. metod rangowych. Przykładowo zamiast zwykłej korelacji można stosować korelację rangową Spearmana albo tau Kendalla.

W przypadku regresji liniowej wielokrotnej stosuje się testy diagnostyczne wykrywające obserwacje wpływowe oraz obserwacje wysokiej dźwigni. Są to najczęściej analiza reszt standaryzowanych, odległość Mahalanobisa oraz odległość Cooka^[2]. Ich metodologia jest najczęściej zbliżona: w regresji liniowej prostej to odległość danej obserwacji od średniej wartości tej zmiennej. W regresji wielokrotnej obserwacje nietypowe wyznacza odległość problematycznej obserwacji od punktu średnich wartości wszystkich zmiennych objaśniających.

Bibliografia

Jacek Koronacki, Jan Mielniczuk: Statystyka dla studentów kierunków technicznych i przyrodniczych. Warszawa: WNT, 2006, s. 289,304. ISBN 83-204-3242-1.

Zobacz też

Przypisy

↑ Frank E.F.E. Grubbs Frank E.F.E., Procedures for Detecting Outlying Observations in Samples, „Technometrics”, 11 (1), 1969, s. 1–21, DOI: 10.1080/00401706.1969.10490657, ISSN 0040-1706 [dostęp 2019-04-05] (ang.).
↑ Agnieszka Brzezińska: Analiza regresji – część III (pol.). [dostęp 2016-01-15].

[1] Frank E.F.E. Grubbs Frank E.F.E., Procedures for Detecting Outlying Observations in Samples, „Technometrics”, 11 (1), 1969, s. 1–21, DOI: 10.1080/00401706.1969.10490657, ISSN 0040-1706 [dostęp 2019-04-05] (ang.).

[2] Agnieszka Brzezińska: Analiza regresji – część III (pol.). [dostęp 2016-01-15].

[1]

[2]

Navigation

Nawigacja

Portale tematyczne

Obserwacja odstająca

Bibliografia

Zobacz też

Przypisy