Odległość Mahalanobisa

Odległość Mahalanobisa – odległość między dwoma punktami w wielowymiarowej przestrzeni różnicująca wkład poszczególnych składowych współrzędnych punktów oraz wykorzystująca korelacje między nimi. Znajduje ona zastosowanie w statystyce, przy wyznaczaniu podobieństwa między nieznanym wektorem losowym a wektorem ze znanego zbioru. Zdefiniowana przez Prasantę Chandrę Mahalanobisa w 1936 roku.

Definicja

Dane mamy 2 wektory losowe w przestrzeni oraz pewną symetryczną, dodatnio określoną macierz Odległość Mahalanobisa zdefiniowana jest jako:

Interpretacja

Odległość Mahalanobisa stosuje się w analizie skupień. Mając dany zbiór punktów tworzących pewną klasę, możemy wyznaczyć dla niego wektor średni oraz macierz kowariancji które odzwierciedlają pewien charakter tej klasy. Badając przynależność nieznanego wektora losowego do danej klasy, mierzy się jego podobieństwo do wektora uwzględniając przy tym informację o wariancjach poszczególnych składowych oraz korelacjach między nimi. Miarą takiego podobieństwa jest odległość Mahalanobisa, nazywana ważoną odległością euklidesową, przy czym macierzą wag jest

Rozważmy trzy przypadki różnych zbiorów danych:

Przypadek 1

Poszczególne składowe w zbiorze mają równe wariancje (można przyjąć że są one równe 1) i nie są skorelowane. Wówczas macierz kowariancji jest macierzą jednostkową, a odległość Mahalanobisa jest równa odległości euklidesowej:

Punkty o identycznej odległości od pewnego danego punktu centralnego tworzą na płaszczyźnie okrąg, a w przestrzeni o trzech lub więcej wymiarach odpowiednio sferę i hipersferę.

Przypadek 2

Składowe wektora losowego nie są skorelowane, lecz mają różne wariancje: Aby znormalizować poszczególne składowe należy je podzielić przez odpowiadające im wariancje:

gdzie jest macierzą diagonalną

Punkty o identycznej odległości tworzą na płaszczyźnie elipsę, a w przestrzeni trójwymiarowej elipsoidę, przy czym osie utworzonej figury są równoległe do osi układu współrzędnych.

Przypadek 3

Składowe mają różne wariancje i są skorelowane: Odpowiada to pełnej macierzy kowariancji a utworzona przez punkty o tej samej odległości elipsa jest obrócona o pewien kąt względem osi układu współrzędnych. Obrót ten jest dany przez macierz wektorów własnych macierzy zaś długości półosi hiper-elipsoidy są określone przez odwrotności pierwiastków kwadratowych jej wartości własnych

Wartości własne spełniają równanie charakterystyczne, które w ogólności dla macierzy symetrycznej kwadratowej rozmiaru [ x ] sprowadza się do poszukiwania pierwiastków wielomianu tego stopnia.

Zastosowania

  • Kwadrat odległości Mahalanobisa występuje w wykładniku wielowymiarowego rozkładu Gaussa.
  • W zagadnieniach grupowania danych, np. klasteryzacji rozmytej, odległość Mahalanobisa wykorzystana jest do określania kształtu grupy (klastra). Przykładem jest algorytm GK[1] (Gustaffsona-Kessela).

Przypisy

  1. D.E. Gustafson, W.C. Kessel, Fuzzy clustering with a fuzzy covariance matrix, IEEE Conference on Decision and Control including the 17th Symposium on Adaptive Processes, 1978, 17, s. 761–766.

Media użyte na tej stronie

MahalanobisDist2.png
(c) Piotrg at pl.wikipedia, CC-BY-SA-3.0
Odległość Mahalanobisa dla danych skorelowanych i różnych wariancjach
MahalanobisDist1.png
(c) Piotrg z polskiej Wikipedii, CC-BY-SA-3.0
Odległość Mahalanobisa dla danych nieskorelowanych o różnych wariancjach
MahalanobisDist0.png
(c) Piotrg at pl.wikipedia, CC-BY-SA-3.0
Odległość Mahalanobisa dla danych nieskorelowanych, o równych wariancjach