Eksploracja danych

Eksploracja danych, pozyskiwanie danych, drążenie danych, wydobywanie danych – jeden z etapów procesu uzyskiwania wiedzy z baz danych. Idea eksploracji danych polega na wykorzystaniu szybkości komputera do znajdowania ukrytych dla człowieka (właśnie z uwagi na ograniczone możliwości czasowe) prawidłowości w danych zgromadzonych w hurtowniach danych.

Istnieje wiele technik eksploracji danych, które wywodzą się z ugruntowanych dziedzin nauki, takich jak statystyka (statystyczna analiza wielowymiarowa) i uczenie maszynowe.

Techniki eksploracji danych

Techniki i metody służące eksploracji danych wywodzą się głównie z dziedziny badań nad sztuczną inteligencją. Główne przykłady stosowanych rozwiązań należą do następujących obszarów:

Metody przetwarzania

W eksploracji danych rozwijane są różne metody przetwarzania, różniące się zakresem zastosowań, stosowanymi algorytmami rozwiązań, sposobem prezentacji wyników. Wśród nich wyróżnia się:

  • streszczanie
  • poszukiwanie asocjacji
  • analiza jakościowa danych
  • analiza ilościowa danych
  • klasyfikacja
  • grupowanie

Obszar stosowania

Obszarów stosowania eksploracji danych jest wiele, obejmują one te miejsca, w których stosuje się systemy informatyczne, między innymi w celu gromadzenia pozyskanych danych w postaci baz danych. Jesteśmy świadkami prawdziwej eksplozji baz danych, mając na myśli ich liczbę i objętość. Ogromne zbiory danych gromadzone są w hurtowniach danych. Z powodu dużej prostoty konstruowania bazy danych oraz akceptowalnych cen, systemy gromadzące dane stosuje się prawie we wszystkich dziedzinach życia. Wszędzie tam natomiast, gdzie istnieje już baza danych, pojawia się potrzeba analizy tych danych w celu odkrycia nieznanej dotąd wiedzy. Dziedziny, w których szeroko stosuje się eksplorację danych, to technika, medycyna, astronomia, ekonomia, szeroko pojęty biznes.

Zastosowania KDD znajdują zastosowania przy:

  • eksploracji danych o ruchu internetowym
  • rozpoznawaniu sygnałów obrazu, mowy i pisma
  • wspomaganiu diagnostyki medycznej
  • badaniach genetycznych
  • analizie operacji bankowych
  • projektowaniu hurtowni danych
  • tworzeniu reklam skierowanych
  • prognozowaniu sprzedaży
  • wykrywaniu nadużyć
  • ocenie ryzyka kredytowego
  • segmentacji klientów.

Przykładem może być odkrycie w danych z supermarketu zależności polegającej na tym że klient, który kupuje szampana i kwiaty, kupuje zwykle również czekoladki.

Przykłady wizualizacji

Gęstość

Wykresy rozkładów empirycznych dla wybranych zmiennych predykcyjnych są tym lepsze im linie obrazujące poszczególne klasy są względem siebie znacząco przesunięte. W sytuacji, gdy się na siebie nakładają, praktycznie nie ma możliwości wyznaczenia do jakiej klasy należą.

Density Cauchy.png


Wykres pudełkowy

Celem obrazowania właściwości poszczególnych cech na wykresach pudełkowych jest wyłonienie takich zmiennych, które charakteryzują się największymi przesunięciami względem siebie kwantyli, wartości maksymalnych, minimalnych oraz median.

Michelsonmorley-boxplot.svg


Histogram

Histogramy dla wybranych zmiennych predykcyjnych są tym lepsze im słupki są bardziej zróżnicowane. W sytuacji, gdy się na siebie nakładają, praktycznie nie ma możliwości wyznaczenia do jakiej klasy należą.

Histogram example.svg


Co można odczytać z wykresów?

Tabelka przedstawia jakie dane można odczytać z poszczególnych wykresów.

GęstośćPudełkowyHistogram
KwantylNTN
MedianaNTN
MinimumTTT
MaksimumTTT
Wartość cechyTTT
LiczebnośćTNT
CzęstośćTNT
Wzajemna korelacja zmiennychTNT

Literatura

  • Hand David, Mannila Heikki, Smyth Padhraic, Eksploracja danych, WNT, Warszawa 2005, ​ISBN 83-204-3053-4
  • Daniel T. Larose, Odkrywanie wiedzy z danych, Wyd. Nauk. PWN, Warszawa 2006, ​ISBN 83-01-14836-5

Linki zewnętrzne

Media użyte na tej stronie

Tickmark icon.svg
Autor: MGalloway (WMF), Licencja: CC BY-SA 3.0
A tickmark icon included in the OOjs UI MediaWiki lib.
OOjs UI icon check.svg
Autor: MGalloway (WMF), Licencja: CC BY-SA 3.0
A tickmark icon included in the OOjs UI MediaWiki lib.
Density Cauchy.png
Autor: VincentBosch, Licencja: CC BY-SA 3.0
Density function of the Cauchy-distribution
Histogram example.svg
Example of histogram. A random sample of 100 observations from the normal distribution N(0,1).
Michelsonmorley-boxplot.svg
Boxplot representing Michelson's data on the speed of light. It consists of five experiments, each made of 20 consecutive runs.