Wyszukiwarka internetowa

Wyszukiwarka internetowa – program komputerowy lub strona internetowa odnajdująca w internecie informacje według podanych przez użytkownika słów kluczowych lub wyrażeń sformułowanych w języku naturalnym^[1].

Umożliwia użytkownikom wyszukiwanie – co do zasady – wszystkich stron internetowych lub stron internetowych w danym języku za pomocą zapytania na jakikolwiek temat przez podanie słowa kluczowego, wyrażenia lub innej wartości wejściowej. W wyniku przedstawia odnośniki, pod którymi można znaleźć informacje związane z zadanym zapytaniem^[2].

Określenie „wyszukiwarka” stosowane jest w odniesieniu do:

stron internetowych serwisów wyszukujących – czyli implementacji oprogramowania wyszukującego działającego z interfejsem WWW ogólnodostępnym dla internautów
oprogramowania przeznaczonego do indeksowania i wyszukiwania informacji w Internecie.

Wyszukiwarki gromadzą w sposób automatyczny informacje o dokumentach tekstowych oraz plikach zgromadzonych w sieci (z obszaru wyznaczonego do indeksowania).

Historia wyszukiwarek

Historia wyszukiwarek na świecie

1990 Archie
1991
- Veronica
- JugHead
1992 WWW Wanderer
1994
- Yahoo!
- WebCrawler
- Lycos
1995
- AltaVista
- MetaCrawler
- Excite
1996
- Google na Uniwersytecie Stanforda (pod adresem: http://google.stanford.edu)
- HotBot
1997
- Yandex
- Northern Light
1998 Google (Google.com)
2000 Baidu
2004 hakia
2005 MSN Search
2006 Google custom search engine
2007 Windows Live Search
2008
- Cuil
- Duck Duck Go
- Wikia Search
2009
- Bing
- Wolfram Alpha
2013 Qwant
2020 Petal Search
2021 Brave Search

Historia wyszukiwarek w Polsce

1991 Emulti
1994 Polski Archie
1995 Polski Infoseek ICM
1996
- Netoskop
- Sieciowid
- Infoseek Onet
- polska AltaVista
1997 Sieciowid kończy działalność
2000 Arena.pl przejmuje zasoby Polskiego Infoseeka
2001
NetSprint
- AltaVista Interia
2002 polska wersja Google
2003
- Szukacz
- Polski Yandex
2005
- koniec NEToskopu
- koniec polskiej wersji wyszukiwarki Yandex
2008
- koniec Infoseek Onet, wyszukiwarkę zastąpiło Google
- koniec AltaVista Interia, wyszukiwarkę zastąpiło Google
2011
- Swoper
2012
- Nekst, polska wyszukiwarka semantyczna^[3]^[4]
2014
- Xtem Search (archiwum), w języku angielskim

Podział wyszukiwarek

Wyszukiwarki oparte na analizie treści strony

Ponieważ Internet rośnie znacznie szybciej niż jakakolwiek grupa ludzi może go katalogować oraz z powodu wad katalogów (np. pod danym hasłem może znajdować się tysiące stron), powstały wyszukiwarki, które przeszukują Internet analizując zawartość stron. Kiedy użytkownik poda wyszukiwarce zapytanie, ona odpowie mu łączami do stron, które uzna, w zależności od użytego algorytmu, za najbardziej odpowiednie.

Wyszukiwarki oparte na tej zasadzie mogą objąć znacznie większą część sieci niż katalogi. Niestety są one bardzo podatne na nadużycia, przez co użytkownik zamiast użytecznych informacji dostaje linki na strony niemające nic wspólnego z jego zapytaniem. Szczególnie wyspecjalizowały się w tym strony pornograficzne.

Wyszukiwarki oparte na analizie topologii sieci

Żeby przeciwdziałać temu, stosuje się wyszukiwarki, w których na szczycie list pojawiają się strony, do których odnosi się najwięcej stron dotyczących danego zapytania. Tak więc stronę uważa się za odpowiadającą zapytaniu „britney spears”, jeśli wiele stron na temat „britney spears” do niej linkuje. Strona porno z nagimi zdjęciami Britney, niezależnie od własnej treści i niezależnie od całkowitej liczby linków (głównie z innych stron porno) na nią, nie będzie w ten sposób uznana za związaną z tematem. Natomiast jeśli zada się zapytanie „britney spears nude”, strona ta zostanie uznana za istotną, ponieważ linkuje na nią wiele stron o tematyce „nude”.

Początkowa istotność na podstawie prostej heurystyki, po czym zwykle używa się algorytmu losowego skakania po linkach. Pierwszą wyszukiwarką, która zastosowała zaawansowane algorytmy analizy topologii sieci był Google.

Wyszukiwarki oparte na analizie topologicznej są często uważane za bardzo odporne na nadużycia. W rzeczywistości stosunkowo częstym atakiem są spam-systemy automatycznej wymiany linków. Inną formą ataku jest stworzenie dużej ilości gęsto linkowanych stron, z czego wszystkie na ten sam temat. Jest to jednak zadanie trudne i wymagające dużego nakładu pracy, a modyfikując heurystykę wartości początkowych można znacznie ograniczyć ten proceder, którego skala na razie jest minimalna.

Wyszukiwarki oparte na zasadzie aukcji miejsc

Osobnym pomysłem jest wprowadzony przez Overture system, gdzie strony płacą wyszukiwarce kilka centów za każde kliknięcie, przy czym miejsca są licytowane – strona która daje więcej za kliknięcie znajdzie się wyżej na liście rezultatów. Pozycje płatne są oznaczone jako takie, razem z ceną. System ten jest korzystny dla właścicieli stron – płacą oni tylko za wejścia nie za wyświetlenia. Twórcy twierdzą, że jest on również korzystny dla użytkownika, gdyż tylko strony, które oferują coś użytecznego z danej dziedziny mogą sobie pozwolić na taką reklamę. Z drugiej jednak strony wiele użytecznych stron jest niekomercyjnych, a nawet przy stronach komercyjnych wyniki będą często nieoptymalne – np. na taką reklamę nie mogą sobie pozwolić strony, które mają niskie marże i oferują produkty po niskich cenach, a jedynie te, które mają wysokie marże i oferują produkty drożej.

Reklamy w wyszukiwarkach

Wyszukiwarki stanowią wymarzony cel reklamodawców, ponieważ mają oni praktycznie pełną gwarancję, że osoba wyszukująca dane hasło jest nim zainteresowana. Tak więc większość wyszukiwarek oferuje reklamy zależne od treści zapytań (np. Google Ads oferowany przez Google). Nie zawsze są one właściwie oddzielone od wyników poszukiwań, co stało się źródłem protestów grup ochrony praw konsumentów oraz kilku do dziś nierozstrzygniętych spraw sądowych. Ze względu na szeroką krytykę procederu nieoddzielania reklam od wyników, większość wyszukiwarek z niego zrezygnowała i wyraźnie zaznacza teraz reklamy.

Oprogramowanie wyszukiwarek

Oprogramowanie wyszukiwarek to zestaw programów, modułów, z których każdy ma oddzielne zadanie. W skład zestawu wchodzą takie elementy jak:

Crawler, Robot, Pająk, Spider, Bot – moduły pobierające dokumenty z sieci
Indekser – moduł analizujący i oceniający
Searcher – interfejs wyszukujący wyszukiwarki/podsystem odpowiadający na zapytania/analizator zapytań oraz moduł prezentacji wyników

Oraz dochodzą do tego:

programy konwersji dokumentów (np. PDF)
programy archiwizujące repozytorium (najczęściej w postaci skompresowanej)
programy analizy i wykrywania technik niepożądanych (spam)
moduły administracyjne

Współczesne oprogramowanie wyszukiwarek jest wysoce skomplikowanym systemem rozproszonym uruchamianym zwykle w wielu oddzielnych etapach na tysiącach oddzielnych komputerów – zarówno ze względu na rozmiar i skalę przeszukiwanej sieci, jak i ze względów na poprawienie dostępności usługi w wypadku awarii poszczególnych komponentów.

Algorytmy stosowane w wyszukiwarkach

Algorytmy oceny istotności (tzw. relewancji) dokumentu względem szukanej frazy – algorytmy oceny zawartości strony

Binarne
Ważenie częstością słów TF – częstość wystąpień słowa
Częstość słów – odwrotna częstość w dokumentach TFIDF – model wektorowy
PageRank
In-degree
Metoda Robertsona i Sparck-Jones (1997)
Okapi BM-25 TF – Metoda Robertsona (1994)
KL-Dir Model Markova
Metoda bazowa B
Liczba wizyt (tzw. klikohit)
HITS
PHITS
PLSA
PLSA/PHITS

Poprawa istotności oraz jakości wyników wyszukiwania

grupowanie (klasteryzacja oraz automatyczne łączenie wyników w łatwo przeszukiwalne kategorie)
dostosowanie wyniku do osoby (personalizacja)
tezaurus (użycie synonimów), podpowiedzi, weryfikacja pisowni, odmiana przez przypadki, wyszukiwanie słów o podobnym rdzeniu lub z pomyłkami
stop-words (ignorowanie krótkich powszechnie występujących słów, takich jak spójniki i zaimki, np. „i”, „z”).

Pozycjonowanie stron w wyszukiwarkach

Cloaking
Doorway page Jump Pages, Portal Pages
keyword stuffing (meta tag stuffing)
spamdexing
ukryty tekst
link farm Farmy linków
biasing
client pull (odświeżanie)

Zobacz też

optymalizacja dla wyszukiwarek internetowych
katalog stron WWW
Robots Exclusion Protocol

Przypisy

↑ Wiesław Babik: Słownik encyklopedyczny informacji, języków i systemów informacyjno-wyszukiwawczych. Warszawa: Stowarzyszenie Bibliotekarzy Polskich, 2002, s. 305, seria: Nauka, Dydaktyka, Praktyka. ISBN 83-87629-84-7.
↑ Dyrektywa Parlamentu Europejskiego i Rady (UE) 2016/1148 z dnia 6 lipca 2016 r. w sprawie środków na rzecz wysokiego wspólnego poziomu bezpieczeństwa sieci i systemów informatycznych na terytorium Unii CELEX: 32016L1148
↑ Wyszukiwarka NEKST. [dostęp 2018-03-20].
↑ O wyszukiwarce NEKST. [dostęp 2018-03-20].

Linki zewnętrzne

HermanH. Tavani HermanH., Search Engines and Ethics, [w:] Stanford Encyclopedia of Philosophy [online], CSLI, Stanford University, 8 lipca 2016, ISSN 1095-5054 [dostęp 2017-06-07] (ang.). (Wyszukiwarki internetowe a etyka)

[1] Wiesław Babik: Słownik encyklopedyczny informacji, języków i systemów informacyjno-wyszukiwawczych. Warszawa: Stowarzyszenie Bibliotekarzy Polskich, 2002, s. 305, seria: Nauka, Dydaktyka, Praktyka. ISBN 83-87629-84-7.

[2] Dyrektywa Parlamentu Europejskiego i Rady (UE) 2016/1148 z dnia 6 lipca 2016 r. w sprawie środków na rzecz wysokiego wspólnego poziomu bezpieczeństwa sieci i systemów informatycznych na terytorium Unii CELEX: 32016L1148

[3] Wyszukiwarka NEKST. [dostęp 2018-03-20].

[4] O wyszukiwarce NEKST. [dostęp 2018-03-20].

[1]

[2]

[3]

[4]

Navigation

Nawigacja

Portale tematyczne