Robot internetowy
Robot internetowy, robot indeksujący – program zbierający informacje o strukturze, stronach i treściach znajdujących się w internecie[1]. Efekty pracy robota mogą być różne, w zależności od jego przeznaczenia, na przykład może on skanować wybrane witryny w celu zbudowania bazy adresów e-mail, natomiast roboty zbierające treści dla wyszukiwarek działają szerzej:
- badają zawartość witryny,
- sprawdzają kod strony,
- zbierają dodatkowe informacje o stronie,
- monitorują aktualizacje,
- tworzą mirrory stron.
W przypadku robota Google tzn. Googlebota mówi się o robotach wykonujących „Google's fresh crawl” i „Google's deep crawl” lub „Google's main crawl”. „Fresh crawl” jest wykonywany często, nawet kilka razy dziennie - robot najprawdopodobniej sprawdza co się zmieniło na stronie, „deep crawl” głębokie indeksowanie najprawdopodobniej polega na pobieraniu większej ilości danych z witryny i odbywa się kilka razy w miesiącu[2].
Nazwy używane wymiennie
- bot indeksujący
- pająk, spider
- pełzacz, web crawler
- web wanderer
Blokada dostępu dla robota internetowego
Administrator strony internetowej może zablokować dostęp robotom indeksującym. Wówczas adres URL nie zostanie zeskanowany, co oznacza, że nie będzie widoczny w indeksie oraz wynikach wyszukiwania wyszukiwarki, takiej jak Google. Blokada dostępu dla robota odbywa się poprzez konfigurację pliku robots.txt[3].
Przypisy
- ↑ Controlling Crawling & Indexing: An SEO’s Guide to Robots.txt & Tags, Oncrawl, 19 lutego 2019 [dostęp 2022-06-27] (ang.).
- ↑ Co to jest Googlebot | Centrum wyszukiwarki Google | Dokumentacja, Google Developers [dostęp 2022-06-27] (pol.).
- ↑ Co to jest plik robots.txt? | Centrum wyszukiwarki Google | Dokumentacja, Google Developers [dostęp 2022-06-27] (pol.).
Linki zewnętrzne
- The Web Robots FAQ (ang.)
- Robots Exclusion Opis zasad sterowania robotem na własnej stronie (ang.)
- The Web Robots Database Lista aktywnych działających robotów sieciowych (ang.)