Robot internetowy

Robot internetowy, robot indeksującyprogram zbierający informacje o strukturze, stronach i treściach znajdujących się w internecie[1]. Efekty pracy robota mogą być różne, w zależności od jego przeznaczenia, na przykład może on skanować wybrane witryny w celu zbudowania bazy adresów e-mail, natomiast roboty zbierające treści dla wyszukiwarek działają szerzej:

  • badają zawartość witryny,
  • sprawdzają kod strony,
  • zbierają dodatkowe informacje o stronie,
  • monitorują aktualizacje,
  • tworzą mirrory stron.

W przypadku robota Google tzn. Googlebota mówi się o robotach wykonujących „Google's fresh crawl” i „Google's deep crawl” lub „Google's main crawl”. „Fresh crawl” jest wykonywany często, nawet kilka razy dziennie - robot najprawdopodobniej sprawdza co się zmieniło na stronie, „deep crawl” głębokie indeksowanie najprawdopodobniej polega na pobieraniu większej ilości danych z witryny i odbywa się kilka razy w miesiącu[2].

Nazwy używane wymiennie

  • bot indeksujący
  • pająk, spider
  • pełzacz, web crawler
  • web wanderer

Blokada dostępu dla robota internetowego

Administrator strony internetowej może zablokować dostęp robotom indeksującym. Wówczas adres URL nie zostanie zeskanowany, co oznacza, że nie będzie widoczny w indeksie oraz wynikach wyszukiwania wyszukiwarki, takiej jak Google. Blokada dostępu dla robota odbywa się poprzez konfigurację pliku robots.txt[3].

Przypisy

  1. Controlling Crawling & Indexing: An SEO’s Guide to Robots.txt & Tags, Oncrawl, 19 lutego 2019 [dostęp 2022-06-27] (ang.).
  2. Co to jest Googlebot | Centrum wyszukiwarki Google | Dokumentacja, Google Developers [dostęp 2022-06-27] (pol.).
  3. Co to jest plik robots.txt? | Centrum wyszukiwarki Google | Dokumentacja, Google Developers [dostęp 2022-06-27] (pol.).

Linki zewnętrzne