Crawler (nebo jinými slovy nazývaný webový robot, nebo pavouk) je automatizovaný program, nebo skript, který prochází webové stránky na internetu, a následně o nich shromažďuje informace.
Crawler systematicky přistupuje k jednotlivým webovým stránkám podle zadaných pravidel, sleduje odkazy a kopíruje obsah těchto stránek, aby je mohl zpracovat nebo indexovat.
Tyto pravidla o procházení našeho webu můžeme sami upravit pomocí souboru robots.txt (pravidla v souboru určují, které části webu mohou, nebo nemohou crawleři procházet).
Nastavením těchto pravidel může být výhodné především z hlediska SEO, protože díky tomu můžeme zakázat indexaci zbytečných stránek, jako je třeba stránka 404, archivy, nebo například stránky vytvořené pouze pro naše testování.
Jak crawler funguje?
Crawler začíná procházet web tím, že navštíví určitou URL adresu. Na této stránce vyhledá odkazy na další stránky, které následně také navštíví. Tento proces pokračuje stále dál a dál, což crawlerům umožňuje pokrýt velkou část internetu.
Příklady crawlerů
- Googlebot: crawler používaný společností Google
- Bingbot: crawler používaný vyhledávačem Bing
- SeznamBot: crawler používaný českým vyhledávačem Seznam