Soubor robots.txt je jednoduchý textový soubor na webových stránkách, který říká vyhledávacím robotům, neboli crawlerům (např. Googlebot), které části webu mohou, nebo nemohou procházet a indexovat.
Co soubor robots.txt obsahuje a kde se nachází?
Soubor obsahuje pravidla, která definují přístup pro různé typy crawlerů. Používá se k tomu několik základních příkazů, které si později vysvětlíme.
Soubor robots.txt by měl být umístěn v kořenovém adresáři vašich webových stránek (např. https://www.vas-web.cz/robots.txt).
Příklad souboru robots.txt
Obsah souboru může vypadat například následovně:
User-agent: *
Disallow: /admin/
Allow: /public/
Sitemap: https://www.vas-web.cz/sitemap.xml
Vysvětlení příkazů:
- User-agent: * – znamená, že pravidla platí pro všechny crawlery.
- Disallow: /admin/ – znamená, že crawleři nesmějí procházet obsah složky /admin/.
- Allow: /public/ – povoluje procházení složky /public/, i když je jiná část webu blokována.
- Sitemap: … – odkazuje na soubor sitemap, který poskytuje robotům základní strukturu webu (důležité z hlediska SEO).
K čemu soubor robots.txt slouží?
Soubor robots.txt tedy slouží především k ochraně soukromých, nebo citlivých částí webu tím, že zabraňuje jejich indexaci vyhledávači. Také zabraňuje zbytečnému procházení stránek, které pro vyhledávače nejsou důležité, Může se jednat o testovací stránky, 404, stránky s kategoriemi….
Jak upravit soubor robots.txt ve WordPressu?
Ve WordPressu lze soubor upravit hned několika způsoby:
- Manálně pomocí FTP
- Pomocí komplexního SEO pluginu jako je například RankMath, Yoast a mnohé další
- Pomocí pluginu, který se zabývá pouze úpravou souboru – Plugin „WP Robots Txt„
POZOR!
Na závěr bych chtěl upozornit na to, že dodržování pravidel v souboru robots.txt je dobrovolné, a ne každý crawler musí pravidla respektovat (např. crawleři, kteří mají s webem špatné úmysly)!
« Zpět do slovníku