Od provozovatele projektu Rychlost.CZ

robots.txt - SEO

vydáno: 18.02.2016, seriál: SEO

Automatizovaní roboti vyhledáváčů procházejí každou chvíli internetové stránky v celém internetu. Pomocí <meta> tagu a souboru robots.txt jim můžeme v návštěvě naší stránky pomoct a nebo jim návštěvu naší stránky nebo konkrétní složky zakázat.

Robots.txt

Pokud potřebujeme nastavit komplexnější pravidla procházení celého webu, musíme použít soubor robots.txt. Jedná se o malý textový soubor, kde uvedeme pravidla procházení našeho webu a roboti je budou akceptovat. Zákaz procházení se hodí například, pokud máte web s placeným obsahem, provozujete interní části webu nebo máte na webu uložené jiné tajné dokumenty.

Soubor robots.txt musí být uložen v kořenovém adresáři webu. Příchozí roboti nejdříve vyhledají tento soubor, aplikují daná pravidla a poté pokračují v indexaci dál. Náš web má také svůj soubor. Podívat se na něj můžete na adrese https://cs.webdev.wiki/robots.txt.

Pravidla lze tvořit do jednotlivých sekcí. Každá sekce začíná příkazem User-agent:. Poté se na každý řádek zvlášť aplikují pravidla. Může tak měnit pravidla v závislosti na daném robotovi.

Pravidla pro všechny roboty - User-agent: * 
Pravidla pro SeznamBota - User-agent: SeznamBot
​Pravidla pro GoogleBota - User-agent: GoogleBot

Pozor: pravidla se nedědí, pokud nastavíte všeobecné pravidlo pro "*" a souběžně s tím budete chtít nové pravidlo pro "GoogleBot" budete pro něj muset zopakovat vše z "*"

Ukázka:
HTML
User-agent: *
Disallow: /
Allow: /images/
Disallow: /images/archiv/

V naší ukázce jsem všem robotů povolili přístup do složky images, ale zakázali jsme indexovat složku archiv, které je umístěna ve složce images.

Zástupné znaky

Pravidla se zástupnými znaky využijeme v případě, že potřebujeme aplikovat pravidla na soubory a složky, které mohou během fungování webu vzniknout nebo se jedná o větší množství složek nebo souborů a vypisování všech názvu není možné.

* nahrazuje libovolný řetězec znaků
$ konec adresy

Ukázka:
HTML
User-agent: *
Disallow: *.gif$
Disallow: /images$

V ukázce jsem nastavili pravidlo, aby roboti neindexovali všechny soubory, které končí příponou .gif. Název souboru může být jakýkoliv.

Druhé pravidlo zakazuje indexovat složku images, ale nevztahuje se na složku images-1, images-2 atd.

Rychlost indexování

Rychlost indexování stránek lze v souboru robots.txt upravit dle potřeby. Pokud máte velký web a chcete, aby roboti web indexovali rychleji, tak lze toto pravidlo nastavit. Musíme ovšem brát v potaz to, že aktuální rychlost indexování je dána aktuálním využitím robota. Spíš se toto pravidlo hodí, pro snížení rychlosti, když váš server není natolik výkonný, aby to zvládal.

Ukázka:
HTML
Request-rate: 100/20m

V ukázce jsme nastavili aby roboti indexovali na webu 100 dokumentů za 15 minut.

<META> tag v <HEAD>

V návodu si přiblížíme, jak to pomocí těchto technik snadno zvládnout. Nejdřív se zaměříme na techniku použití <meta> tagu, jelikož je to snadnější a je vhodné na to myslet, hned ze začátku psaní kódu.

AtributPopis
noindexobsah dokumentu nebude indexován
indexvýchozí hodnota - obsah dokumentu bude indexován
nofollowodkazy v dokumentu nebudou indexovány
followvýchozí hodnota - odkazy v dokumentu budou indexovány
allvše povoleno - obsah i odkazy dokumentu budou indexovány
Ukázka:

Zakázání indexace HTML dokumentu

HTML
<head>
<meta name="robots" content="noindex, nofollow">
<title>HTML stránka - indexování zakázáno</title>
</head>
Použité tagy: <head>, <meta>, <title>

<meta> tag

Povolit nebo zakázat indexování konkrétního HTML dokumentu můžeme pomocí zápisu <meta> tagu s atributem name="robots". Tento meta tag uvedeme mezi ostatní meta tagy do hlavičky <head> každého dokumentu. Následně do atributu content zapíšeme hodnotu dle tabulky níže, podle toho, zda chceme indexaci povolit nebo zakázat. V naší ukázce jsme u HTML dokumentu zakázali indexaci odkazů i obsahu dokumentu.

SEO: návody na optimalizaci pro vyhledavače