robots.txt

vydáno: 18.02.2016, seriál: SEO

Automatizovaní roboti vyhledáváčů procházejí každou chvíli internetové stránky v celém internetu. Pomocí <meta> tagu a souboru robots.txt jim můžeme v návštěvě naší stránky pomoct a nebo jim návštěvu naší stránky nebo konkrétní složky zakázat.

Pokud potřebujeme nastavit komplexnější pravidla procházení celého webu, musíme použít soubor robots.txt. Jedná se o malý textový soubor, kde uvedeme pravidla procházení našeho webu a roboti je budou akceptovat. Zákaz procházení se hodí například, pokud máte web s placeným obsahem, provozujete interní části webu nebo máte na webu uložené jiné tajné dokumenty.

Soubor robots.txt musí být uložen v kořenovém adresáři webu. Příchozí roboti nejdříve vyhledají tento soubor, aplikují daná pravidla a poté pokračují v indexaci dál. Náš web má také svůj soubor. Podívat se na něj můžete na adrese https://cs.webdev.wiki/robots.txt.

Pravidla lze tvořit do jednotlivých sekcí. Každá sekce začíná příkazem User-agent:. Poté se na každý řádek zvlášť aplikují pravidla. Může tak měnit pravidla v závislosti na daném robotovi.

Pravidla pro všechny roboty - User-agent: *
Pravidla pro SeznamBota - User-agent: SeznamBot
Pravidla pro GoogleBota - User-agent: GoogleBot

Pozor: pravidla se nedědí, pokud nastavíte všeobecné pravidlo pro "*" a souběžně s tím budete chtít nové pravidlo pro "GoogleBot" budete pro něj muset zopakovat vše z "*"

Ukázka:

HTML

User-agent: *
Disallow: /
Allow: /images/
Disallow: /images/archiv/

V naší ukázce jsem všem robotů povolili přístup do složky images, ale zakázali jsme indexovat složku archiv, které je umístěna ve složce images.

Zástupné znaky

Pravidla se zástupnými znaky využijeme v případě, že potřebujeme aplikovat pravidla na soubory a složky, které mohou během fungování webu vzniknout nebo se jedná o větší množství složek nebo souborů a vypisování všech názvu není možné.

* nahrazuje libovolný řetězec znaků
$ konec adresy

Ukázka:

HTML

User-agent: *
Disallow: *.gif$
Disallow: /images$

V ukázce jsem nastavili pravidlo, aby roboti neindexovali všechny soubory, které končí příponou .gif. Název souboru může být jakýkoliv.

Druhé pravidlo zakazuje indexovat složku images, ale nevztahuje se na složku images-1, images-2 atd.

Rychlost indexování

Rychlost indexování stránek lze v souboru robots.txt upravit dle potřeby. Pokud máte velký web a chcete, aby roboti web indexovali rychleji, tak lze toto pravidlo nastavit. Musíme ovšem brát v potaz to, že aktuální rychlost indexování je dána aktuálním využitím robota. Spíš se toto pravidlo hodí, pro snížení rychlosti, když váš server není natolik výkonný, aby to zvládal.

Ukázka:

HTML

Request-rate: 100/20m

V ukázce jsme nastavili aby roboti indexovali na webu 100 dokumentů za 15 minut.

`<META>` tag v `<HEAD>`

V návodu si přiblížíme, jak to pomocí těchto technik snadno zvládnout. Nejdřív se zaměříme na techniku použití <meta> tagu, jelikož je to snadnější a je vhodné na to myslet, hned ze začátku psaní kódu.

Atribut	Popis
noindex	obsah dokumentu nebude indexován
index	výchozí hodnota - obsah dokumentu bude indexován
nofollow	odkazy v dokumentu nebudou indexovány
follow	výchozí hodnota - odkazy v dokumentu budou indexovány
all	vše povoleno - obsah i odkazy dokumentu budou indexovány

Ukázka:

Zakázání indexace HTML dokumentu

HTML

<head>
   <meta name="robots" content="noindex, nofollow">

   <title>HTML stránka - indexování zakázáno</title>
</head>

Použité tagy: <head>, <meta>, <title>

`<meta>` tag

Povolit nebo zakázat indexování konkrétního HTML dokumentu můžeme pomocí zápisu <meta> tagu s atributem name="robots". Tento meta tag uvedeme mezi ostatní meta tagy do hlavičky <head> každého dokumentu. Následně do atributu content zapíšeme hodnotu dle tabulky níže, podle toho, zda chceme indexaci povolit nebo zakázat. V naší ukázce jsme u HTML dokumentu zakázali indexaci odkazů i obsahu dokumentu.

SEO: návody na optimalizaci pro vyhledavače

Témata

Seriály

robots.txt - SEO

Robots.txt

Zástupné znaky

Rychlost indexování

`<META>` tag v `<HEAD>`

`<meta>` tag

Seriál SEO

Seznam všech článků seriálu:

Témata

Seriály

robots.txt - SEO

Robots.txt

Zástupné znaky

Rychlost indexování

<META> tag v <HEAD>

<meta> tag

Seriál SEO

Seznam všech článků seriálu:

`<META>` tag v `<HEAD>`

`<meta>` tag