Domů > SEO a Ranky > Googlebot občas ignoruje robots.txt

Googlebot občas ignoruje robots.txt

05.09.2011 Unreal][ Zanechte komentář Přejít na komentáře

Network Na fóru WebmasterWorld se strhly dvě zajímavé diskuze na téma robots.txt. V obou vláknech se rozebírá, zda Googlebot (crawlerovací robot) bere v potaz soubor „robots.txt“, který povoluje nebo zakazuje vstup botům na webové stránky. Běžně se takto ošetřuje (ne)indexování vybraných stránek. Jenomže se může stát, že Google tento soubor bude ignorovat.

1) Pokud je na stránce tlačítko „Google +1“, tak se stránka bere jako veřejně přístupná, ikdyž je v robots zakázaná. V tomto smyslu se vyjádřil i jeden ze zaměstnanců Google:

Tlačítko „plus one“ je určeno pouze pro použití na stránky, které obsahují veřejný obsah. Tím, že je tlačítko na stránce, bereme jako znamení od vás, že tato stránka má veřejný obsah. To znamená, že crawler stáhne vaši stránku, ikdyž z indexovacích směrnic vyplývá něco jiného.

To je pro mnoho webmasterů nepříjemná novinka. Jediný způsob jak se problému vyhnout je ten, že nebudeme umisťovat „lajkovací“ tlačítka obecně na neveřejné stránky.

2) Pokud nastane jeden z možných problémů. Ne při každém přístupu totiž Googlebot stahuje i soubor robots.txt. Můžou nastat například tyto modelové situace:

Robots.txt obsahuje chyby nebo byl špatně nastaven
Robots.txt je bez chyb, ale byl nahrán v době, kdy už Google procházel obsah
Robots.txt je bez chyb, ale je umístěn na špatném místě
Někdo se snaží získat obsah a předstírá v User Agent, že je Googlebot (podle kontroly IP)

Je skoro jasné, že Google stahuje soubor robots.txt jednou za nějaký čas a zaindexuje stránku, která už v nových pravidlech byla zakázaná. A ochrana? Měl by pomoci metatag robots v hlavičce stránky.
<meta name="robots" content="noindex, nofollow"/>
Více informací o robots.txt naleznete třeba na Wikipedii.

Categories: SEO a Ranky Tags: crawling, googlebot, robots.txt

Komentáře (8) Zanechte komentář

Martin Šimko

05.09.2011 na 16:13 | #1

Odpověd | Citovat

Ten bod 1) je docela logický, ale asi málo lidí na to myslí, já jsem o tom takhle ještě ani nepřemýšlel.

Možnosti u bodu 2) jsou hodně málo pravděpodobné (když vynechám syntaktickou chybu v robots.txt)
Unreal][

05.09.2011 na 16:43 | #2

Odpověd | Citovat

Ja si myslim, ze jsou pravdepodobne. I robot se snazi tahat co nejmin dat.
Kohy

05.09.2011 na 23:03 | #3

Odpověd | Citovat

Z vyhledávače je přísun lidí, že. Proč tedy obsah zavírat. To bych řešil jen u privátních webů.
Homer

06.09.2011 na 14:56 | #4

Odpověd | Citovat

Kohy – souhlas. Já robots.txt používám pouze pro nalinkování sitemap.xml, nikdy jsem nic neblokoval.
Unreal][

07.09.2011 na 00:54 | #5

Odpověd | Citovat

No muzou byt i pripady kdy nechceme, aby byla stranka videt. Treba prihlaseni do administrace nebo prazdny nakupni kosik.
Lydie

07.09.2011 na 01:04 | #6

Odpověd | Citovat

Mně Google a Seznam jednu dobu také ignoroval robots.txt s odkazem na sitemap. Dokud jsem si nevšimla, že robots.txt nemám v UTF-8, ale v ANSI.
A proto VY, kdož nadáváte, že na vás vyhledávače dlabou, podívejte se na kódování.
Pro někoho může mít tato rada cenu zlata, tak pak můžete třeba poděkovat 😉
Unreal][

07.09.2011 na 01:12 | #7

Odpověd | Citovat

Kodovani robots.txt je v podstate jedno, pokud tam nejsou diakriticke a jine specialni znaky. Ale urcite je lepsi se drzet deklarovanyho kodovani, o tom zadna 🙂
fildin

01.02.2012 na 00:50 | #8

Odpověd | Citovat

@Lydie
To je zajímavý postřeh, to by mě ani ve snu nenapadlo. Díky :-}

Lesk a bída slevoportálů Firefox 3.6.21 a 6.0.1 obsahuje chyby

Unreal][ blog

Googlebot občas ignoruje robots.txt

Nejnovější příspěvky

Rubriky

Odkazy

Nejnovější komentáře