Googlebot občas ignoruje robots.txt
Na fóru WebmasterWorld se strhly dvě zajímavé diskuze na téma robots.txt. V obou vláknech se rozebírá, zda Googlebot (crawlerovací robot) bere v potaz soubor „robots.txt“, který povoluje nebo zakazuje vstup botům na webové stránky. Běžně se takto ošetřuje (ne)indexování vybraných stránek. Jenomže se může stát, že Google tento soubor bude ignorovat.
1) Pokud je na stránce tlačítko „Google +1“, tak se stránka bere jako veřejně přístupná, ikdyž je v robots zakázaná. V tomto smyslu se vyjádřil i jeden ze zaměstnanců Google:
Tlačítko „plus one“ je určeno pouze pro použití na stránky, které obsahují veřejný obsah. Tím, že je tlačítko na stránce, bereme jako znamení od vás, že tato stránka má veřejný obsah. To znamená, že crawler stáhne vaši stránku, ikdyž z indexovacích směrnic vyplývá něco jiného.
To je pro mnoho webmasterů nepříjemná novinka. Jediný způsob jak se problému vyhnout je ten, že nebudeme umisťovat „lajkovací“ tlačítka obecně na neveřejné stránky.
2) Pokud nastane jeden z možných problémů. Ne při každém přístupu totiž Googlebot stahuje i soubor robots.txt. Můžou nastat například tyto modelové situace:
- Robots.txt obsahuje chyby nebo byl špatně nastaven
- Robots.txt je bez chyb, ale byl nahrán v době, kdy už Google procházel obsah
- Robots.txt je bez chyb, ale je umístěn na špatném místě
- Někdo se snaží získat obsah a předstírá v User Agent, že je Googlebot (podle kontroly IP)
Je skoro jasné, že Google stahuje soubor robots.txt jednou za nějaký čas a zaindexuje stránku, která už v nových pravidlech byla zakázaná. A ochrana? Měl by pomoci metatag robots v hlavičce stránky.
<meta name="robots" content="noindex, nofollow"/>
Více informací o robots.txt naleznete třeba na Wikipedii.
Ten bod 1) je docela logický, ale asi málo lidí na to myslí, já jsem o tom takhle ještě ani nepřemýšlel.
Možnosti u bodu 2) jsou hodně málo pravděpodobné (když vynechám syntaktickou chybu v robots.txt)
Ja si myslim, ze jsou pravdepodobne. I robot se snazi tahat co nejmin dat.
Z vyhledávače je přísun lidí, že. Proč tedy obsah zavírat. To bych řešil jen u privátních webů.
Kohy – souhlas. Já robots.txt používám pouze pro nalinkování sitemap.xml, nikdy jsem nic neblokoval.
No muzou byt i pripady kdy nechceme, aby byla stranka videt. Treba prihlaseni do administrace nebo prazdny nakupni kosik.
Mně Google a Seznam jednu dobu také ignoroval robots.txt s odkazem na sitemap. Dokud jsem si nevšimla, že robots.txt nemám v UTF-8, ale v ANSI.
A proto VY, kdož nadáváte, že na vás vyhledávače dlabou, podívejte se na kódování.
Pro někoho může mít tato rada cenu zlata, tak pak můžete třeba poděkovat 😉
Kodovani robots.txt je v podstate jedno, pokud tam nejsou diakriticke a jine specialni znaky. Ale urcite je lepsi se drzet deklarovanyho kodovani, o tom zadna 🙂
@Lydie
To je zajímavý postřeh, to by mě ani ve snu nenapadlo. Díky :-}