Domů > SEO a Ranky > Googlebot občas ignoruje robots.txt

Googlebot občas ignoruje robots.txt

NetworkNa fóru WebmasterWorld se strhly dvě zajímavé diskuze na téma robots.txt. V obou vláknech se rozebírá, zda Googlebot (crawlerovací robot) bere v potaz soubor „robots.txt“, který povoluje nebo zakazuje vstup botům na webové stránky. Běžně se takto ošetřuje (ne)indexování vybraných stránek. Jenomže se může stát, že Google tento soubor bude ignorovat.

1) Pokud je na stránce tlačítko „Google +1“, tak se stránka bere jako veřejně přístupná, ikdyž je v robots zakázaná. V tomto smyslu se vyjádřil i jeden ze zaměstnanců Google:

Tlačítko „plus one“ je určeno pouze pro použití na stránky, které obsahují veřejný obsah. Tím, že je tlačítko na stránce, bereme jako znamení od vás, že tato stránka má veřejný obsah. To znamená, že crawler stáhne vaši stránku, ikdyž z indexovacích směrnic vyplývá něco jiného.

To je pro mnoho webmasterů nepříjemná novinka. Jediný způsob jak se problému vyhnout je ten, že nebudeme umisťovat „lajkovací“ tlačítka obecně na neveřejné stránky.

2) Pokud nastane jeden z možných problémů. Ne při každém přístupu totiž Googlebot stahuje i soubor robots.txt. Můžou nastat například tyto modelové situace:

  • Robots.txt obsahuje chyby nebo byl špatně nastaven
  • Robots.txt je bez chyb, ale byl nahrán v době, kdy už Google procházel obsah
  • Robots.txt je bez chyb, ale je umístěn na špatném místě
  • Někdo se snaží získat obsah a předstírá v User Agent, že je Googlebot (podle kontroly IP)

Je skoro jasné, že Google stahuje soubor robots.txt jednou za nějaký čas a zaindexuje stránku, která už v nových pravidlech byla zakázaná. A ochrana? Měl by pomoci metatag robots v hlavičce stránky.
<meta name="robots" content="noindex, nofollow"/>
Více informací o robots.txt naleznete třeba na Wikipedii.

  1. 05.09.2011 na 16:13 | #1

    Ten bod 1) je docela logický, ale asi málo lidí na to myslí, já jsem o tom takhle ještě ani nepřemýšlel.

    Možnosti u bodu 2) jsou hodně málo pravděpodobné (když vynechám syntaktickou chybu v robots.txt)

  2. 05.09.2011 na 16:43 | #2

    Ja si myslim, ze jsou pravdepodobne. I robot se snazi tahat co nejmin dat.

  3. 05.09.2011 na 23:03 | #3

    Z vyhledávače je přísun lidí, že. Proč tedy obsah zavírat. To bych řešil jen u privátních webů.

  4. 06.09.2011 na 14:56 | #4

    Kohy – souhlas. Já robots.txt používám pouze pro nalinkování sitemap.xml, nikdy jsem nic neblokoval.

  5. 07.09.2011 na 00:54 | #5

    No muzou byt i pripady kdy nechceme, aby byla stranka videt. Treba prihlaseni do administrace nebo prazdny nakupni kosik.

  6. 07.09.2011 na 01:04 | #6

    Mně Google a Seznam jednu dobu také ignoroval robots.txt s odkazem na sitemap. Dokud jsem si nevšimla, že robots.txt nemám v UTF-8, ale v ANSI.
    A proto VY, kdož nadáváte, že na vás vyhledávače dlabou, podívejte se na kódování.
    Pro někoho může mít tato rada cenu zlata, tak pak můžete třeba poděkovat 😉

  7. 07.09.2011 na 01:12 | #7

    Kodovani robots.txt je v podstate jedno, pokud tam nejsou diakriticke a jine specialni znaky. Ale urcite je lepsi se drzet deklarovanyho kodovani, o tom zadna 🙂

  8. 01.02.2012 na 00:50 | #8

    @Lydie
    To je zajímavý postřeh, to by mě ani ve snu nenapadlo. Díky :-}

Odesláním komentáře souhlasíte se zásadami ochrany soukromí tohoto webu.