utorok 3. februára 2015

ROBOTS.TXT SÚBOR

Dobre napísaný súbor robots.txt ktorý bude vyhovovať všetkým robotom, to znamená Google, Bing, Yahoo, Ask, Altavista, Alexa.com atď. vyzerá nasledovne:

Sitemap: http://www.vzor-domeny.sk/sitemap.xml

User-agent: *
Allow: /
Disallow: /downloads/

Napíšeme si prečo to tak je. Prvý riadok je sitemap.xml a to z dôvodu že keď príde robot do súboru robots prvé čo má mať informáciu je kde nájde sitemap. Jednoduchá logika: Chceme aby naše stránky boli indexované čo najľahšie a najrýchlejšie. Preto prvý umiestnime sitemap.

Viac sitemapov zapisujeme pod seba každý do nového riadku bez vynechávania prázdneho riadku!
Druhý riadok (ak teda nemáme iný sitemap na zápis a máme len jeden sitemap) je volný (prázdny) a tým podmieňujeme príkaz "hľadaj v novom riadku nový nasledovný príkaz"

User-agent: *
Hviezdička je podmienka pre všetkých robotov a rôznych boot-ov preliezajúcich našu doménu.

Allow: /

Znamená preliazať všetko co je na doméne za lomítkom umiestnené. To Znamená že ak podpriečinky.

Disallow: /downloads/
Disallow naopak zakazuje prístup robotom do súboru /downloads/ čiže celý adresár je zakázaný.

Naopak, veľa ľudí zablokuje súbory práve cez robots.txt súbor a potom sa divia aké sú prieniky na ich servery. Preto odporúčam do priečinka ktorý nechceme indexovanie umiestnime samostatný súbor htaccess a do neho do prvého riadka urobíme zápis:

Options -Indexes

Overenie správnosti zápisu je výsledok v Google webmasters rozhraní kde si prečítate že je všetko v poriadku pri takomto type zápisu.



Ako na obrázku vidíte do robots.txt sú zapísané aj sitemap.xlm.gz aj sitemap.gz atď. Prečo? Je to preto lebo súbor robots.txt je navštevovaný aj prehliadačmi (ale ja booti rôznach štatistických nástrojov) a tie si pre svoje potreby sťahujú radšej komprimovanú (teda zmenšenú) verziu sitemaps. Ak chceme zakázať prístup robotovi tak to napíšeme takto a opäť platí že ste povinný za posledné Disallow: alebo za posledný príkaz vynechať prázdny riadok!

User-agent: Baiduspaider
Disallow: /

Dovolím si poznamenať, ak máte web v YANDEX webmaster tools nezapisujte sitemaps do robots.txt súboru. Yandex tieto zápisy ignoruje. Urobte len zápis typu:

User-agent: *
Disallow:
alebo

User-agent: *
Allow: / 
v podstate je to rovnaký príkaz pre indexovanie všetkého. Ak chcete zakázať tak to napíšte v htaaccesse priamo do adresára:

Options -Indexes

Lenže stretneme sa s tým že niektoré roboty takýto zápis ignorujú. Preto urobíme ešte jeden zápis a to do htaccess kde zakážeme prístup podľa IP adresy. Ip adresu získame v log súbore ak ho máme na serveri vytvorený. A o log súbore budem písať v inom článku.

Ak potrebujete rozobrať problém alebo čokoľvek okolo webu tak píšte komentáre s url adresou webu.

Žiadne komentáre:

Zverejnenie komentára