marți, 23 noiembrie 2010

Robots.txt - ce trebuie sa stii despre fisierul Robots.txt


Fisierul robots.txt este utilizat pentru a specifica anumite protocoale motoarelor de cautare. Atunci când crawler-ul motorului de cautare (programul care acceseaza si culege datele despre un site) ajunge pe un site web, acesta verifica existenta fisierului robots.txt în radacina domeniului web.


Concret, atunci când un crawler acceseaza o pagina a site-ului, ex: http://www. nume site . ro/pagina-web .html mai întâi acesta verifica existenta fisierului robots.txt în  http://www. nume site . ro/robots.txt.


Numele acestui fisier pe server trebuie sa fie strict robots, având extenisa txt » robots.txt


Exemplu privind continutul fisierului robots.txt:


User-agent: *


Disallow: /


Unde, 


User-agent este comanda folosita pentru a specifica crawlere-le care trebuie sa respecte instructiunile din acest fisier. În exemplu de mai sus, * (steluta) arata ca instructiunile se aplica tuturor crawlere-lor web;


Disallow - instructiune care specifica ce continut al site-ului nu va fi indexat de catre crawere-le specificate. În cazul de mai sus - Disallow: / înseamna ca tot site-ul nu este destinat indexarii.


Pentru a crea fisierul robots.txt folositi un editor txt - notepad.exe - sau instrumentul pus la dispozitie de catre Google în Google Webmasters Tools.


Interzicerea accesarii de catre toate crawler-ele a unui folder (dosar)


User-agent: *


Disallow: /folderweb/


Numele dosar-ului este delimitat de separatorul /

Interzicerea accesarii de catre toate crawler-ele a unei pagini web

User-agent: *


Disallow: /dosarweb/pagina-web.html

Interzicerea accesarii site-ului de catre un anumit crawler

User-agent: Methabot


Disallow: /

Accesarea completa a site-ului de catre crawlere

User-agent: *


Disallow:

Interzicerea accesarii site-ului pentru un anumit robot, un singur crawler are acces la tot site-ul si restrictionarea accesului pentru celelalte crawlere la anumite parti ale site-ului

User-agent: Methabot


Disallow: /


User-agent: Googlebot


Disallow:


User-agent: *


Disallow: /dosarweb/


Disallow: /folderweb/



View the original article here


Discover the revolutionary strategies to instantly drive unlimited traffic to your websites by exploiting proven traffic magnets! Dominate your market instantly! Affiliates: www.the-web-traffic-evolution.com/affiliates.html


Check it out!

Niciun comentariu:

Trimiteți un comentariu