Блог

2

Robots.txt и ботът на Гугъл (Googlebot)

Googlebot и MSNBot тагове

Както вероятно си спомняте, ботовете на Гугъл и MSN се наричат съответно GoogleBot и MSNBot. Когато обхождат уеб страниците тези ботове търсят за наличието на МЕТА тагове наречени META GoogleBot и META MSNBot. Тези тагове са създадени с идеята да дадат възможност на уебмастъри, които нямат достъп до root directory на техния домейн (където биха могли да поставят “robots.txt” файла) да забранят на някои части от сайта им да се индексират от ботовете на Гугъл и MSN.

GoogleBot синтаксисът е следният:

<meta name=”googlebot” content=”noindex” />

(можете да използвате също така “noindex”, “nofollow” или “noarchive”, или “nosnippet”, или каквато и да е било комбинация от тези стойности, разделени със запетая за съответния атрибут, поставен в кавички. Например, “nosnippet, noarchive” ще каже на Гугъл да не показва снипети на вашите страници, когато се появят в отговор на заявка за търсене в SERP и да не архивират копие от този документ).

Синтаксисът, използван за MSNBot, е следният:

<meta name=”msnbot” content=”noindex, nofollow”>

Моля, имайте предвид, че GoogleBot разпознава и четирите команди споменати по-горе, докато MSNBot – само “noindex” и “nofollow”. Команди от типа “index” и “follow” ще бъдат игнорирани.

Robots Exclusion Protocol (“robots.txt” файл)

Robots Exclusion Protocol, по-известен като Robots.txt файл, е друг начин, който позволява на администраторите да инструктират ботовете кои части от техния сайт да не посещават и индексират.

Когато ботът посети даден уеб сайт, той първо проверява за наличието на файл озаглавен “robots.txt” в root директорията му (www.yoursite.com/robots.txt). Ако такъв документ бъде намерен, паякът ще се съобрази с инструкциите зададени в него.

Файлът “robots.txt” съдържа информация в следния формат:

User-agent: *
Disallow: /

Файлът винаги съдържа две полета:

·    Първото е роботът, за който е предназначен;
·    Второто – директорията/  директориите забранени за обхождане

Стрингът, съдържащ инструкцията “Disallow” задава URL-ите, до които ботовете нямат достъп.

Тук знакът звездичка (*) означава “всички роботи”, а наклонената черта (/) означава “всички URL-и”. Когато задавате URL-ите, трябва да пишете целия URL, който следва наклонената черта и нея включително. Следователно, използвайки само (/) означава самата home (root) директория на сайта ви. Това се тълкува по следния начин: “Забранява се достъпът на всички търсачки до всички URL-и”.

В следващия пример не са зададени никакви ограничения за Googlebot и той може да обхожда всички файлове и директории:

# Гарантира достъпа на Googlebot (символите след знака # и преди следващия знак # се считат за коментари).

User-agent: Googlebot
Disallow:

Ако някога ви се налага да задавате инструкции за различни ботове за повече на брои директории, можете да използвате следния стринг от команди:

User-agent: Googlebot
Disallow:
User-agent: *
Disallow: /cgi-bin/

Този пример ще забрани на всички ботове, с изключение на Googlebot, да индексират вашата “cgi-bin” directory Common Gateway Interface (CGI), в която повечето уебмастъри пазят server-side скриптовете.

Comments

  • Иво Иванов
    June 16, 2009

    Използвайте изключително внимателно тези команди. Удачен пример в небрежното използване на “User-agent: * Disallow: /” е сайтът на правителството, който не беше изцяло индексиран в гугъл.

  • Lilacor
    June 16, 2009

    Да, така известната операция “Провал” също засегна този онлайн провал на правителството ни, не само безспорния офлайн такъв 🙂

Leave a Reply

Your email is never published nor shared. Required fields are marked *

*

© SEO оптимизация от инж. Николай Стоянов 2008-2013 г. Всички права запазени.