Robots.txt и ботът на Гугъл (Googlebot)

Googlebot и MSNBot тагове

Както вероятно си спомняте, ботовете на Гугъл и MSN се наричат съответно GoogleBot и MSNBot. Когато обхождат уеб страниците тези ботове търсят за наличието на МЕТА тагове наречени META GoogleBot и META MSNBot. Тези тагове са създадени с идеята да дадат възможност на уебмастъри, които нямат достъп до root directory на техния домейн (където биха могли да поставят “robots.txt” файла) да забранят на някои части от сайта им да се индексират от ботовете на Гугъл и MSN.

GoogleBot синтаксисът е следният:

<meta name=”googlebot” content=”noindex” />

(можете да използвате също така “noindex”, “nofollow” или “noarchive”, или “nosnippet”, или каквато и да е било комбинация от тези стойности, разделени със запетая за съответния атрибут, поставен в кавички. Например, “nosnippet, noarchive” ще каже на Гугъл да не показва снипети на вашите страници, когато се появят в отговор на заявка за търсене в SERP и да не архивират копие от този документ).

Синтаксисът, използван за MSNBot, е следният:

<meta name=”msnbot” content=”noindex, nofollow”>

Моля, имайте предвид, че GoogleBot разпознава и четирите команди споменати по-горе, докато MSNBot – само “noindex” и “nofollow”. Команди от типа “index” и “follow” ще бъдат игнорирани.

Robots Exclusion Protocol (“robots.txt” файл)

Robots Exclusion Protocol, по-известен като Robots.txt файл, е друг начин, който позволява на администраторите да инструктират ботовете кои части от техния сайт да не посещават и индексират.

Когато ботът посети даден уеб сайт, той първо проверява за наличието на файл озаглавен “robots.txt” в root директорията му (www.yoursite.com/robots.txt). Ако такъв документ бъде намерен, паякът ще се съобрази с инструкциите зададени в него.

Файлът “robots.txt” съдържа информация в следния формат:

User-agent: *
Disallow: /

Файлът винаги съдържа две полета:

·    Първото е роботът, за който е предназначен;
·    Второто – директорията/  директориите забранени за обхождане

Стрингът, съдържащ инструкцията “Disallow” задава URL-ите, до които ботовете нямат достъп.

Тук знакът звездичка (*) означава “всички роботи”, а наклонената черта (/) означава “всички URL-и”. Когато задавате URL-ите, трябва да пишете целия URL, който следва наклонената черта и нея включително. Следователно, използвайки само (/) означава самата home (root) директория на сайта ви. Това се тълкува по следния начин: “Забранява се достъпът на всички търсачки до всички URL-и”.

В следващия пример не са зададени никакви ограничения за Googlebot и той може да обхожда всички файлове и директории:

# Гарантира достъпа на Googlebot (символите след знака # и преди следващия знак # се считат за коментари).

User-agent: Googlebot
Disallow:

Ако някога ви се налага да задавате инструкции за различни ботове за повече на брои директории, можете да използвате следния стринг от команди:

User-agent: Googlebot
Disallow:
User-agent: *
Disallow: /cgi-bin/

Този пример ще забрани на всички ботове, с изключение на Googlebot, да индексират вашата “cgi-bin” directory Common Gateway Interface (CGI), в която повечето уебмастъри пазят server-side скриптовете.

Related posts:

  1. Lesson (19): META Robots Tag and “robots.txt” Robots There are two ways you can restrict a spider from crawling all or part of your site. First is by placing the META Robots tag within the “head” section of your HTML file (making it effective only for the pages where the tag is inserted). The second is to write a special instruction file [...]...
  2. 10 Rules on using Robots Exclusion Protocol The “robots.txt” file must always be named in lowercase, even if your site is hosted on a case-insensitive platform like Windows (e.g. “Robots.txt” or “robots.Txt” is incorrect). Wildcards are not supported in both the fields. “*” can only be used in the User-agent field command syntax to denote “all”. Googlebot is the only robot that [...]...
  3. 10 правила при използването на Robots.txt 1.    Файлът “robots.txt” трябва винаги да е озаглавен с малки букви, дори ако сайтът ви се хоства върху case-insensitive платформа като Уиндоус. Файлове именувани “Robots.txt” или “robots.Txt” са погрешни и невалидни; 2.    Wildcards не се поддържат изцяло. Знакът (*) може да бъде използван само в User-agent полето за команден синтаксис, за да обозначи команда валидна [...]...
  4. META Robots таг Роботи Съществуват 2 начина, с които можете да ограничите ботовете на търсачките да обхождат сайта ви или отделни негови страници. Единият е да поставите т.нар. META Robots таг в HEAD секцията на своя сайт (действа само за тези страници, в чийто header е поставен), а вторият – посредством добавянето на специален файл с инструкции наречен [...]...
  5. Гугъл Евърфлъкс (Google Everflux) Напоследък Гугъл разработва база данни, която се обновява постоянно. Мат Кътс (шефът на Google Webspam team) сподели в личния си блог следната информация: Гугъл премина към индекс, който се обновява веднъж на ден, а понякога и по-често. Вместо да се превръща в огромно и многоочаквано месечно събитие, Гугъл премина към почти ежедневно ъпдейтване на своя [...]...



2 Responses to “Robots.txt и ботът на Гугъл (Googlebot)”

  1. Използвайте изключително внимателно тези команди. Удачен пример в небрежното използване на “User-agent: * Disallow: /” е сайтът на правителството, който не беше изцяло индексиран в гугъл.

  2. Lilacor says:

    Да, така известната операция “Провал” също засегна този онлайн провал на правителството ни, не само безспорния офлайн такъв :)

Leave a Reply