10 правила при използването на Robots.txt

1.    Файлът “robots.txt” трябва винаги да е озаглавен с малки букви, дори ако сайтът ви се хоства върху case-insensitive платформа като Уиндоус. Файлове именувани “Robots.txt” или “robots.Txt” са погрешни и невалидни;

2.    Wildcards не се поддържат изцяло. Знакът (*) може да бъде използван само в User-agent полето за команден синтаксис, за да обозначи команда валидна за “всички”;

3.    Googlebot е единственият паяк, който поддържа някои wildcard файлови разширения, предоставяйки възможност да забраните дадени файлови разширения за индексиране. За повече информация, посетете http://www.google.com/webmasters/;

4.    Функционалността на уеб сайта не се нарушава, ако не е направен “robots.txt” файл или той е празен. Въпреки всичко, ако съществува такъв файл, той може да направи всички страници на сайта достъпни за ботовете на всички търсачки;

5.    Понякога, за някои сървъри и някои ботове, отсъствието на “robots.txt” файл може да генерира грешка 404 и да редиректне (пренасочи) бота към вашата 404 error page по подразбиране. В тази ситуация, ботът може да “помисли”, че това е вашият “robots.txt” файл, а оттам нататък неговото поведение може да стане непредвидимо. Затова винаги използвайте такъв файл;

6.    Можете да създавате не повече от един “robots.txt” файл за всеки домейн и той трябва да е поставен задължително във главната директория (root directory) на сайта ви, т.е. в същата директория, в която сте поставили своята начална страница (home page);

7.    Уебмастърите, които нямат пълни администраторски права (write access), най-вероятно няма да могат да се възползват от предимствата на “robots.txt” файла. В такъв случай, можете да прибегнете до използването на META Robots таг;

8.    Необходимо е винаги да започвате нов ред, когато пишете команди за различните потребителски агенти (User-agents), а забраняващата команда “Disallow” в “robots.txt” файла не трябва да съдържа повече от една команда на ред, въпреки че няма ограничения за броя редове;

9.    Както  User-agent, така и Disallow командата могат да бъдат използвани неограничен брой пъти за различните ботове на търсачки. Оставянето на празни редове в “robots.txt” файла за тези две команди ще действа само, ако е зададено за всяка от тях по отделно (на отделен ред);

10.    Използвайте само малки букви за всички команди, включени в “robots.txt” файла (изключение прави употребата на файла на case-sensitive платформи като Unix).

За повече правила и съвети относно употребата на “robots.txt”, посетете: http://www.robotstxt.org/wc/norobots.html

Related posts:

  1. Robots.txt и ботът на Гугъл (Googlebot) Googlebot и MSNBot тагове Както вероятно си спомняте, ботовете на Гугъл и MSN се наричат съответно GoogleBot и MSNBot. Когато обхождат уеб страниците тези ботове търсят за наличието на МЕТА тагове наречени META GoogleBot и META MSNBot. Тези тагове са създадени с идеята да дадат възможност на уебмастъри, които нямат достъп до root directory на [...]...
  2. META Robots таг Роботи Съществуват 2 начина, с които можете да ограничите ботовете на търсачките да обхождат сайта ви или отделни негови страници. Единият е да поставите т.нар. META Robots таг в HEAD секцията на своя сайт (действа само за тези страници, в чийто header е поставен), а вторият – посредством добавянето на специален файл с инструкции наречен [...]...
  3. Lesson (19): META Robots Tag and “robots.txt” Robots There are two ways you can restrict a spider from crawling all or part of your site. First is by placing the META Robots tag within the “head” section of your HTML file (making it effective only for the pages where the tag is inserted). The second is to write a special instruction file [...]...
  4. 10 Rules on using Robots Exclusion Protocol The “robots.txt” file must always be named in lowercase, even if your site is hosted on a case-insensitive platform like Windows (e.g. “Robots.txt” or “robots.Txt” is incorrect). Wildcards are not supported in both the fields. “*” can only be used in the User-agent field command syntax to denote “all”. Googlebot is the only robot that [...]...
  5. Изграждане на подходяща навигационна структура на сайт SEO-friendly навигационна структура Нека първо дефинираме понятието навигационна структура на сайт. От гледна точка на SEO и SEM, този термин се отнася до цялостната рамка (framework), която поддържа съдържанието на един сайт и определя пътя, по който минават ботовете на търсачките, за да индексират това съдържание. Архитектурата на всеки сайт се състои от навигационна структура, [...]...



3 Responses to “10 правила при използването на Robots.txt”

  1. Поредната полезна статия.

    Няколко мита за robots.txt

    1.Robots.txt е задължителен файл, без който Гугъл няма да ви индексира.

    2.Необходими са, за да могат роботите по-лесно да обходят сайта ви

    3.Използването на Disallow в robots.txt гарантира на 100%, че страницата няма да бъде индексирана

  2. Ivan Petkov says:

    Много добра статийка, винаги съм се чудил за какво е това файлче, което между другото нищо не съдържа поне в моя случай. Хубаво ще е ако може да сложите и малко примери за това какво точно може да се пише като команди в този файл. Например:

    User-agent: *
    Disallow: /test/

    първия ред значи, че давам достъп на всички ботове, а втория, че не искам ботовете да индексират /тест директорията на сайта ми.

    Нещо което може да е от полза на хората които имат блогове на уърдпрес е, че има готови плъгини които им дават достъп до този файл, например KB Robots.

    Иван

  3. Zaya says:

    Е аз не винаги използвам само малки букви за команди :) Парсвам си сайтмап-а с команден ред Sitemap: :)

Leave a Reply