Блог

5

10 правила при използването на Robots.txt

1.    Файлът “robots.txt” трябва винаги да е озаглавен с малки букви, дори ако сайтът ви се хоства върху case-insensitive платформа като Уиндоус. Файлове именувани “Robots.txt” или “robots.Txt” са погрешни и невалидни;

2.    Wildcards не се поддържат изцяло. Знакът (*) може да бъде използван само в User-agent полето за команден синтаксис, за да обозначи команда валидна за “всички”;

3.    Googlebot е единственият паяк, който поддържа някои wildcard файлови разширения, предоставяйки възможност да забраните дадени файлови разширения за индексиране. За повече информация, посетете http://www.google.com/webmasters/;

4.    Функционалността на уеб сайта не се нарушава, ако не е направен “robots.txt” файл или той е празен. Въпреки всичко, ако съществува такъв файл, той може да направи всички страници на сайта достъпни за ботовете на всички търсачки;

5.    Понякога, за някои сървъри и някои ботове, отсъствието на “robots.txt” файл може да генерира грешка 404 и да редиректне (пренасочи) бота към вашата 404 error page по подразбиране. В тази ситуация, ботът може да “помисли”, че това е вашият “robots.txt” файл, а оттам нататък неговото поведение може да стане непредвидимо. Затова винаги използвайте такъв файл;

6.    Можете да създавате не повече от един “robots.txt” файл за всеки домейн и той трябва да е поставен задължително във главната директория (root directory) на сайта ви, т.е. в същата директория, в която сте поставили своята начална страница (home page);

7.    Уебмастърите, които нямат пълни администраторски права (write access), най-вероятно няма да могат да се възползват от предимствата на “robots.txt” файла. В такъв случай, можете да прибегнете до използването на META Robots таг;

8.    Необходимо е винаги да започвате нов ред, когато пишете команди за различните потребителски агенти (User-agents), а забраняващата команда “Disallow” в “robots.txt” файла не трябва да съдържа повече от една команда на ред, въпреки че няма ограничения за броя редове;

9.    Както  User-agent, така и Disallow командата могат да бъдат използвани неограничен брой пъти за различните ботове на търсачки. Оставянето на празни редове в “robots.txt” файла за тези две команди ще действа само, ако е зададено за всяка от тях по отделно (на отделен ред);

10.    Използвайте само малки букви за всички команди, включени в “robots.txt” файла (изключение прави употребата на файла на case-sensitive платформи като Unix).

За повече правила и съвети относно употребата на “robots.txt”, посетете: http://www.robotstxt.org/wc/norobots.html

Comments

  • Иво Иванов
    June 17, 2009

    Поредната полезна статия.

    Няколко мита за robots.txt

    1.Robots.txt е задължителен файл, без който Гугъл няма да ви индексира.

    2.Необходими са, за да могат роботите по-лесно да обходят сайта ви

    3.Използването на Disallow в robots.txt гарантира на 100%, че страницата няма да бъде индексирана

  • Ivan Petkov
    June 17, 2009

    Много добра статийка, винаги съм се чудил за какво е това файлче, което между другото нищо не съдържа поне в моя случай. Хубаво ще е ако може да сложите и малко примери за това какво точно може да се пише като команди в този файл. Например:

    User-agent: *
    Disallow: /test/

    първия ред значи, че давам достъп на всички ботове, а втория, че не искам ботовете да индексират /тест директорията на сайта ми.

    Нещо което може да е от полза на хората които имат блогове на уърдпрес е, че има готови плъгини които им дават достъп до този файл, например KB Robots.

    Иван

  • Zaya
    June 8, 2010

    Е аз не винаги използвам само малки букви за команди 🙂 Парсвам си сайтмап-а с команден ред Sitemap: 🙂

  • Пламен
    January 27, 2011

    До колкото разбрах този файл не се поставя в HTML документа, а в главната директория на сайта.Така ли е?Защото, аз имам хостинг от hit.bg и там не се стукторира по папки, а всички файлове се наблъскват на едно място!И ако сложа този файл, трябва ли да махна мета таговете robots?

  • Lilacor
    January 30, 2011

    Да, правилата за роботите трябва да са поставени в root директорията, за да работят коректно. Купи си собствени домейн и хостинг и бягай надалеч от hit.bg, въпрос на време е да загине.

Leave a Reply

Your email is never published nor shared. Required fields are marked *

*

© SEO оптимизация от инж. Николай Стоянов 2008-2013 г. Всички права запазени.