Блог
-
10 Rules on using Robots Exclusion Protocol
The “robots.txt” file must always be named in lowercase, even if your site is hosted on a case-insensitive platform like Windows (e.g. “Robots.txt” or “robots.Txt” is incorrect). Wildcards are not supported in both the fields. “*” can only be used in the User-agent field command syntax to denote “all”. Googlebot is the only robot that now supports some wildcard file extensions, giving you the ability to exclude certain file types from indexing. For more information visit http://www.google.com/webmasters/ Website functionality is not affected if your robots.txt is absent or empty. Though it does open access for all robots to crawl all [...]
-
Robots.txt и ботът на Гугъл (Googlebot)
Googlebot и MSNBot тагове Както вероятно си спомняте, ботовете на Гугъл и MSN се наричат съответно GoogleBot и MSNBot. Когато обхождат уеб страниците тези ботове търсят за наличието на МЕТА тагове наречени META GoogleBot и META MSNBot. Тези тагове са създадени с идеята да дадат възможност на уебмастъри, които нямат достъп до root directory на техния домейн (където биха могли да поставят “robots.txt” файла) да забранят на някои части от сайта им да се индексират от ботовете на Гугъл и MSN. GoogleBot синтаксисът е следният: <meta name=”googlebot” content=”noindex” /> (можете да използвате също така “noindex”, “nofollow” или “noarchive”, или “nosnippet”, [...]
-
META Robots таг
Роботи Съществуват 2 начина, с които можете да ограничите ботовете на търсачките да обхождат сайта ви или отделни негови страници. Единият е да поставите т.нар. META Robots таг в HEAD секцията на своя сайт (действа само за тези страници, в чийто header е поставен), а вторият – посредством добавянето на специален файл с инструкции наречен “robots.txt“, който да поставите в основната директория (root directory) на сайта ви. Роботите са полезни по отношение на SEO оптимизацията откакто стана известно, че ботовете имат определен лимит от уеб страници, до който индексират даден уеб сайт. Какъвто и да е този лимит, едва ли [...]
-
Lesson (19): META Robots Tag and “robots.txt”
Robots There are two ways you can restrict a spider from crawling all or part of your site. First is by placing the META Robots tag within the “head” section of your HTML file (making it effective only for the pages where the tag is inserted). The second is to write a special instruction file called “robots.txt” and put it in the root directory of your site. Robots are useful in terms of SEO since it is understood that a search engine spider has a certain limit of pages within your domain to index. Whatever this limit might be, you [...]