Блог

0

Класификация на търсачките. Видове търсачки.

Терминът търсеща машина (SE) често се използва погрешно за описване както на търсачки, така и на директории. Всъщност, това са две различни понятия. Разликата между търсачка и директория се крие в начина, по който се генерират резултатите в индексите им (базите им с данни).

Съществуват 4 основни вида търсачки. Те са следните:

·    Търсачки, използващи ботове (паяци);
·    Директории (най-често са каталози, поддържани от хора);
·    Хибридни търсачки (МЕТА търсачки и такива използващи резултатите от други търсещи машини);
·    Търсачки, базирани на принципа “pay-per-performance” и добавящи сайтове срещу заплащане.

В тази статия ще се запознаем по-отблизо с първия вид търсещи машини – тези, използващи ботове (от англ. – crawlers, crawler-based SEs) и принципът на тяхното действие.  Този тип търсачки още са наричани паяци, заради факта, че използват специализиран софтуер, който автоматично и регулярно обхожда уеб сайтовете и допълва техните огромни уеб бази.

Този софтуер най-често е наричан “бот”, “робот”, “паяк” или “кроулър”. Всички тези термини означават едно и също нещо – програма, на принцип на която работят този тип търсачки. Те обхождат всички уеб страници, които вече са включени в техния индекс и намират сайта ви, следвайки линковете от тях. Съответно, веднъж щом сте добавили (събмитнали) страници в някоя търсачка, тези страници се “нареждат на опашка” и чакат реда си да бъдат сканирани от бот. Той открива страницата ви, докато обхожда опашката от чакащи сайтове за преглед.

След като ботът е открил дадена страница за сканиране, той си “припомня” и достъпва тази страница чрез HTTP (като всеки интернет потребител, който пише URL адреса й в полето на своя уеб браузър и натиска “Enter”). Отново по подобие на хората, този софтуер бива регистриран от вашия сървър, т.е. вписан е в сървър лог-а. Следователно, именно чрез този лог (регистър) можете да проверите кога дадена търсачка е индексирала сайта ви, т.е. неин бот я е посетил и обходил.

Вашият уеб сървър връща в отговор HTML сорс кода на страницата ви на паяка. Паякът я прочита (този процес се нарича “индексиране” или “обхождане”) и точно тук започва разликата между хората и индексиращия софтуер.

Comments

There are no comments yet.

Leave a Reply

Your email is never published nor shared. Required fields are marked *

*

© SEO оптимизация от инж. Николай Стоянов 2008-2013 г. Всички права запазени.