Нека започнем тази важна статия с дефиницията на думата интернет търсачки. След това ще разгледаме и видовете търсещи машини.
Какво е търсачка?
Терминът търсеща машина (search engine) често се използва погрешно за описване както на интернет търсачки, така и на директории. Всъщност, това са две различни понятия.
Разликата между търсачка и директория се крие в начина, по който се генерират резултатите в индексите им (базите им с данни).
Видове интернет търсачки, ботове, логове и индексация
Съществуват 4 основни вида интернет търсачки. Те са следните:
- Използващи ботове (паяци);
- Директории (най-често са каталози, поддържани от хора);
- Хибридни търсачки (МЕТА търсачки и такива използващи резултатите от други търсещи машини);
- Търсачки, базирани на принципа “pay-per-performance” и добавящи сайтове срещу заплащане.
В тази статия ще се запознаем по-отблизо с първия вид търсещи машини – тези, използващи ботове (от англ. – crawlers, crawler-based SEs) и принципът на тяхното действие.
Този тип търсачки още са наричани паяци, заради факта, че използват специализиран софтуер, който автоматично и регулярно обхожда уеб сайтовете и допълва техните огромни уеб бази.
Какво е бот или паяк?
Този софтуер най-често е наричан “бот”, “робот”, “паяк” или “кроулър”. Всички тези термини означават едно и също нещо – програма, на принцип на която работят този тип търсачки.
Те обхождат всички уеб страници, които вече са включени в техния индекс (база данни) и намират сайта ви, следвайки линковете от тях.
Съответно, веднъж щом сте направили регистрация на сайт в търсачки, тези страници се “нареждат на опашка” и чакат реда си да бъдат сканирани от бот. Той открива страницата ви, докато обхожда опашката от чакащи сайтове за преглед.
След като ботът е открил дадена страница за сканиране, той си “припомня” и достъпва тази страница чрез HTTP.
Това става като всеки интернет потребител, който пише URL адреса й в полето на своя уеб браузър и натиска “Enter”.
Сървър лог
Отново по подобие на хората, този софтуер бива регистриран от вашия сървър, т.е. вписан е в сървър лог-а.
Следователно, именно чрез този лог (регистър) можете да проверите кога дадена търсачка е индексирала сайта ви, т.е. неин бот я е посетил и обходил.
Вашият уеб сървър връща в отговор HTML сорс кода на страницата ви на паяка. Паякът я прочита (този процес се нарича “индексиране” или “обхождане”) и точно тук започва разликата между хората и индексиращия софтуер.
Докато хората могат да оценят качествените графики и впечатляващите Флаш анимации, паякът не може. Хората не четат META таговете, докато ботовете четат само тях.
Само опитните потребители проявяват интерес към сорс кода на дадена уеб страница, търсейки допълнителна информация за нея. Ние хората първо забелязваме най-едрия и атрактивен шрифт на страницата.
Паякът, от друга страна, отдава най-голямо значение на текста, който е най-близо до началото и края на уеб страницата и на този “обвит” с линкове.
Може би сте похарчили цяло състояние, за да изградите сайт убиец, който моментално да запленява своите посетители и да печели тяхното възхищение.
Дори сте имплементирали много висококачествени Флаш анимации и JavaScript хитрини. На практика, ботът на търсачката е вид програма, която единствено “вижда” къде в сайта има снимки и някакъв код.
Решението наречено SEO
SEO оптимизация (оптимизацията на сайтове) е решението как да направите своите страници по-лесни за откриване от търсещите машини.
Оптимизацията най-често е ориентирана към бот базираните интернет търсачки, които са и най-популярни в интернет пространството.
Никой не е казал непременно да избягвате иновациите в дизайна (Flash, JavaScript), вместо това ще ви науча как да ги комбинирате правилно за нуждите на оптимизацията за търсещи машини.
Нека се върнем на принципа на работа на паяка.
След като “прочете” вашите страници, той ги компресира (архивира) по специален начин и ги складира в огромната база данни на търсачката. Тази база се нарича индекс.
Данните се съхраняват е нея по начин, който е удобен за бърза оценка на релевантността на съдържанието на уеб страницата спрямо отправена заявка.
Ако има съвпадение между заявката и контента, ботът извлича тези резултати, които сметне за подходящи в низходящ ред. Това са и резултатите, които виждат потребителите, в отговор на зададените от тях ключови думи за търсене.
Какво е индексиране и класиране на сайт?
Процесът на вкарване на вашата страница в базата данни на търсачката се нарича индексиране.
След като страницата бъде индексирана, тя се появява в SERP (search engine results pages) за тези думи и фрази, които присъстват най-често в съдържанието й. Нейната позиция в резултатите, обаче, може да варира.
По-късно, когато някой търси по дадена ключова дума с търсачката, вашата страница ще бъде “извадена” от индекса и включена в резултатите.
Днешните интернет търсачки използват усъвършенствани техники, с които преценяват доколко релевантна е една страница спрямо зададено търсене.
Те взимат под внимание множество фактори на on-page SEO оптимизацията и off-page SEO оптимизацията и отрежда на уеб страницата съответна позиция или ранг.
Този процес се нарича „ranking„ (в буквален превод – даване на ранг), а ние ще го превеждаме като “позициониране” или класиране на сайт.
Google (www.google.com) е типичен пример за бот базирана търсачка в интернет (crawler-based SE).
Уеб директории
Директориите, редактирани от хора, са различни. Страниците, които се съдържат в техните бази, се добавят единствено чрез ръчно добавяне на сайт в директории (събмитване).
Уеб директориите, в голямата си част, изискват ръчно добавяне от потребител и използват определени механизми (предимно CAPTCHA снимки), което се прави с цел да се попречи на сайтове да бъдат събмитване автоматично.
CAPCHA представлява малка снимка с букви и цифри на нея, която изисква да напишете в клетката отдолу това, което виждате на нея.
След завършване на процедурата, вашият линк ще бъде добавен към сайтовете, които чакат одобрение от редактор. Редакторите са хора, това е и основната разлика между онлайн директориите и бот базираните търсачки.
Когато редакторите на съответната уеб директория разгледат вашия сайт, единственото, което трябва да решат е дали да го приемат или отхвърлят.
Повечето директории нямат свой собствен механизъм за оценка – те използват различни видими фактори, за да подредят URL-ите (линковете). Такъв начин е азбучната подредба или Google PageRank, например.
Много е важно да събмитвате сайтовете си с релевантно (подходящо) и прецизно описание. По този начин, вие ще покажете на редакторите на директорията, че се отнасяте сериозно към добавянето на сайта ви в нея.
Взаимодействие между търсещи машини и уеб директории
Базираните на ботове интернет търсачки често използват директориите като източник на нови страници за обхождане (сканиране). В оптимизацията за търсачки добавянето директориите трябва да се третира като сериозна и отговорна дейност.
Бот базираните търсещи машини посещават сайта ви регулярно след неговото индексиране (добавяне в тяхната база данни) и засичат промените в страниците му.
За разлика от тях, директориите не работят на този принцип. При тях резултатите са повлиявани от хората.
Ако не напишете кратко описание на сайта, който добавяте в дадена онлайн директория, редакторите й ще го направят вместо вас.
При търсене само тези описания, които са добавени от вас или от редакторите биват сканирани за съвпадения.
Това означава, че всякакви промени, които са настъпили в съдържанието на вече добавения сайт, няма да се отразят на неговото описание в съответната уеб директория.
Тъй като директориите обикновено се създават и поддържат от опитни редактори, те често дават по-добре филтрирани резултати. Най-известните и стойностни директории са Yahoo (www.yahoo.com) и DMOZ (www.dmoz.org).
Хибридни търсачки
Някои интернет търсачки също имат и интегрирана директория към тях. Те съдържат уеб сайтове, които вече са били дискутирани или оценявани.
Когато се отправи запитване към една хибридна търсачка, сайтовете, които вече са оценени, обикновено не се сканират за съвпадения. Потребителите трябва изрично да ги изберат.
Дали един сайт ще бъде добавен към директорията на хибридната търсеща машина е основно комбинация от качество на съдържанието и известна доза късмет.
Понякога собствениците на сайтове могат собственоръчно да кандидатстват за оценка на своя сайт, но няма никаква гаранция, че той ще бъде прегледан и добавен към директорията (списъка).
Въпреки, че Yahoo и Google, бяха споменати в предишните статии като типични представители съответно на директория и бот базирана търсачка, в същността си те са хибридни.
Такива са и повечето популярни интернет търсачки в днешно време.
МЕТА търсачки
Друг подход към търсенето в необятния Интернет е използването на т.нар. мета търсачки, които комбинират резултатите от няколко търсещи машини едновременно.
Една и съща заявка бива преведена на няколко езика, с цел да се намери търсената информация от потребителя. Резултатите от търсенето са обединени в един единствен списък с резултати.
Този тип търсене позволява на потребителя да покрие огромно количество материал по ефективен начин, като се оставя място за допустими неточности при търсенето по ключови думи на различните езици.
Примери за Мета търсачки са MetaCrawler (http://www.metacrawler.com) и DogPile (http://www.dogpile.com).
Pay-for-performance и платени търсачки
Както става ясно от подзаглавието, тези интернет търсачки включват сайта ви срещу заплащане.
Таксата обикновено е еднократна (при подаването на заявката за включване) и гарантира включване, редовно обхождане на уеб съдържанието от паяк (бот) или високи позиции на сайта за ключова дума по ваш избор.
Има много малко изцяло платени търсещи машини, но повечето от най-популярните интернет търсачки предлагат и такава опция като част от тяхната система за индексиране и оценяване.
За разлика от платеното включване, където трябва да заплатите, за да бъдете включени в SERP-a, една програма за платени списъци ви гарантира, че сайтът ви ще се появи сред резултатите при търсене по определена ключова дума. По този начин, вие ще постигнете по-добро пласиране сред резултатите от търсенето.
Можете да се включите в платени списъци от портал или мрежа за търсене (от англ. – Search networks). Тези мрежи често работят на принципа на аукционите, където ключовите думи и фрази са обвързани с т.нар. cost-per-click (от англ. – цена за клик) такси.
Такава схема е наричана Pay-Per-Click (от англ. – плати за клик). Yahoo и Google са най-големите доставчици на услугата “платени списъци”, както и Windows Live Search (бивш MSN), които също предлагат такава опция.
Основни факти за директориите и търсещите машини
Ето кои са основните неща, които трябва да запомните от статиите посветени на търсещите машини и директории:
- Търсещите машини се разделят основно на бот базирани, директории, МЕТА и платени търсачки;
- Бот базираните търсачки използват програми наречени ботове, роботи, паяци или кроулъри. Така те добавят нови страници към индексите си (бази данни). Директориите се модерират от хора, които ръчно попълват базите им с данни;
- След като един сайт е вече включен в индекса на бот базираната търсачка, той се появява в резултатите от търсенето. Позицията му по ключови думи ще зависи от това доколко паякът намира търсената информация за релевантна спрямо съдържанието на сайта;
- Позициите на сайта в списъците на директориите оказват голямо влияние върху позициите му в бот базираните търсачки.
Бот-базирани интернет търсачки
В предишните статии дискутирахме принципа на работа на бот базираните търсачки. Както вече знаем, специализираният софтуер (бот, паяк) разглежда даден сайт като “чете” сорс кода му.
След като бъде успешно обходен, сайтът бива добавен към базата данни на търсачката, която се нарича индекс. Съответното действие пък е по-известно като индексиране.
Накрая, когато се извърши търсене през търсачката по съответна ключова дума, тя извежда от своя индекс резултатите, които счита за релевантни. После ги подрежда по низходящ ред за удобство на потребителите. Този процес се нарича класиране (от англ. – ranking).
Обикновено, при индексиране, търсачките използващи ботове отчитат много повече фактори от тези, които вие можете да откриете във вашите страници.
Следователно, преди да добави дадена страница към индекса си, паякът ще отчете и следните допълнителни фактори:
- Колко други страници водят (линкват) към вашата;
- Какъв анкор текст (от англ. Anchor – котва, в случая – текст, който пояснява накъде води даден линк) е използван;
- С какъв PageRank са страниците, които сочат към вашия сайт;
- Включена ли е страницата в директории и в какви категории (ако са сходни с вашата, “тежестта” на линка е значително по-голяма) и т.н.
Тези „off-page“ фактори (от англ. – извън страницата) са от изключително значение при оценяването на даден сайт от една бот базирана търсачка.
На теория, всеки би могъл изкуствено да повиши релевантността на своите страници по дадени ключови думи, посредством напасване на съответните HTML зони спрямо тях.
Дотук добре, но помислете колко по-малък контрол имате върху останалите уеб страници в интернет пространството, които са поместили линк към вашия сайт.
Ето защо, „off-page“ факторите имат значително по-голяма тежест за ботовете на търсачките.
В следващите статии ще обърнем специално внимание на търсещите машини, които използват ботове (паяци). Ще се научим как да ги караме да индексират нашия сайт и да го оценяват възможно най-високо.
Въпреки, че тази тема няма общо със самия SEO процес, той ще обогати SEO познанията ви с ценна информация за начина, по който ботовете “гледат” на уеб страниците.
Да се научите да гледате през очите на ботовете е от огромно значение за бъдещия успех на вашите онлайн проекти.
Търсачката Гугъл
Гугъл е най-известната търсачка в света и засега печели убедително надпреварата с основните си конкуренти сред гигантите в бранша – Yahoo! и Live Search.
Нейният дял в потребителското търсене възлиза на над 87%. Гугъл съхранява в индекса си трилиони уеб страници така, че интернет потребителите да могат да намерят точно това, което търсят.
В допълнение към това, Гугъл предоставя множество услуги, SEO инструменти (тулове), рекламни мрежи и уеб решения за вашия бизнес.
Чрез тях вие можете успешно да поддържате високи позиции в SERP-а му (от англ. – Search Engine Result Pages, т.е. резултати в търсачките).
Google Search Console
Можете да добавите своя уеб сайт като се регистрирате безплатно в Google Search Console. След това трябва да добавите сайта си през SEO инструмента и да включите през него своята карта на сайт.
Имайте предвид, че Гугъл може и да игнорира вашата ръчна заявка за добавка на сайта ви към неговия индекс. Понякога процесът отнема няколко дни, а друг път – броени минути.
Дори, ако бот на Гугъл намери вашия сайт и го обходи, търсачката може и да не го одобри за добавяне към своята база данни. Най-често това се случва, ако няма никакви външни линкове (от други сайтове), които да водят към сайта ви.
Ако обаче търсачката ви открие, следвайки линкове от други сайтове, които са вече индексирани и водят към уеб сайта ви, тогава шансовете ви за включване в индекса на най-популярната търсеща машина рязко нарастват.
Тогава Гугъл може да добави вашия сайт без да сте полагали каквито и да било усилия това да стане.
В заключение ще кажа, че ръчното добавяне в Гугъл може да спомогне сайтът ви да бъде индексиран. Но линковете определено са много по-сигурен и по-бърз вариант за това.