Грешки, засягащи индексирането на страниците на сайта, Всичко за индексирането на сайтове в търсачките на

Често сайтовете с отлично уникално съдържание са трудно достъпни за потребителите на търсачките, само защото разработчиците им не са се погрижили колко правилно тези сайтове могат да бъдат индексирани и класирани от търсачките. По-долу ще разгледаме най-често срещаните грешки и недостатъци, които пречат на правилното индексиране и класиране на сайтовете в търсачките. Тези грешки могат да бъдат грубо разделени на 3 големи групи:

1. Използване на конструкции, които затрудняват правилното индексиране на документи

2. Претрупване на индекси на търсачки с дублирани страници

3. Грешки, предотвратяващи най-пълното и бързо индексиране и повторно индексиране на сайта

Нека ги разгледаме по-подробно.

1. Използване на конструкции, които затрудняват правилното индексиране на документи.

Тези грешки могат да доведат до факта, че търсачките няма да могат да индексират някои страници от сайта изцяло или частично, а също така няма да могат да вземат предвид някои връзки между страниците на сайта.

Java скрипт, Vbscript

Етикет

Flash

Както и скриптове, Flash доскоро не беше индексиран от търсачките и цялата тази „красота“ не влизаше в базите данни на търсачките. Наскоро обаче някои търсачки (по-специално Rambler и Yandex) обявиха индексирането на Flash. Не бих препоръчал обаче широко да използвате тази технология, ако искате сайтовете Ви да се класират добре в търсачките.

Рамки

Пренасочвания

Пренасочване, т.е. пренасочвайки потребителя без активните му действия към друга страница, има два типа: изпълнява се от страна на сървъра и от страна на клиента. Пренасочването на клиент е много опасно нещо като цяло, сайт може да бъде забранен само за използването му. Факт е, че пренасочванията от страна на клиента обикновено се използват за спам на търсачките, използващи врати. Роботът индексира като обикновена страница, оптимизирана за всяка заявка, но когато потребителят влезе в страницата, той се пренасочва към друга страница.

2. Претрупване на индекси на търсачки с дублирани страници.

Невалидни отговори на сървъра.

Друга причина за затрупване на базата данни на търсачката и прилагане на последващи санкции може да бъде неправилна конфигурация на отговорите на сървъра или по-скоро неправилно заглавие на страницата, върнато от сървъра.

3. Управление на пълнотата на преиндексирането на сайта.

Често разработчиците на сайтове не мислят как да осигурят най-бързото и пълно индексиране и повторно индексиране на страниците на сайта. И ако за относително малки сайтове от няколко десетки страници това може да не е много уместно, то пренебрежението към такива неща в случай на сайтове, съдържащи голям брой документи, измерени в стотици и хиляди, може да доведе до факта, че роботите търсачките непрекъснато ще индексират едни и същи, неинформативни документи, заобикаляйки основното съдържание на сайта. Съществуват редица техники за постигане на по-бързо и пълно индексиране и повторно индексиране на страниците на сайта.

Разделяне на сайта на поддомейни.

Задаване на заглавката на отговора на сървъра на GET и HEAD с полето If-Modified-Since

При повторно индексиране роботите на търсачките изискват документи с полето If-Modified-Since, което съдържа датата на последното повторно индексиране. За статични документи сървърът генерира независимо коректен отговор на такава заявка - 200 OK, ако документът е бил променен след датата, посочена в заявката, или 304 Not Modified, ако не се е променил. Във втория случай роботът няма да изтегли документа и да го актуализира в своята база данни.

Въпреки това, за динамични документи, събрани в движение, сървърът може да върне само 200 OK. Следователно всеки динамичен документ ще бъде изтеглен и преиндексиран, включително тези, чието съдържание всъщност не се е променило от последното преиндексиране. Понякога такива документи могат да изберат цялата квота, разпределена за индексиране. Тоест търсачката няма да получи никаква нова информация за сайта. Следователно е препоръчително да принудите 304 Непроменен отговор в заглавката на отговорите към заявките GET и HEAD с полето If-Modified-Since за документи, чиято последна дата на модификация е налична, ако последната дата на модификация е по-ранна от датата в заявка. По този начин роботът ще получи информация, че документът не се е променил и, без да го изтегля, ще се позове на следващия документ в опашката. Ако роботът има ограничение за броя на документите, изтеглени в едно изпълнение, тогава по време на едно изпълнение той ще изтегли по-голям брой документи, които действително са променени или все още не са индексирани.

Забрана за индексиране на неинформативни или дублирани страници на уебсайтове.

Сайтът може да съдържа определен брой страници, чието съдържание е напълно неинформативно (например страници от фотогалерия, съдържащи само изображения) или дублира съдържанието на други страници (например различни режими на сортиране на информация в таблици). Препоръчително е да се забрани индексирането на такива страници, за да се индексират други страници на сайта по-бързо и по-пълно.

Има два начина да се забрани индексирането на страница от търсачката: използване на мета тагове или файл robots.txt За забрана на страница се използва метамаркерът "robots":

Следните директиви могат да бъдат приложени в атрибута съдържание:

Файлът трябва да съдържа един или повече записи, разделени с един или повече празни редове. Всеки запис се състои от редове във формата:

Записът трябва да започва с един или повече реда на User-Agent, последван от един или повече Disallow редове. Неразпознатите редове се игнорират.

Редът User-Agent съдържа името на робота на търсачката, за който страницата не е индексирана. Yandex има yandex, Rambler - StackRambler, Aporta - aport и Google - googlebot. Ако има няколко робота, за които искате да наложите една и съща забрана, тогава трябва да поставите няколко реда User-Agent един след друг в записа, като посочите името на съответния робот във всеки. Ако страниците трябва да имат забрана за индексиране от всички роботи, тогава трябва да използвате символа *. Такъв запис с полето "User-agent: *" може да бъде само един във файла robots.txt.

Всеки запис също трябва да има поне едно поле Disallow. Той посочва частичния или пълния път (URL) на забранените страници. Редовете с полето Disallow съдържат не абсолютни, а относителни префикси, т.е. това поле не трябва да посочва името на домейна на сайта - www.site.ru. Ако стойността Disallow не е посочена, това означава, че всичко може да бъде индексирано.

Потребителски агент: *
Забраняване:/sript/

Този запис забранява на всички роботи да индексират файлове, връзките към които съдържат пътя към директорията/sript /. За да деактивирате напълно индексирането, използвайте символа /. Нека забраним на Яндекс да индексира сайта:

Потребителски агент: yandex
Забрани:/

Потребителски агент: *
Забраняване: /page3.php;phpessionid

Страницата page3.php ще бъде индексирана нормално и всички копия от нея, започващи с page3.php; phpessionid ще бъдат забранени да индексират.

Наличието на robots.txt на сървъра не е задължително, неговото отсъствие, както и празен файл robots.txt или неправилно компилиран, ще бъдат интерпретирани от робота като разрешение за пълно индексиране на сайта.

Пълната документация за файловия протокол robots.txt е тук: http://www.robotstxt.org/wc/robots.html.

В ареста Искам да отбележа, че компетентното решение на всички разгледани проблеми е изключително важна и неразделна част от работата по популяризирането на уебсайтове в търсачките, тъй като пренебрежителното отношение към тези проблеми може значително да намали или дори да отмени ефекта от позиционирането на уебсайта.