Как Google открива спам на страници?

Докато има търсачки, има и спам страници. Google се стреми да направи търсенето възможно най-добро. Основната задача на алгоритъма за търсене е да задоволи мотивите и нуждите на потребителя, като предостави най-подходящата информация за заявката в първите резултати от търсенето.

Много уебмастъри се опитват да манипулират резултатите от търсенето с Google, използвайки различни измамни техники, включително спам на страници.

Отношението на Google към спама е описано тук.

Как да идентифицирам спама на страницата

Каня ви, мои приятели, да прочетете откъси от два патента на Google, които описват методи за идентифициране на спам.

Нека да видим какво пише в този патент.

blog

Методи и системи за идентифициране на манипулирани предмети.
Патент No: US 7,302,645 B1
Дата на патента: ноември. 27, 2007

Ако дадена страница е идентифицирана като манипулирана в резултатите от търсенето, тя може да бъде класифицирана като спам.

По време на изпълнението на метода, външни сигнали, свързани с документа, и сигнали за документи.

Външни сигнали - например врати, външни връзки от гости и т.н.

Сигнали за документи:
- Текст нормален или автоматично генериран.
- Документът съдържа ли излишни ключови думи в мета тагове?.
- Прикрити пренасочвания (връзки) към други документи.
- Документът съдържа голям брой несвързани (случайни) връзки.

- История на документа - какъв е текстът в документа, структурата на връзките, последните промени, включително структурата на връзките.
- Кот текст - ако страницата има много връзки и малко текст или текстът не отговаря на котвата.
- Голям брой ключови думи, непропорционални на броя на изреченията.

Нека да преминем към следващия патент.

Спам на връзки и закотвяне на страници

Класиране въз основа на референтен контекст
Патент на САЩ 8,577,893
5 ноември 2013 г.

Един от методите се нарича спам на връзки. Спамът на връзките включва получаване на много връзки към конкретна страница, за да се повиши рангът на страницата.

Друг метод се отнася до закотвения спам. Това включва получаване на голям брой връзки със същата котва, с която трябва да бъде свързан документът.

Системата анализира около пет думи отляво на котвата и същия брой думи отдясно, разкрива най-рядко споменатите думи отляво и отдясно. След това се опитва да установи уместността на текста на близката връзка към котвата на връзката.

нежелани

Алгоритъмът сравнява думите в текста на почти връзката със същите думи на други уебсайтове (уеб страници) и анализира дали те се използват заедно с такава котва. Създават се контекстни идентификатори. Определете броя на появите на идентификатори на контекст в асоциация с препратка като контекст.

Въз основа на тази информация се съставя контекстен списък. Този списък, като един от многото фактори, е основата за изчисляване на рейтинга на страницата на акцептора..

Взети са под внимание и други идентификатори на контекста:
- Брой връзки на документ.
- Значението на уеб страниците, водещи към документ.
- Свежест на уеб страниците, които водят към документ.
- Други забележителни фактори за класиране.

Надявам се, че тази информация ще бъде добро допълнение към разбирането ви за референтните материали на Google, полезно при анализа на качеството на профила на връзката и ще ви позволи да идентифицирате точно спама на страниците.