Веб-спам: полное руководство

Mutt

Professional
Messages
1,059
Reputation
7
Reaction score
573
Points
113
Понимание границ и безопасная игра
Вы веб-спамер? Нет, я серьезно. Если есть одна область, которую не всегда понимают многие поисковые запросы и маркетологи, то это штрафы и фильтры от поисковых систем. Это то, что вы часто найдете в кругах SEO. Нам не нужно искать ничего, кроме дублированного контента. Хотя это (как правило) фильтр, нет недостатка в людях, которые называют это «штрафом за дублирование контента».

Поэтому я подумал, что было бы неплохо взглянуть на многогранность веб-спама с точки зрения поискового инженера. Речь идет не о том, чтобы научить вас быть лучшим спамером - на самом деле, как раз наоборот, поскольку я не фанат этой чуши. Конечно, у меня есть несколько товарищей, которые играют в мире черных шляп, но они хорошо знают, что я не фанат этого и не загрязняю Интернет в целом.

Мы надеемся, что это путешествие поможет вам избежать тактики или групп действий, которые могут подвергнуть риску вашего клиента или ваши собственные веб-сайты.

Определение веб-спама
Что такое веб-спам? В исследовании для этой публикации это показалось мне лучшим или, по крайней мере, наиболее кратким определением, с которым я столкнулся:
любое преднамеренное действие человека, которое призвано вызвать неоправданно благоприятную релевантность или важность какой-либо веб-страницы, учитывая ее истинную ценность (из таксономии веб-спама, Стэнфорд).

Хмммм. Либо это? Если бы это было так, мы ВСЕ были бы спамерами, поскольку то, что мы делаем, как оптимизаторы поисковых систем, - это несколько попыток сложить колоду. Черт возьми. Ну что ж. Еще интереснее то, что в Стэнфордской статье говорится:
Важным голосом в области веб-спама являются оптимизаторы поисковых систем (SEO), такие как SEO Inc. (www.seoinc.com) или Брюс Клей (www.bruceclay.com).

Ой. Совсем не приятно - как насчет:
Большинство специалистов по поисковой оптимизации утверждают, что спам только увеличивает релевантность для запросов, не связанных с темой (ами) страницы. В то же время многие SEO-специалисты рекомендуют и практикуют методы, которые влияют на оценку важности для достижения того, что они называют «этичным» позиционированием или оптимизацией веб-страниц. Обратите внимание, что в соответствии с нашим определением все типы действий, направленных на повышение рейтинга без повышения истинной ценности страницы, считаются спамом.
Черт возьми - это напоминает нам, что оптимизаторы поисковых систем не преступники, но они определенно враги. Давайте немного отклонимся и посмотрим, что спам - это явная манипуляция, которая не добавляет ценности и направлена на использование алгоритмической слепоты алгоритма поиска, хорошо? Лол - оставь это как есть. И никогда не забывайте, они не любят нас (оптимизаторов поисковых систем).

Типы веб-спама
По сути, существует два типа рассылки спама: повышение (усиление) и скрытие.

Повышение
Это когда кто-то предпринимает действие, предназначенное (ложно?) Для увеличения или повышения ценности страницы.
  • Термин спам: это могут быть те, кто пытается манипулировать с помощью таких элементов, как TITLE страницы (спам в заголовках), Meta Description или Meta Keywords (meta spam). Как известно большинству из нас, двое из трех из них подверглись злоупотреблениям до такой степени, что большинство современных поисковых систем вообще не используют их как сигналы.
  • URL-спам - еще одна область, на которую они, как известно, также обращают внимание. Да, как бы странно это ни звучало, поскольку некоторые поисковые системы придают определенное значение URL-адресам, это можно рассматривать как манипуляцию.
  • Спам по ссылкам - еще один хорошо известный метод, который также включает спам с якорным текстом. Поисковые системы учитывают не только массу ссылочного спама, но и текст привязки, поскольку это один из наиболее важных сигналов с точки зрения ранжирования. Этот раздел, очевидно, также включает случаи, когда спамеры стремятся разместить ссылки на страницах, чтобы увеличить ценность целевых страниц (форумы, комментарии, гостевые книги и т.д.), И, очевидно, более гнусные методы взлома и удаления.

Методы сокрытия
Этот набор методов - это когда кто-то использует обычно незаметные методы повышения рейтинга страницы. Или, что более уместно, сокрытие техник усиления. Это, безусловно, более проблематично, и поисковые системы склонны рассматривать их как более коварные, чем те, которые вызывают повышение.
  • Скрытие контента: это методы, при которых термины и ссылки скрываются при отображении страницы браузером. Наиболее распространенные подходы заключаются в использовании цветовых схем, которые делают соответствующие элементы фактически невидимыми.
  • Маскировка: Мы все это знаем, верно? Это когда кто-то идентифицирует сканера поисковой системы и пытается показать пауку другую версию страницы, чем это было бы для обычного пользователя. Это, как предполагается, сокращает количество сообщений пользователей или конкурентов, которые в противном случае могли бы увидеть страницу со спамом.
  • Перенаправление: страница автоматически перенаправляется браузером таким же образом, так что страница индексируется движком, но пользователь никогда ее не увидит. По сути, действует как прокси / портал для игры с движком и вводит пользователей в заблуждение.

Подходы к борьбе со спамом

Контент-спам
Язык. В ходе некоторых тестов поисковые инженеры смотрели на фактические языки страниц, чтобы увидеть, что они могут найти. Примечательно, что французский язык чаще всего считался спам-фестивалем, после чего шли немецкий и английский языки. Я нашел этот образец интересным.

Домен: Я уверен, что неудивительно, что домены .BIZ, как было установлено, имеют гораздо более высокий уровень спама, чем любые другие. За этим последовали домены .US и .COM. Но .BIZ были на голову выше остальных - держитесь от них подальше, хорошо?

Количество слов на странице: еще один часто используемый подход. Они обнаружили, что страницы с большим количеством текста часто содержали больше спама. Эта кривая действительно уменьшалась один раз за 1500 слов. С 750-1500, казалось, сладкое пятно спамеров.

Ключевые слова на странице TITLE: это еще одна область, на которую они будут обращать внимание, поскольку тестирование показало, что страницы со спамом, как правило, используют гораздо больше KW в элементе TITLE, чем страницы без спама.

Количество якорного текста. Другой интересный подход заключается в рассмотрении отношения текста к якорному тексту на странице. Это может быть на уровне страницы или сайта. Веб-сайты с высоким процентом привязки текста (к стандартному тексту) с большей вероятностью будут спамерскими.

Доля видимого содержимого: это относится к попыткам использования скрытого текста, не путать с соотношением кода к тексту. Они смотрят на процент текста, который фактически не отображается на странице.

Сжимаемость: в качестве механизма, используемого для борьбы с набивкой KW, поисковые системы также могут смотреть на степени сжатия. Или, более конкретно, повторяющиеся или вращающиеся по содержанию. Поисковые системы часто сжимают страницу, чтобы избежать индексации и обработки. Существует степень сжатия (несжатые, деленные на сжатые), которые, вероятно, будут иметь страницы со спамом.

Всемирно популярные слова: Еще один хороший способ найти набивку KW - это сравнить слова на странице с существующими данными запроса и известными документами. По сути, если кто-то KW наполняет данные термины, они будут использоваться более неестественно, чем запросы пользователей и заведомо хорошие страницы.

Спам в запросах. Учитывая рост анализа запросов, данных о кликах и персонализации, спамеры могут запрашивать различные целевые термины и нажимать на свои собственные результаты. Если посмотреть на структуру запросов в сочетании с другими сигналами, эта тактика станет статистически очевидной.

Спам на уровне хоста просматривает другие сайты и домены на уровне сервера и / или регистратора. Как и в случае с рейтингом доверия, спамеры часто находятся в одном районе с другими спамерами.

На основе фраз: при таком подходе вероятностная модель обучения с использованием обучающих документов ищет текстовые аномалии в виде связанных фраз. Это похоже на набивку KW стероидами. Поиск статистических аномалий часто позволяет выявить спам-документы.

Ссылочный спам
TrustRank: у этого метода есть несколько названий, например TrustRank - это разновидность Yahoo. В основе концепции - наличие «хороших соседей». Исследования показывают, что хорошие сайты ссылаются на хорошие, и наоборот. Вас знает компания, которую вы составляете.

Наполнение ссылками: это больше похоже на подход на месте, когда спамер создает массу малоценных страниц и направляет все ссылки (даже на сайте) на целевую страницу. Спам-сайты, как правило, имеют более высокое соотношение этих типов неестественного внешнего вида (к обучающему набору заведомо хороших страниц).

Непотические ссылки: здесь у нас будет все, от платных до торгуемых (взаимных). Хотя это может быть туманной областью для оптимизаторов поисковых систем, поисковые системы наверняка считают манипуляцию ссылками в любой форме взаимной манипуляции открытой.

Топологический спам (фермы ссылок): хотя у нас есть свой собственный жаргон, поисковые системы будут анализировать процент ссылок на графике по сравнению с известными «хорошими» сайтами. Обычно у тех, кто хочет манипулировать двигателями, будет более высокий процент ссылок от этих местных жителей.

Временные аномалии. Еще одна область, в которой спам-сайты обычно отличаются от других страниц в корпусе, - это исторические данные. В индексе будет среднее значение получения и уменьшения количества ссылок с "нормальными" сайтами. Временные данные могут использоваться, чтобы помочь обнаружить спам-сайты, участвующие в неестественных привычках построения ссылок.

Уроки для SEO-специалистов
Какой в этом смысл? Мне эта тропа была интересна с нескольких точек зрения. Давайте посмотрим:
  • Ранжирование сигналов: если мы перепроектируем их обратный инжиниринг нас, мы сможем начать действительно видеть, какие сигналы важны, а какие они хотят защитить. Понимание того, что они защищают, говорит нам о том, что они считают важным. Верно?
  • Сигнальная воронка: учитывая количество усилий, приложенных к ссылочному спаму, мы знаем, что современные ориентированные на ссылки поисковые системы заинтересованы в менее разнообразных подходах к ранжированию. То есть, если вам НУЖНЫ ссылки для ранжирования, они знают, где искать спамеров. Работа с веб-спамом во многом зависит от будущего поиска. Смотри и учись.
  • Вы - плохие парни: как уже говорилось, мы не в списках рождественских открыток большинства поисковых инженеров. Знайте это и поймите это. Они терпят нас - даже самую благонамеренную «белую шляпу» среди нас.
  • Чаще встречается демпфирование: еще одна вещь, которую я узнал, заключается в том, что чаще всего, особенно при пограничном ссылочном спаме, сок отключается, а не деиндексируется сайт. Это штраф или фильтр? Это имеет значение?
  • Авторитет / доверие: Было бы разумно посмотреть, где мы играем. Укрепление авторитета и налаживание связей с другими известными организациями очень важны.
Как всегда, никогда не помешает лучше понять поисковые системы, если вы собираетесь оптимизировать для них. Черт возьми, может быть, если мы, как группа, начнем лучше понимать поисковых инженеров и их проблемы, они могут когда-нибудь говорить о нас хорошо. Нет, это просто глупый сон.

Комбинации создают спам-сигналы
Всегда важно помнить, что в большинстве случаев ни один сигнал или подход не считается окончательным. Поисковые системы часто используют различные методы для поиска спама. Для тех из нас, кто играет хорошо, это означает, что вероятность ложного срабатывания меньше.

Чтобы вовлечь своих клиентов или себя в горячую воду, как правило, вы должны удовлетворять более чем один элемент. При этом большинство людей в поисковом сообществе не являются большими поклонниками SEO, а есть такие, которые считают, что даже незначительные «манипуляции» должны быть наказуемыми. Насколько я знаю, нам пока не стоит слишком беспокоиться о линчевании. В конечном итоге существуют уровни и пороги, и пока вы избегаете отключения слишком большого количества проводов, все должно быть в порядке.

Одно можно сказать наверняка: вы станете гораздо лучшим специалистом в области SEO, если получите больше знаний в области поиска информации. Этот пост затрагивает некоторые общие аспекты - для тех, кому это интересно, есть ТОННА больше.

Надеюсь, вам понравилось путешествие ... перестраховывайтесь!

Патенты, статьи и видео
Прежде чем я уйду, вот множество исследований и материалов для чтения, которые вы можете прочитать, если хотите узнать больше - моя цель всегда - мотивировать людей учиться больше. Никакая отдельная запись в блоге не может передать справедливость какой-либо теме IR (информационного поиска). Ниже приведены некоторые из элементов, на которые я обращал внимание, собирая это вместе.

Статьи по исследованию веб-спама

Концепции TrustRank

Ссылочный спам

Неявные / явные сигналы

Маскировка
Социальный спам


Связанные с языком / семантикой

Видео
Темы включают поисковую рекламу и аукционы, поиск и конфиденциальность, ранжирование поиска, интернационализацию, меры по борьбе со спамом, локальный поиск, одноранговый поиск и поиск в блогах и онлайн-сообществах.

Патенты

Сигналы, связанные с доверием

Запросить спам

Ссылочный спам

Маскировка и перенаправление спама

Другое

Итак, если это не все, что вы когда-либо хотели знать о веб-спаме, то я не знаю, что это такое!
 
Top