Поисковые системы и неуникальный контент. Часть 2.

site-content

В свое время я обещал рассказать о таком способе определения нечетких дублей текстов как метод описательных слов.Вы можете прочитать первую часть тут —Поисковые системы и не уникальный контент. Часть 1. . По данным разведки что-то похожее использует яндекс, так что иметь представление об этом методе определенно стОит. Как и в прошлый раз по шагам объясню как работает этот метод:

  1. Берем все множество слов встречающихся в веб-документах.
  2. Выкидываем из этого множества слов некий список слов не несущих смысла а также прилагательные. Вот этот момент я, кстати, не совсем допонял. Почему это прилагательные не несут смысла? Ну да ладно…
  3. Лемматизируем полученные слова (приводим к словарному виду).
  4. Выкидываем слишком редко встречающиеся слова (в основном всякие специфические термины) и слишком часто встречающиеся слова. В результате должен остаться список примерно из нескольких тысяч слов.
  5. Для каждого слова устанавливаем некое предельное значение частоты появления в тексте данного слова.
  6. Берем двоичную последовательность с количеством разрядов равным количеству слов в списке. Устанавливаем значение разряда в 1 если частота появления соответствующего слова в анализируемом тексте превышает предельно допустимую. В противном случае этот разряд устанавливается в 0.

В итоге для каждого анализируемого текста мы получаем описывающую его двоичную последовательность, довольно таки устойчивую к незначительным изменениям в тексте.

О чем следует помнить человеку занимающемуся рерайтингом или уникализацией текстов с учетом этого метода?

  • Переставлять местами слова/предложения/абзацы не имеет смысла, ибо состав слов в тексте от этого не меняется.
  • Всевозможные манипуляции с прилагательными также не дадут эффекта, так как они просто не учитываются.

В общем получается так, что надо сконцентрироваться на синонимизации существительных и глаголов. Но это отдельная песня, так как я подозреваю, что у яндекса с синонимизацией тоже все в порядке.

Добавить комментарий

Ваш e-mail не будет опубликован.

семнадцать − четыре =

Можно использовать следующие HTML-теги и атрибуты: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>