В свое время я обещал рассказать о таком способе определения нечетких дублей текстов как метод описательных слов.Вы можете прочитать первую часть тут —Поисковые системы и не уникальный контент. Часть 1. . По данным разведки что-то похожее использует яндекс, так что иметь представление об этом методе определенно стОит. Как и в прошлый раз по шагам объясню как работает этот метод:
- Берем все множество слов встречающихся в веб-документах.
- Выкидываем из этого множества слов некий список слов не несущих смысла а также прилагательные. Вот этот момент я, кстати, не совсем допонял. Почему это прилагательные не несут смысла? Ну да ладно…
- Лемматизируем полученные слова (приводим к словарному виду).
- Выкидываем слишком редко встречающиеся слова (в основном всякие специфические термины) и слишком часто встречающиеся слова. В результате должен остаться список примерно из нескольких тысяч слов.
- Для каждого слова устанавливаем некое предельное значение частоты появления в тексте данного слова.
- Берем двоичную последовательность с количеством разрядов равным количеству слов в списке. Устанавливаем значение разряда в 1 если частота появления соответствующего слова в анализируемом тексте превышает предельно допустимую. В противном случае этот разряд устанавливается в 0.
В итоге для каждого анализируемого текста мы получаем описывающую его двоичную последовательность, довольно таки устойчивую к незначительным изменениям в тексте.
О чем следует помнить человеку занимающемуся рерайтингом или уникализацией текстов с учетом этого метода?
- Переставлять местами слова/предложения/абзацы не имеет смысла, ибо состав слов в тексте от этого не меняется.
- Всевозможные манипуляции с прилагательными также не дадут эффекта, так как они просто не учитываются.
В общем получается так, что надо сконцентрироваться на синонимизации существительных и глаголов. Но это отдельная песня, так как я подозреваю, что у яндекса с синонимизацией тоже все в порядке.