Сидел, читал по делу документацию к Sphinx (кстати, рекомендую - написано нашим и несет много хороших задумок).
В процессе чтения наткнулся на такие слова.
Phrase rank is based on a length of longest common subsequence (LCS) of search words between document body and query phrase
Полез выяснять что есть LCS. Выяснил. Появилась мысль о том, что поисковики анализируют документ на наличие дублирующегося контента не на основе шинглов, а на основе LCS функции. С моей точки зрения выглядит вполне логично. А с вашей?
p.s.
вопрос адресован не для говнокомменторов :)
Trackback URL for this post:
http://www.stableversion.com/trackback/15
Комментарии
Я вообще как немного узнал про шинглы сильно усомнился в их использовании поисковиками для определения повторяющегося контента. Ибо насколько мне известно он основан на сравнении отдельных кусков текста (HTML кода) Но для того чтобы сравнивать 2 куска, надо делить на куски в одинковых позициях текста в разных источниках.
Имхо и шинглы не используются и LCS не используется. Потому что взял в строках навставлял пробелов ( ) и уже текст уникальный? Понятно что они могут напримери пробелы убирать, но всё же не уберешь и не предусмотришь все варианты.
Да в том то и дело, что насколько я понял, LCS устойчив к такого рода помехам.
По шинглам - не обязательно брать одинаковые позиции, там сравнение идем по групам шингл, так что небольшое дрожение в позициях будет сглажено.
Отправить комментарий