дублирующийся контент

Дублирующийся контент

Написал Администратор
чт, 05/22/2008 - 03:55

Сидел, читал по делу документацию к Sphinx (кстати, рекомендую - написано нашим и несет много хороших задумок).

В процессе чтения наткнулся на такие слова.

Phrase rank is based on a length of longest common subsequence (LCS) of search words between document body and query phrase

Полез выяснять что есть LCS. Выяснил. Появилась мысль о том, что поисковики анализируют документ на наличие дублирующегося контента не на основе шинглов, а на основе LCS функции. С моей точки зрения выглядит вполне логично. А с вашей?

p.s.
вопрос адресован не для говнокомменторов :)