Сидел, читал по делу документацию к Sphinx (кстати, рекомендую - написано нашим и несет много хороших задумок).
В процессе чтения наткнулся на такие слова.
Phrase rank is based on a length of longest common subsequence (LCS) of search words between document body and query phrase
Полез выяснять что есть LCS. Выяснил. Появилась мысль о том, что поисковики анализируют документ на наличие дублирующегося контента не на основе шинглов, а на основе LCS функции. С моей точки зрения выглядит вполне логично. А с вашей?
p.s.
вопрос адресован не для говнокомменторов :)
