Дублирующийся контент

Написал Администратор
чт, 05/22/2008 - 03:55

Сидел, читал по делу документацию к Sphinx (кстати, рекомендую - написано нашим и несет много хороших задумок).

В процессе чтения наткнулся на такие слова.

Phrase rank is based on a length of longest common subsequence (LCS) of search words between document body and query phrase

Полез выяснять что есть LCS. Выяснил. Появилась мысль о том, что поисковики анализируют документ на наличие дублирующегося контента не на основе шинглов, а на основе LCS функции. С моей точки зрения выглядит вполне логично. А с вашей?

p.s.
вопрос адресован не для говнокомменторов :)

Trackback URL for this post:

http://www.stableversion.com/trackback/15

Комментарии

Vladimir (не проверено) - чт, 05/22/2008 - 09:41

Я вообще как немного узнал про шинглы сильно усомнился в их использовании поисковиками для определения повторяющегося контента. Ибо насколько мне известно он основан на сравнении отдельных кусков текста (HTML кода) Но для того чтобы сравнивать 2 куска, надо делить на куски в одинковых позициях текста в разных источниках.

Имхо и шинглы не используются и LCS не используется. Потому что взял в строках навставлял пробелов ( ) и уже текст уникальный? Понятно что они могут напримери пробелы убирать, но всё же не уберешь и не предусмотришь все варианты.

Администратор - чт, 05/22/2008 - 10:11

Да в том то и дело, что насколько я понял, LCS устойчив к такого рода помехам.

По шинглам - не обязательно брать одинаковые позиции, там сравнение идем по групам шингл, так что небольшое дрожение в позициях будет сглажено.

Отправить комментарий

Содержание этого поля является приватным и не предназначено к показу.
  • Адреса страниц и электронной почты автоматически преобразуются в ссылки.
  • Allowed HTML tags: <a> <em> <strong> <cite> <code> <ul> <ol> <li> <dl> <dt> <dd>
  • Строки и параграфы переносятся автоматически.
  • You can enable syntax highlighting of source code with the following tags: <code>, <blockcode>, <pre>.
  • Use <fn>...</fn> to insert automatically numbered footnotes.

Подробнее о форматировании