Описание алгоритма bm25

Описание алгоритма bm25

В период 70-80-х гг XX века ученые из Британии Карен Спар Джоунс и Стивен Робертсон смогли разработать уникальный вероятностно-поисковой механизм. Именно благодаря их работе и возник алгоритм ранжирования bm25, о котором и пойдет речь в данном материале. Смысл функции сводится к установлению релевантности документа конкретному поисковому запросу. Иными словами реализуется анализ документа, в формулу проставляются соответствующие значения, происходит процесс расчета по отношению к прочим документам, что имеются в коллекции. В результате предоставляется определенная оценка, что сказывается на ранжирование данного документа на странице результатов поиска. Да, немного запутанно.

Такую функцию очень часто называют «Okapi bm25», благодаря поисковику, который появился в 80-90-х годах в Лондонском городском университете.

Каким образом происходит расчет

Пусть задан запрос Q, который содержит слова q1…qn. В таком случае бм 25 выдает нам оценку релевантности документа В к запросу Q:

Мы не будем разбирать всю формулу bm25 полностью, но пройдемся по основным значениям. f (qi, D) это частота слова qi в документе D, |D| является длиной документа (рассчитывается из количества в нем слов). аavgdl — это средняя длина документа в коллекции. k1 и b — это свободные коэффициенты, зачастую выбирают как k1 = 2.0 и b = 0.75. IDF (qi) представляет из себя обратную документную частоту слова qi. В настоящее время существует несколько объяснений IDF и небольших вариаций его формулы. В классическом варианте в bm 25 она определяется так:

где N обозначает суммарное количество документов в коллекции, а n (qi) — показывает числовое значение документов, которые содержат qi. Но в основном применяются более адаптированные варианты формулы, одна из них выглядит так:

Важно отметить, такая формула IDF имеет один недочет. Для тех слов, что включены в большую половину документов из коллекции – так или иначе IDF будет отрицательным. Если объяснить обычными словами, два практически идентичных документа, один из которых имеет определенное слово, а второй не имеет – только второй документ сможет в результате получить более высокую оценку. Иначе говоря, если слова очень часто можно встретить в документе, в итоге это возымеет негативный эффект на заключительную оценку документа. Именно это считается негативным эффектом во время расчета вм25, вот почему в различных приложениях эта формула поправляется таким образом:

  • пренебрежение в сумме всех слагаемых (это похоже с процессом внесения в стоп-лист для игнорирования в тексте всех высокочастотных слов);
  • путем накладки на функцию IDF определенной нижней границы \varepsilon: в случае когда значение IDF меньше – ее считают равной \varepsilon;
  • применение иной формулы IDF, что не станет принимать отрицательные значения.

BM25 °F является видоизмененной BM25, в которой документ оценивается как комплекс определенных блоков (к примеру, основная часть текста, подзаголовки h1-h3, ссылочный текст), общая длина которых независимо приходит в норму, каждому участку проставляется своя мера значимости в окончательной функции ранжирования.

К сожалению, по сей день точный вид формулы вм25, полноценный перечень критериев, считаются коммерческой тайной поисковиков. И это весьма закономерно, поскольку, обладая точными сведениями веб-мастеры в своих интересах смогут еще сильнее влиять на алгоритм.

Прокачай ПФ. Читай больше про SEO
0
С уважением, Павел Гречко

В SEO с 2006 года. Продвигаю коммерческие сайты в Яндекс и Google.

Лью целевой трафф на коммерческие сайты: интернет-магазины, сайты услуг, сайты компаний.
Использую каналы: SEO, DIRECT, ADWORDS, TARGET

Даю бесплатные консультации, вопросы задавайте прямо в комментариях.
Мои услуги

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *