首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Okapi BM25中的平均文档长度

Okapi BM25中的平均文档长度
EN

Stack Overflow用户
提问于 2014-04-18 20:20:34
回答 1查看 2K关注 0票数 7

我正在研究Okapi BMS25模型。除了两种困惑,我什么都懂。在计算文档长度(dl)和平均文档长度(avdl)时。我发现文件的长度是

因此,它是我在特定文档中关键字/术语的总和。但当我看到wiki的主管:

所以,用单词表示文档D的长度(也就是单词总数的总和)。现在,问题是,dl实际上是什么?

现在,第二个问题是如何计算avdl?(只是计算(doc1+doc2+...N)/N,其中N是我收集的全部没有文档?)( avdl是用于整个收集的吗?)

EN

回答 1

Stack Overflow用户

发布于 2014-04-18 20:35:15

根据概率模型BM25 25/BM25F与Lucene的集成中的Joaquérez-Iglesias,分数函数R应定义如下:

比如

  • occurs_t^dtd中的术语频率,
  • l_d是文档的d长度。
  • avl_d是文档沿集合的平均长度。
  • k_1是一个自由参数,在0,1中通常是2和b

将0分配给b相当于避免了规范化过程,因此文档长度不会影响最终得分。

如果b采取1,我们将进行一个完整的正常化。

其中N是集合中的文档数,df是出现术语t的文档数。

票数 7
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/23161677

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档