我正在研究Okapi BMS25模型。除了两种困惑,我什么都懂。在计算文档长度(dl)和平均文档长度(avdl)时。我发现文件的长度是

因此,它是我在特定文档中关键字/术语的总和。但当我看到wiki的主管:

所以,用单词表示文档D的长度(也就是单词总数的总和)。现在,问题是,dl实际上是什么?
现在,第二个问题是如何计算avdl?(只是计算(doc1+doc2+...N)/N,其中N是我收集的全部没有文档?)( avdl是用于整个收集的吗?)
发布于 2014-04-18 20:35:15
根据概率模型BM25 25/BM25F与Lucene的集成中的Joaquérez-Iglesias,分数函数R应定义如下:

比如
occurs_t^d是t在d中的术语频率,l_d是文档的d长度。avl_d是文档沿集合的平均长度。k_1是一个自由参数,在0,1中通常是2和b。将0分配给b相当于避免了规范化过程,因此文档长度不会影响最终得分。
如果b采取1,我们将进行一个完整的正常化。

其中N是集合中的文档数,df是出现术语t的文档数。
https://stackoverflow.com/questions/23161677
复制相似问题