首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >使用BM25对单词进行排序

使用BM25对单词进行排序
EN

Data Science用户
提问于 2020-06-11 17:03:57
回答 1查看 384关注 0票数 1

使用BM25对单词进行排序有多有效呢?更确切地说,我有一本单词词典,我只想在我的字典中对文档中的单词进行排序。我希望对每个文档的字典中的所有单词进行排序,然后为特定文档添加每个单词的BM25值。

假设我有这样的文档和字典:

代码语言:javascript
复制
myDictionary=['bad', 'dangerous','hide', 'following]

corpus=[
['human', 'intelligence', 'computer','bad', 'dangerous'],
 ['survey', 'user', 'human', 'system', 'time', 'hide', 'following],
]

现在,我将在循环中对字典中的所有单词运行下面的BM25公式,然后对每个单词的结果进行求和,以获得每个文档的bm25值。

EN

回答 1

Data Science用户

发布于 2020-06-20 13:17:12

BM25通常用于信息检索。在这个任务中,您有一个查询和许多文档(可能是数百万),然后您希望找到与您的查询最相关的这些文档的子集。将提供一组文件的排序,从最相关到最不相关。

如果你所说的高效,是指以计算的方式快速。我会说,相对于其他使用深度神经网络的算法,BM25是相当快的。

但是如果你问BM25的结果是否有希望。这一点值得商榷,因为BM25已经被长期使用了。人们通常使用它作为排名的第一步,然后使用其他强大的工具进行重新排序。这并不意味着BM25给出了最好的答案。但是,当您处理数千或数百万文档时,这是一个很好的选择,以便只选择一组与BM25评分较高的文档,然后使用更精确的算法重新排序BM25的结果。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/75839

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档