当使用TREC和“K”池计算相关回忆时,所有相关文档是否反映了每个查询的所有参与系统的相关文档,还是全部查询?
而这种方法是否会使召回计算失效,比如我在两个系统之间有50个顶级文档,但总共有75个相关文件,那么无论哪一个系统有多好,它们都永远无法达到100%的召回率?
发布于 2018-04-20 09:37:02
当使用TREC和“K”池计算相关回忆时,所有相关文档是否反映了每个查询的所有参与系统的相关文档,还是全部查询?
相关文档集由人工访问器判断相关的文档组成,这些文档被要求查看每个参与系统检索的top-100文档的union。注意单词union上的重音,这表明访问器没有按任何特定顺序显示。因此,这个池确实是一个集合(而不是一个有序集)。
对于每个查询,相关文档集是不同的。因此,您可能会想象,如果R表示相关的文档集,则它有一个参数Q(查询)。所以,实际上你有R(q),而不仅仅是R。
而这种方法是否会使召回计算失效,比如我在两个系统之间有50个顶级文档,但总共有75个相关文件,那么无论哪一个系统有多好,它们都永远无法达到100%的召回率?
原则上,如果他们每个检索至少75个文档,则可以实现100%的回忆。显然,如果允许您检索10个文档,并且总共有20个相关文档,则最多。回忆你能实现的只有50%。
https://stackoverflow.com/questions/49923868
复制相似问题