我创建了文本语义搜索引擎。然而,我找不到被标记的数据集,以便我可以评估我的系统的信息检索。
是否有任何已标注的公共可用文档(文本)。因为我需要文本文档来评估信息检索结果。(召回、精度、F1值...)
谢谢。
发布于 2016-11-23 07:14:56
我是朝这个方向做研究的。在我的所有研究中,我使用了AOL dataset,它由三个月(2006年3月1日至2006年5月31日)从约650k用户收集的约2000万个web查询组成。数据按匿名用户ID排序,并按顺序排列。
数据集包括{AnonID, Query, QueryTime, ItemRank, ClickURL}。更多细节可以在上面提到的链接中找到。我很想知道你是如何实现的,如果可能的话,分享你的引擎代码。我也有兴趣了解AOL数据集在您的搜索引擎中的性能。
您可以在我的git repository中找到该数据集。谢谢!
https://stackoverflow.com/questions/40715354
复制相似问题