我有兴趣找到像“英语相关判断文件列表”这样的数据集:eng
此数据集包含有标签的查询和文档对。然而,它依赖于一个非免费的语料库,称为“数据-英语文档”:eng.html。
你知道类似的免费数据集吗?
备注:数据集将用于一个基于神经网络的信息检索系统的研究项目。
发布于 2016-08-23 11:24:41
您在问题中混淆了几个TREC集合。ClueWeb09和trec.nist.gov/data/docs_eng.html指向的文档集都是独立的文档集。也就是说,每个文档集都有自己独特的主题(查询)和相关性判断,它们不是文档集分发的一部分。
有几十种不同的TREC文本检索测试集合。可用的集合列在由TREC轨道组织的TREC数据页(trec.nist.gov/data.html)上。它们是这样组织的,因为集合通常是为了支持该跟踪设计支持的检索问题而设置的。
一般来说,查询和相关性判断可以直接从TREC站点下载。文档集通常必须购买:文档集要么是原源的版权,要么必须获得许可,或者与收集/分发文档集相关的其他重大费用。如果您参加TREC,您可以免费获得一些旧的TREC文档集(尽管这在今年不再是一种选择)。一些文档集是免费的,尽管大多数文档仍然需要签署数据使用协议。基因组学轨道有一个特殊的搜索任务,它的文档集是免费的,但必须遵守数据使用协议。见http://trec.nist.gov/data/genomics.html。
格拉斯哥大学( University )在collections/上维护了一个指向其他可用测试集合的页面,其中一些是免费的。这些都是前TREC(1992年前)的收集,这是非常小的标准,今天的标准.(“很小”,你可能会发现,论文评审员对仅在小型藏书上展示的结果持高度怀疑态度。)
,TREC项目经理,NIST
https://stackoverflow.com/questions/39097629
复制相似问题