首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >(查询、文档、相关性)免费数据集,用于建立信息检索系统

(查询、文档、相关性)免费数据集,用于建立信息检索系统
EN

Stack Overflow用户
提问于 2016-08-23 09:39:48
回答 1查看 3.8K关注 0票数 3

我有兴趣找到像“英语相关判断文件列表”这样的数据集:eng

此数据集包含有标签的查询和文档对。然而,它依赖于一个非免费的语料库,称为“数据-英语文档”:eng.html

你知道类似的免费数据集吗?

备注:数据集将用于一个基于神经网络的信息检索系统的研究项目。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2016-08-23 11:24:41

您在问题中混淆了几个TREC集合。ClueWeb09和trec.nist.gov/data/docs_eng.html指向的文档集都是独立的文档集。也就是说,每个文档集都有自己独特的主题(查询)和相关性判断,它们不是文档集分发的一部分。

有几十种不同的TREC文本检索测试集合。可用的集合列在由TREC轨道组织的TREC数据页(trec.nist.gov/data.html)上。它们是这样组织的,因为集合通常是为了支持该跟踪设计支持的检索问题而设置的。

一般来说,查询和相关性判断可以直接从TREC站点下载。文档集通常必须购买:文档集要么是原源的版权,要么必须获得许可,或者与收集/分发文档集相关的其他重大费用。如果您参加TREC,您可以免费获得一些旧的TREC文档集(尽管这在今年不再是一种选择)。一些文档集是免费的,尽管大多数文档仍然需要签署数据使用协议。基因组学轨道有一个特殊的搜索任务,它的文档集是免费的,但必须遵守数据使用协议。见http://trec.nist.gov/data/genomics.html

格拉斯哥大学( University )在collections/上维护了一个指向其他可用测试集合的页面,其中一些是免费的。这些都是前TREC(1992年前)的收集,这是非常小的标准,今天的标准.(“很小”,你可能会发现,论文评审员对仅在小型藏书上展示的结果持高度怀疑态度。)

,TREC项目经理,NIST

票数 9
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/39097629

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档