首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >沃森检索和排名手册排名

沃森检索和排名手册排名
EN

Stack Overflow用户
提问于 2017-01-01 23:46:00
回答 1查看 183关注 0票数 1

我正试着建造一个农场来做一个示范。我做了“自动训练”,我得到了良好的结果(可能会更好),我正在尝试进行手工训练,但我对蓝光在线文档中参数的含义感到困惑:data.shtml#manual

有谁能在下面的蓝光样本数据中解释一下吗?

代码语言:javascript
复制
query_id, feature1, feature2, feature3,...,ground_truth
question_id_1, 0.0, 3.4, -900,...,0
question_id_1, 0.5, -70, 0,...,1
question_id_1, 0.0, -100, 20,...,3
...

query__id是什么?(它代表什么?)feature1是什么,feature2?(它代表什么?)question_id_1是什么?(它代表什么?)如何计算出这些分数( 0.0,3.4,-900)?

我知道ground_truth值必须从0到4,(0的意思根本不相关,4的意思是完美匹配),对吗?

亲切问候泽维尔

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2017-03-09 21:50:48

训练数据用于训练学以致用 (L2R)算法。L2R方法首先获取响应query (又名问题)而生成的candidate answers列表(例如,搜索结果页面中的文档),并将每个query-answer pair表示为一组特性。希望每个特性都能显示特定候选答案与查询的匹配程度。训练数据中的每一行表示属于这些查询回答对之的特征值。

由于培训数据包含来自许多不同查询(以及相应的搜索结果)的特征向量,第一列使用查询id将响应于单个查询的不同候选答案绑定在一起。

正如您所说的,最后一篇专栏简单地描述了人工注释者是否认为答案实际上与问题相关。0-4等级不是强制性的。0总是表示无关。但在此之后,您可以使用任何对用例有意义的标度(通常,当有有限的数据时,人们只使用0-1二进制标度,因为这降低了复杂性)。

在您引用的文档页面上提供的python脚本实际上将经历生成候选答案和相应的特征向量的过程,给定一个包含不同查询的文件。您可能希望通过该脚本中的代码来更好地了解如何创建培训数据。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/41420021

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档