我正试着建造一个农场来做一个示范。我做了“自动训练”,我得到了良好的结果(可能会更好),我正在尝试进行手工训练,但我对蓝光在线文档中参数的含义感到困惑:data.shtml#manual。
有谁能在下面的蓝光样本数据中解释一下吗?
query_id, feature1, feature2, feature3,...,ground_truth
question_id_1, 0.0, 3.4, -900,...,0
question_id_1, 0.5, -70, 0,...,1
question_id_1, 0.0, -100, 20,...,3
...query__id是什么?(它代表什么?)feature1是什么,feature2?(它代表什么?)question_id_1是什么?(它代表什么?)如何计算出这些分数( 0.0,3.4,-900)?
我知道ground_truth值必须从0到4,(0的意思根本不相关,4的意思是完美匹配),对吗?
亲切问候泽维尔
发布于 2017-03-09 21:50:48
训练数据用于训练学以致用 (L2R)算法。L2R方法首先获取响应query (又名问题)而生成的candidate answers列表(例如,搜索结果页面中的文档),并将每个query-answer pair表示为一组特性。希望每个特性都能显示特定候选答案与查询的匹配程度。训练数据中的每一行表示属于这些查询回答对之的特征值。
由于培训数据包含来自许多不同查询(以及相应的搜索结果)的特征向量,第一列使用查询id将响应于单个查询的不同候选答案绑定在一起。
正如您所说的,最后一篇专栏简单地描述了人工注释者是否认为答案实际上与问题相关。0-4等级不是强制性的。0总是表示无关。但在此之后,您可以使用任何对用例有意义的标度(通常,当有有限的数据时,人们只使用0-1二进制标度,因为这降低了复杂性)。
在您引用的文档页面上提供的python脚本实际上将经历生成候选答案和相应的特征向量的过程,给定一个包含不同查询的文件。您可能希望通过该脚本中的代码来更好地了解如何创建培训数据。
https://stackoverflow.com/questions/41420021
复制相似问题