首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >从QnA系统测量答案的质量

从QnA系统测量答案的质量
EN

Data Science用户
提问于 2019-12-21 15:21:19
回答 1查看 80关注 0票数 1

我有一个问答系统,它使用的是Seq2Seq的架构。实际上,这是一种变压器结构。当一个问题被问到时,它会给出答案的起点和结尾,以及它们的逻辑。

答案是通过选择最优的逻辑跨度而形成的,最后的概率是通过对开始和结束逻辑的求和来计算的。

现在的问题是,我有多个答案,很多次好答案是在第二或第三位(在对开始和结束概率之和的结果进行排序之后)。在搜索引擎科学中有什么指标可以用来给最好的答案排序吗?

已进行了以下试验:

  • 问句和答案之间的余弦相似性-这一方法在许多次工作,但在问题语义复杂时却失败了。
  • TF下手-给出很好的分数,但当答案中有同义词而不是匹配的单词时就失败了。
  • gensim语义相似性--严重失败。
  • 蓝分和新BERTF1Score也尝试过

我听说过的术语很少,但我怀疑这些工作是否有效,比如我认为给出搜索质量而不是答案质量的平均倒数排序,并且需要正确的答复来计算MRR (如果我错了,请更正)。或者,在我的例子中,PageRank是无效的,因为在QnA中,语义意义是首选的,而不是文档的流行程度。

请推荐搜索引擎通常用来对答案进行排序的其他指标。

EN

回答 1

Data Science用户

发布于 2019-12-21 19:08:59

答案的排序是ML过程的一部分,即应该对一个系统进行培训,以便根据其相关性对答案进行排序。像你的问题中提到的那些启发式的方法可能提供适当的近似,但正如你注意到的,它们是非常有限的。

您可能对有关QA的共享任务中使用的数据集和方法感兴趣,例如https://mrqa.github.io/shared

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/65235

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档