文章/答案/技术大牛

发布

社区首页 >问答首页 >从QnA系统测量答案的质量

问从QnA系统测量答案的质量
EN

Data Science用户

提问于 2019-12-21 15:21:19

回答 1查看 80关注 0票数 1

我有一个问答系统，它使用的是Seq2Seq的架构。实际上，这是一种变压器结构。当一个问题被问到时，它会给出答案的起点和结尾，以及它们的逻辑。

答案是通过选择最优的逻辑跨度而形成的，最后的概率是通过对开始和结束逻辑的求和来计算的。

现在的问题是，我有多个答案，很多次好答案是在第二或第三位(在对开始和结束概率之和的结果进行排序之后)。在搜索引擎科学中有什么指标可以用来给最好的答案排序吗？

已进行了以下试验：

问句和答案之间的余弦相似性-这一方法在许多次工作，但在问题语义复杂时却失败了。
TF下手-给出很好的分数，但当答案中有同义词而不是匹配的单词时就失败了。
gensim语义相似性--严重失败。
蓝分和新BERTF1Score也尝试过

我听说过的术语很少，但我怀疑这些工作是否有效，比如我认为给出搜索质量而不是答案质量的平均倒数排序，并且需要正确的答复来计算MRR (如果我错了，请更正)。或者，在我的例子中，PageRank是无效的，因为在QnA中，语义意义是首选的，而不是文档的流行程度。

请推荐搜索引擎通常用来对答案进行排序的其他指标。

bert

transformer

search-engine

question-answering

回答 1

Data Science用户

发布于 2019-12-21 19:08:59

答案的排序是ML过程的一部分，即应该对一个系统进行培训，以便根据其相关性对答案进行排序。像你的问题中提到的那些启发式的方法可能提供适当的近似，但正如你注意到的，它们是非常有限的。

您可能对有关QA的共享任务中使用的数据集和方法感兴趣，例如https://mrqa.github.io/shared。

票数 1

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/65235

复制

相似问题

问从QnA系统测量答案的质量
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问从QnA系统测量答案的质量EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问从QnA系统测量答案的质量
EN