首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >多轮检索式对话——【ACL 2017】SMN

多轮检索式对话——【ACL 2017】SMN

作者头像
小爷毛毛_卓寿杰
发布2021-09-10 11:30:58
发布2021-09-10 11:30:58
4450
举报
文章被收录于专栏:Soul Joy HubSoul Joy Hub

《Sequential matching network: A new architecture for multi-turn response selection in retrieval-based chat-bots》

本文通过使用卷积神经网络在多个粒度级别的上下文中对每个话语进行匹配,进一步改善了对语义关系和上下文信息的利用,然后通过时间顺序累积向量用于模拟话语之间关系的递归神经网络。作者认为构建问答历史语句和候选回复的交互表示是重要的特征信息, 因此借鉴语义匹配中的匹配矩阵, 并结合CNN和GRU构造模型:

Multi-view模型类似, 这里作者也考虑同时提取词汇级和语句级的特征, 分别得到两个匹配矩阵M1和M2, 具体的:

• Word-Matching-M1: 对两句话的词做word embedding, 再用dot(ei,ej)计算矩阵元素

• Utterance-Matching-M2: 对两句话的词做word embedding, 再过一层GRU提取隐状态变量h, 然后用dot(hi,A*hj)计算矩阵元素

得到的两个匹配矩阵可视为两个通道, 再传给CNN+Pooling获得一组交互特征{vi}. 交互特征传入第二个GRU层, 得到{h’i}

最后的预测层, 作者设计了三种利用隐变量{h’i}的方式:

• last: 只用最后一个h’last传入softmax计算score • linearly combined: 将{h’i}线性加权传给softmax • attention: 利用attention机制计算{h’i}的权重

作者的实验表明采用attention的SMN效果最好, 但训练相对最复杂, last最简单且效果基本优于linearly combined.

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2021/04/23 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档