文章/答案/技术大牛

发布

社区首页 >问答首页 >没有隐藏状态的注意力网络？

问没有隐藏状态的注意力网络？
EN

Stack Overflow用户

提问于 2020-04-27 19:23:46

回答 1查看 97关注 0票数 0

我想知道编码器的隐藏状态对于注意力网络有多有用。当我研究一个注意力模型的结构时，我发现一个模型通常是这样的：

x：
h:编码器的隐藏状态，它转发给下一个编码器的隐藏状态。
s:解码器的隐藏状态的加权和作为输入，并转发到下一个解码器的隐藏状态。
y: Output.

有了像翻译这样的过程，为什么编码器的隐藏状态要向前转发或者首先存在是很重要的？我们已经知道下一个x会是什么了。因此，输入的顺序对输出的顺序不一定重要，从先前的输入中记忆的内容也不一定重要，因为注意力模型同时查看所有输入。你就不能直接把注意力放在x的嵌入上吗？

谢谢!

machine-learning

recurrent-neural-network

translate

attention-model

回答 1

Stack Overflow用户

回答已采纳

发布于 2020-04-28 07:25:21

你可以很容易地看到你会得到相当坏的结果。即使在输入嵌入中添加了一些位置编码，结果也会非常糟糕。

命令很重要。句子：

约翰爱玛丽
Marry爱约翰

确实有不同的含义。此外，订单并不是您从编码器获得的唯一信息。编码器也会输入消歧:单词可以是同义的，如"train“(参见https://arxiv.org/pdf/1908.11771.pdf)。另外，对训练后的神经网络的深入研究表明，编码器对输入语句(见https://arxiv.org/pdf/1911.00317.pdf)发展了相当抽象的表示，其中很大一部分转换实际上已经发生在编码器(参见https://arxiv.org/pdf/2003.09586.pdf)中。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/61466789

复制

相似问题

问没有隐藏状态的注意力网络？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问没有隐藏状态的注意力网络？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问没有隐藏状态的注意力网络？
EN