首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >没有隐藏状态的注意力网络?

没有隐藏状态的注意力网络?
EN

Data Science用户
提问于 2020-04-27 22:22:29
回答 1查看 55关注 0票数 1

我想知道编码器的隐藏状态对于注意力网络有多有用。当我研究一个注意力模型的结构时,我发现一个模型通常是这样的:

代码语言:javascript
复制
x: Input.
h: Encoder's hidden state which feeds forward to the next encoder's hidden state.
s: Decoder's hidden state which has a weighted sum of all the encoder's hidden states as input and feeds forward to the next decoder's hidden state.
y: Output.

有了像翻译这样的过程,为什么编码器的隐藏状态是前向转发还是首先存在是很重要的?我们已经知道下一个x会是什么了。因此,输入的顺序对输出的顺序不一定重要,在注意力模型同时查看所有输入的情况下,从先前的输入中记忆的内容也不重要。你就不能直接把注意力放在x的嵌入上吗?

EN

回答 1

Data Science用户

发布于 2020-11-19 13:02:38

虽然翻译不是基于单词的基础,但是在编码器端保留单词的顺序有很大的优点。这是一个巨大的惩罚,因为这导致序列化,但尽管如此,LSTM和GRU变得如此受欢迎,因此人们可以想象顺序顺序的重要性。在编码器按顺序进行处理之后,生成的最终状态是一种语句嵌入,包含了句子的本质。这是解码器挑选和使用的一个好起点。与你所假设的不同,模型并不是只看由注意力层生成的上下文来进行预测。它还使用prev状态和上下文(以及最后一个翻译的单词进行下一次预测)。如果您将prev状态追溯到解码器的开始,您可以看到它起源于编码器的最终LSTM状态。

话虽如此,你的问题仍然很中肯。注意力的概念是如此强大,以至于有了自我关注和多头关注,就可以完全消除编码器端的RNN,而仅仅使用由“注意”过程产生的表示。但即使在这里,这篇里程碑式论文的作者--注意力就是你所需要的--加入了一小部分,以保留输入句子中单词顺序的顺序。这似乎在更好的预测中改进了模型。

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/73115

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档