文章/答案/技术大牛

发布

社区首页 >问答首页 >没有隐藏状态的注意力网络？

问没有隐藏状态的注意力网络？
EN

Data Science用户

提问于 2020-04-27 22:22:29

回答 1查看 55关注 0票数 1

我想知道编码器的隐藏状态对于注意力网络有多有用。当我研究一个注意力模型的结构时，我发现一个模型通常是这样的：

x: Input.
h: Encoder's hidden state which feeds forward to the next encoder's hidden state.
s: Decoder's hidden state which has a weighted sum of all the encoder's hidden states as input and feeds forward to the next decoder's hidden state.
y: Output.

有了像翻译这样的过程，为什么编码器的隐藏状态是前向转发还是首先存在是很重要的？我们已经知道下一个x会是什么了。因此，输入的顺序对输出的顺序不一定重要，在注意力模型同时查看所有输入的情况下，从先前的输入中记忆的内容也不重要。你就不能直接把注意力放在x的嵌入上吗？

machine-learning

rnn

machine-translation

attention-mechanism

回答 1

Data Science用户

发布于 2020-11-19 13:02:38

虽然翻译不是基于单词的基础，但是在编码器端保留单词的顺序有很大的优点。这是一个巨大的惩罚，因为这导致序列化，但尽管如此，LSTM和GRU变得如此受欢迎，因此人们可以想象顺序顺序的重要性。在编码器按顺序进行处理之后，生成的最终状态是一种语句嵌入，包含了句子的本质。这是解码器挑选和使用的一个好起点。与你所假设的不同，模型并不是只看由注意力层生成的上下文来进行预测。它还使用prev状态和上下文(以及最后一个翻译的单词进行下一次预测)。如果您将prev状态追溯到解码器的开始，您可以看到它起源于编码器的最终LSTM状态。

话虽如此，你的问题仍然很中肯。注意力的概念是如此强大，以至于有了自我关注和多头关注，就可以完全消除编码器端的RNN，而仅仅使用由“注意”过程产生的表示。但即使在这里，这篇里程碑式论文的作者--注意力就是你所需要的--加入了一小部分，以保留输入句子中单词顺序的顺序。这似乎在更好的预测中改进了模型。

票数 0

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/73115

复制

相似问题

问没有隐藏状态的注意力网络？
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问没有隐藏状态的注意力网络？EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问没有隐藏状态的注意力网络？
EN