文章/答案/技术大牛

发布

社区首页 >问答首页 >注意力和自我注意力的区别是什么？对方解决不了的问题是什么？

问注意力和自我注意力的区别是什么？对方解决不了的问题是什么？
EN

Data Science用户

提问于 2019-04-17 10:39:34

回答 2查看 30.5K关注 0票数 31

正如above..is问题中所指出的，注意和自我注意机制有区别吗？另外，还有人能和我分享关于如何在CNN中实施自我注意机制的技巧和技巧吗？

cnn

attention-mechanism

回答 2

Data Science用户

发布于 2020-01-13 20:30:09

这是我所知道的关于注意力(AT)和自我注意力(SA)的区别列表。

在神经网络中，在层之前有输入，在层的激活(输出)之前有输入，在RNN中有层的状态。如果AT是在某一层使用的，那么注意就会注意到(即接收输入)其他层的激活或状态。如果SA被应用--注意会查看应用它的同一层的输入。
AT常用于将信息从编码器传送到解码器。也就是说，解码器神经元从编码器状态/激活接收加法输入(通过AT)。因此，在这种情况下，AT连接两个不同的组件-编码器和解码器。如果SA被应用-它不连接两个不同的组件，它被应用在一个组件中。如果您使用SA，可能根本没有解码器，例如在BERT体系结构中。
SA可在单个模型内独立地应用多次(例如，在变压器中应用18次，在BERT基座中应用12次)，而AT通常在模型中应用一次，并连接大约2个组件(例如编码器和解码器)。
SA擅长对序列不同部分之间的依赖关系进行建模。例如-理解句子中单词之间的句法功能。另一方面，只建模两个不同序列之间的依赖关系(例如，原始文本和文本的翻译)。尽管如此，SA在翻译任务上可能还是很好的(请参阅转换器)
可以连接两个不同的模式(即文本和图像)。SA通常在单个模式中应用，但您仍然可以将两个模式的激活连接到一个序列中，并将SA应用于其中。
一般来说，SA机制在我看来是一个更一般的机制，因为它可以做的比AT更多。您可以使用SA模拟at，只需将输入序列替换/连接到您希望注意的目标序列即可。

更多的音符

多头注意这个词常与SA连用。但从理论上讲，你也可以将多头方法应用于AT。
内容注意、加性注意、位置基注意、一般注意、点产品注意、缩放点产品注意这几个术语被用来描述如何将输入相乘/相加以获得注意力分数的不同机制。所有这些机制都可以应用于AT和SA。
注意力计算的关键/查询/值方法通常应用于SA。但你也可以用它做AT。

票数 27

Data Science用户

发布于 2020-11-26 18:11:14

让我尽量让它更直观，更少的数学。

在2014年之前，如果序列超过一定的大小，RNN的性能就会很差。毕竟，RNN编码了序列中的所有步骤，并给出了一个最终的输出，它被“假定”为序列嵌入。这对短序列很好，但超过一定的长度，它开始‘遗忘’的东西。

为了解决这一问题，Bahdanau等人于2014年提出了一份具有里程碑意义的论文。他们在解码器端使用模型中编码器的所有隐藏状态(而不是最后一种状态)。但最棒的是--他们在解码每个单词时，对某些隐藏的状态给予了特别的“关注”。在译码器翻译每个单词时，他们让模型自己“学习”该注意的单词和忽略哪些单词。

这一方法非常成功，4年来，人们提出了各种形式的注意。RNN与注意力的结合似乎解决了NLP中一个长期悬而未决的问题。

现在的场景转移到2018年，当时谷歌的一个团队展示了NLP的一个游戏玩家。这篇论文的名字是“注意就是你所需要的”，他们声称注意力是编码序列所需要的全部。不再有RNN和串行处理。抛出LSTM和GRU，只需注意编码。当然，为了这一点，他们对注意力的应用方式做了几次改变。他们使用自我关注模型，这在很大程度上是受程等人https://arxiv.org/pdf/1601.06733.pdf的一篇论文的启发。在自我注意中，注意的概念被用来编码序列而不是RNN.因此，编码器和解码器现在都没有RNN，而是使用注意机制。其本身是最简单的形式--序列中的每个单词都以相同的顺序处理其他单词，这样就可以捕捉到序列中的单词之间的关系。

因此，为了总结这一差异--传统的注意方式与RNNs相结合，提高了它们的性能。自我关注被用来代替RNN，他们做得更好，而且速度也更快。因此，从这个意义上说，它们是非常不同的。

票数 21

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/49468

复制

相似问题

问注意力和自我注意力的区别是什么？对方解决不了的问题是什么？
EN

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问注意力和自我注意力的区别是什么？对方解决不了的问题是什么？EN

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问注意力和自我注意力的区别是什么？对方解决不了的问题是什么？
EN