正如above..is问题中所指出的,注意和自我注意机制有区别吗?另外,还有人能和我分享关于如何在CNN中实施自我注意机制的技巧和技巧吗?
发布于 2020-01-13 20:30:09
这是我所知道的关于注意力(AT)和自我注意力(SA)的区别列表。
更多的音符
发布于 2020-11-26 18:11:14
让我尽量让它更直观,更少的数学。
在2014年之前,如果序列超过一定的大小,RNN的性能就会很差。毕竟,RNN编码了序列中的所有步骤,并给出了一个最终的输出,它被“假定”为序列嵌入。这对短序列很好,但超过一定的长度,它开始‘遗忘’的东西。
为了解决这一问题,Bahdanau等人于2014年提出了一份具有里程碑意义的论文。他们在解码器端使用模型中编码器的所有隐藏状态(而不是最后一种状态)。但最棒的是--他们在解码每个单词时,对某些隐藏的状态给予了特别的“关注”。在译码器翻译每个单词时,他们让模型自己“学习”该注意的单词和忽略哪些单词。
这一方法非常成功,4年来,人们提出了各种形式的注意。RNN与注意力的结合似乎解决了NLP中一个长期悬而未决的问题。
现在的场景转移到2018年,当时谷歌的一个团队展示了NLP的一个游戏玩家。这篇论文的名字是“注意就是你所需要的”,他们声称注意力是编码序列所需要的全部。不再有RNN和串行处理。抛出LSTM和GRU,只需注意编码。当然,为了这一点,他们对注意力的应用方式做了几次改变。他们使用自我关注模型,这在很大程度上是受程等人https://arxiv.org/pdf/1601.06733.pdf的一篇论文的启发。在自我注意中,注意的概念被用来编码序列而不是RNN.因此,编码器和解码器现在都没有RNN,而是使用注意机制。其本身是最简单的形式--序列中的每个单词都以相同的顺序处理其他单词,这样就可以捕捉到序列中的单词之间的关系。
因此,为了总结这一差异--传统的注意方式与RNNs相结合,提高了它们的性能。自我关注被用来代替RNN,他们做得更好,而且速度也更快。因此,从这个意义上说,它们是非常不同的。
https://datascience.stackexchange.com/questions/49468
复制相似问题