在这篇博文( 递归神经网络的不合理有效性 )中,Andrej提到了基于神经网络的机器学习的未来方向:
注意的概念是最近在神经网络中最有趣的建筑创新。..。用于记忆寻址的软注意方案是方便的,因为它保持了模型的完全可微性,但不幸的是,一个人牺牲了效率,因为所有可以处理的事情都会被处理(但是很柔和)。把这看作是在C中声明一个指针,它不指向特定的地址,而是在整个内存中的所有地址上定义了一个完整的分布,而取消引用指针则返回指向内容的加权和(这将是一项昂贵的操作!)。这促使多个作者将软注意力模型转换为硬注意,其中一个人对要处理的特定内存块进行了采样(例如,某个存储单元的读/写操作,而不是在某种程度上从所有单元中读取/写入)。这个模型在哲学上更有吸引力、可扩展性和效率,但不幸的是,它也是不可区分的。
我想我理解了指针的比喻,但是什么是关注,为什么难的是不可区分的?
我找到了一个关于注意力这里的解释,但仍然对软/硬部分感到困惑。
发布于 2016-03-07 19:21:09
究竟什么是注意?
为了能够理解这个问题,我们需要深入研究一些被关注的问题。我认为关于hard even 的开创性论文之一是视觉注意的递归模型,我会鼓励读者阅读这篇文章,即使它一开始看起来并不完全可以理解。
为了回答究竟什么是注意力的问题,我将尝试提出一个我认为更容易回答的问题。那就是,为什么要注意?。我所链接的这篇论文试图简明扼要地回答这个问题,我将在这里重现部分的推理。
想象一下,你被蒙住眼睛,被带到一个惊喜的生日派对上,而你只是睁开了眼睛。你会看到什么?

现在,当我们说你看到了这张照片,这是一个更短的版本,以下的更准确的动作序列,也就是说,随着时间的推移,你的眼睛在周围移动,收集有关场景的信息。你不能同时看到图像的每一个像素。你一次只注意图片的某些方面--一步一步,汇总信息。例如,即使在这样一张杂乱无章的图片中,你也能认出你的比尔叔叔和山姆表弟。)为什么会这样呢?因为您关注当前图像的某些突出方面。
这正是我们想给我们的神经网络模型赋予的力量。为什么?把这看作是某种正规化。(答案的这一部分引用了论文)你通常的卷积网络模型确实能够识别杂乱的图像,但是我们如何找到准确的权重集,这些权重是“好的”呢?这是一项艰巨的任务。通过为网络提供一种新的体系结构级功能,使其能够依次处理图像的不同部分,并随着时间的推移聚合信息,我们使这项工作变得更容易,因为现在网络可以简单地学会忽略杂乱(至少希望如此)。
我希望这能回答什么是难关注的问题?。现在谈谈它的differentiability.的本质好吧,还记得我们在看生日照片的时候如何很方便地选择正确的地点吗?我们怎么做到的?这一过程涉及到用输入(图像)的可微函数来表示难以表示的选择。例如,根据您已经看过的内容和图像,决定下一步看什么。你可以有一个神经网络输出这里的答案,但我们不知道正确的答案!事实上,没有正确的答案。那么,我们如何训练网络参数呢?神经网络训练在很大程度上依赖于输入的可微损失函数。这类损失函数的例子包括对数似然损失函数、平方损失函数等。但在这种情况下,我们没有一个正确的答案来查找下一步的位置。那么,我们如何定义损失呢?这就是机器学习的一个领域,称为强化学习(RL)。RL允许您使用诸如增强方法和参与者批判性算法等方法在策略空间中进行渐变。
什么是软注意力?
答案的这一部分借用了一篇名为教学机器阅读和理解的论文。RL方法的一个主要问题是它们具有很高的方差(计算出的期望奖励的梯度),它与网络中隐藏单元的数量成线性关系。这不是件好事,尤其是如果你要建立一个庞大的网络。因此,人们试图寻找differentiable模型的注意力。这意味着注意项和损失函数是输入的一个可微函数,因此所有的梯度都存在。因此,我们可以使用我们的标准反向支持算法-与通常的损失函数之一,以训练我们的网络。那么什么是软注意力呢?
在文本上下文中,它指的是模型选择将更重要的与文档中的某些单词与其他标记相关联的能力。如果您正在阅读一个文档,并且必须根据它回答一个问题,那么专注于文档中的某些标记可以帮助您更好地回答这个问题,而不是仅仅阅读每个标记,好像它是同等重要的。这是文本软关注背后的基本思想。之所以它是一个可区分模型,是因为您完全根据特定的令牌和手头的查询来决定对每个令牌的关注程度。例如,您可以在相同的向量空间中表示文档和查询的标记,并将点乘积/余弦相似性作为给定该查询时应注意该特定令牌的一种度量。注意,余弦距离运算对于它的输入是完全可微的,因此整个模型最终是可微的。请注意,论文使用的精确模型不同,这个论点只是为了演示,尽管其他模型确实使用了基于点积的注意评分。
https://stackoverflow.com/questions/35549588
复制相似问题