文章/答案/技术大牛

发布

社区首页 >问答首页 >为什么变压器中的注意层要学习上下文？

问为什么变压器中的注意层要学习上下文？
EN

Data Science用户

提问于 2020-11-12 15:31:37

回答 1查看 378关注 0票数 1

我理解变压器体系结构(从“注意就是你所需要的”)，以及如何在多头注意力层中计算注意力。

我感到困惑的是，为什么注意力层的输出是上下文向量。也就是说:变压器的训练方式如何使注意力层学习上下文？我希望在这篇论文中看到的是这样一个道理：“当你训练一个变压器时，当你把注意力集中在顺序到顺序的任务上时，注意力层就会学习上下文，这就是为什么……”。我相信这是因为我看到了显示相关单词之间的注意的热图，但我想了解为什么这必然是训练变压器的结果。

为什么不能让注意力层学习到一些其他的特性，这些特性在顺序上对任务的排序也是有益的呢？我们怎么知道他们学习的是语境，而不是我们所观察到的？

再说一遍，我懂数学，我知道有几个关于它的帖子。我想知道的是，数学或训练过程意味着注意力层学习上下文。

nlp

transformer

sequence-to-sequence

attention-mechanism

neural-network

回答 1

Data Science用户

发布于 2020-11-12 22:44:44

提供一个简单化和较少数学的原因。你可以这样假设：

在一个简单的前馈神经网络(当然是黑匣子)中，你应该学习一组权重，学习一个函数来映射输入到输出。

但是，在以变压器为基础的建筑中，你得到了关注。在这里，权重被构造成查询、键和值(Q、K、V)。这3套权重驱动程序注意并负责学习上下文。它的精确工作仍然是一个黑匣子，就像前馈网络一样。但是是的，它是这样工作的，每个令牌的嵌入都是通过各自的权重矩阵来转换它的查询、密钥和值向量。对于给定的令牌，其查询向量与所有其他令牌的密钥向量相乘，以获得值向量。这些值决定了每个令牌相对于查询令牌的重要性。因此，通过反向传播，您可以尝试优化这些Q、K、V权重，从而学习它以更好地映射令牌之间的关系。

票数 2

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/85301

复制

相似问题

问为什么变压器中的注意层要学习上下文？
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问为什么变压器中的注意层要学习上下文？EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问为什么变压器中的注意层要学习上下文？
EN