首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >为什么变压器中的注意层要学习上下文?

为什么变压器中的注意层要学习上下文?
EN

Data Science用户
提问于 2020-11-12 15:31:37
回答 1查看 378关注 0票数 1

我理解变压器体系结构(从“注意就是你所需要的”),以及如何在多头注意力层中计算注意力。

我感到困惑的是,为什么注意力层的输出是上下文向量。也就是说:变压器的训练方式如何使注意力层学习上下文?我希望在这篇论文中看到的是这样一个道理:“当你训练一个变压器时,当你把注意力集中在顺序到顺序的任务上时,注意力层就会学习上下文,这就是为什么……”。我相信这是因为我看到了显示相关单词之间的注意的热图,但我想了解为什么这必然是训练变压器的结果。

为什么不能让注意力层学习到一些其他的特性,这些特性在顺序上对任务的排序也是有益的呢?我们怎么知道他们学习的是语境,而不是我们所观察到的?

再说一遍,我懂数学,我知道有几个关于它的帖子。我想知道的是,数学或训练过程意味着注意力层学习上下文。

EN

回答 1

Data Science用户

发布于 2020-11-12 22:44:44

提供一个简单化和较少数学的原因。你可以这样假设:

在一个简单的前馈神经网络(当然是黑匣子)中,你应该学习一组权重,学习一个函数来映射输入到输出。

但是,在以变压器为基础的建筑中,你得到了关注。在这里,权重被构造成查询、键和值(Q、K、V)。这3套权重驱动程序注意并负责学习上下文。它的精确工作仍然是一个黑匣子,就像前馈网络一样。但是是的,它是这样工作的,每个令牌的嵌入都是通过各自的权重矩阵来转换它的查询、密钥和值向量。对于给定的令牌,其查询向量与所有其他令牌的密钥向量相乘,以获得值向量。这些值决定了每个令牌相对于查询令牌的重要性。因此,通过反向传播,您可以尝试优化这些Q、K、V权重,从而学习它以更好地映射令牌之间的关系。

票数 2
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/85301

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档