这也许是一种简单的思维方式,但对我来说,变压器(基于注意力的神经网络)只关注输入的一个子集,学习什么对问题/预测是重要的随着训练的进行。
这与常规特征选择和神经网络在输入子集上的训练有什么不同?
发布于 2022-09-30 02:33:43
你的问题不一定适用于变压器,但一般适用于机器学习。
我可以回答的一个问题是:特征选择和机器学习有什么区别?
区别在于人类可能不知道哪些特征是重要的,而算法也可能无法理解哪些信息是相关的,因此我们让模型关注它认为重要的内容。(它认为重要的是通过培训目标间接学习)。
旁注:模型所发现的重要内容可能受其体系结构的影响。
卷积神经网络具有局部性偏差,因为它们使用运行在输入上的核,根据其他邻近值计算值。而变压器没有偏见,并且平等地处理每件事情(同样是由于架构,也就是如何计算值)。如果你的任务需要看附近值的重要性,那么CNN可能训练得更快,需要的数据更少,因为它已经有偏见,而变压器将不得不学习它。
发布于 2022-10-07 13:38:07
背景
虽然这是变压器的先决条件,但作为改进后的1体系结构的一部分,注意机制早在四年前就被引入了。
注意池层
注意通过允许模型进行推理来提高递归结构的性能,不仅从最终位置的隐藏状态(图顶),而且从序列输入中的任何位置,而不依赖于它可能有多远(图底)。换句话说,我们可以把这称为局部LSTM注意力的扩展,将注意力机制扩展到允许更长的序列建模的注意机制。固定
变压器注意事项
在变压器中,利用了自我注意机制(Wang等人,在变压器体系结构之前也提出了这种机制),这样就完全放弃了层中的递归,使用位置编码来确保/编码每个输入令牌的位置/顺序。
但imo,变压器的关键特性是并行计算,因为您不再需要遍历顺序输入的每个事件来执行令牌的时间顺序/逐步排序。

资料来源:如果你确认这个数字的来源,我就不记得了。
1神经机器翻译通过联合学习对齐和翻译。https://arxiv.org/pdf/1409.0473.pdf
https://datascience.stackexchange.com/questions/114701
复制相似问题