文章/答案/技术大牛

发布

社区首页 >问答首页 >变压器与特征选择和常规机器学习有什么不同？

问变压器与特征选择和常规机器学习有什么不同？
EN

Data Science用户

提问于 2022-09-26 13:29:28

回答 2查看 176关注 0票数 1

这也许是一种简单的思维方式，但对我来说，变压器(基于注意力的神经网络)只关注输入的一个子集，学习什么对问题/预测是重要的随着训练的进行。

这与常规特征选择和神经网络在输入子集上的训练有什么不同？

transformer

attention-mechanism

machine-learning

deep-learning

neural-network

回答 2

Data Science用户

发布于 2022-09-30 02:33:43

你的问题不一定适用于变压器，但一般适用于机器学习。

我可以回答的一个问题是:特征选择和机器学习有什么区别？

区别在于人类可能不知道哪些特征是重要的，而算法也可能无法理解哪些信息是相关的，因此我们让模型关注它认为重要的内容。(它认为重要的是通过培训目标间接学习)。

旁注:模型所发现的重要内容可能受其体系结构的影响。

卷积神经网络具有局部性偏差，因为它们使用运行在输入上的核，根据其他邻近值计算值。而变压器没有偏见，并且平等地处理每件事情(同样是由于架构，也就是如何计算值)。如果你的任务需要看附近值的重要性，那么CNN可能训练得更快，需要的数据更少，因为它已经有偏见，而变压器将不得不学习它。

票数 0

Data Science用户

发布于 2022-10-07 13:38:07

背景

虽然这是变压器的先决条件，但作为改进后的1体系结构的一部分，注意机制早在四年前就被引入了。

注意池层

注意通过允许模型进行推理来提高递归结构的性能，不仅从最终位置的隐藏状态(图顶)，而且从序列输入中的任何位置，而不依赖于它可能有多远(图底)。换句话说，我们可以把这称为局部LSTM注意力的扩展，将注意力机制扩展到允许更长的序列建模的注意机制。固定

变压器注意事项

在变压器中，利用了自我注意机制(Wang等人，在变压器体系结构之前也提出了这种机制)，这样就完全放弃了层中的递归，使用位置编码来确保/编码每个输入令牌的位置/顺序。

但imo，变压器的关键特性是并行计算，因为您不再需要遍历顺序输入的每个事件来执行令牌的时间顺序/逐步排序。

资料来源:如果你确认这个数字的来源，我就不记得了。

1神经机器翻译通过联合学习对齐和翻译。https://arxiv.org/pdf/1409.0473.pdf

票数 0

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/114701

复制

相似问题

问变压器与特征选择和常规机器学习有什么不同？
EN

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问变压器与特征选择和常规机器学习有什么不同？EN

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问变压器与特征选择和常规机器学习有什么不同？
EN