问卷积神经网络预训练的原因
EN

Stack Overflow用户

提问于 2014-10-17 11:06:02

回答 1查看 1.6K关注 0票数 0

通常反向传播神经网络存在着梯度消失的问题。我发现卷积神经网络(CNN)有些如何摆脱这个消失的梯度问题(为什么？)

另外，在一些论文中，还讨论了CNN的一些预培训方法。有人能给我解释一下吗？

    (1) the resons for pretraining in CNN and 
    (2) what are the problems/limitations with CNN?
    (3) any relavent papers talking about the limitation of CNN?

提前谢谢。

machine-learning

computer-vision

neural-network

回答 1

Stack Overflow用户

发布于 2014-10-17 14:35:01

预训练是一种正规化技术。它提高了模型的泛化精度。由于网络暴露于大量的数据(我们在许多taks中有大量的无监督数据)，权重参数被传递到一个空间，该空间更有可能表示总体上的数据分布，而不是对底层数据分布的一个特定子集进行过拟合。神经网络，特别是那些具有大量隐藏单元的高模型表示能力的神经网络，往往过于适合你的数据，并且容易受到随机参数初始化的影响。同时，当初始层以监督方式正确初始化时，梯度稀释问题不再那么严重。这就是为什么将预训练作为监督任务的初始步骤，通常采用梯度下降算法进行。
CNN与其他神经网络具有相同的命运。需要调整的参数太多:最佳输入补丁大小、隐藏层数、每个层的特征映射数、池和步长、归一化窗口、学习速率等。因此，与其他ML技术相比，模型选择问题相对较难。大型网络的培训要么在GPU上进行，要么在CPU集群上进行。

票数 3

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/26423668

复制

相似问题

问卷积神经网络预训练的原因
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问卷积神经网络预训练的原因EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问卷积神经网络预训练的原因
EN