首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >卷积神经网络预训练的原因

卷积神经网络预训练的原因
EN

Stack Overflow用户
提问于 2014-10-17 11:06:02
回答 1查看 1.6K关注 0票数 0

通常反向传播神经网络存在着梯度消失的问题。我发现卷积神经网络(CNN)有些如何摆脱这个消失的梯度问题(为什么?)

另外,在一些论文中,还讨论了CNN的一些预培训方法。有人能给我解释一下吗?

代码语言:javascript
复制
    (1) the resons for pretraining in CNN and 
    (2) what are the problems/limitations with CNN?
    (3) any relavent papers talking about the limitation of CNN?

提前谢谢。

EN

回答 1

Stack Overflow用户

发布于 2014-10-17 14:35:01

  1. 预训练是一种正规化技术。它提高了模型的泛化精度。由于网络暴露于大量的数据(我们在许多taks中有大量的无监督数据),权重参数被传递到一个空间,该空间更有可能表示总体上的数据分布,而不是对底层数据分布的一个特定子集进行过拟合。神经网络,特别是那些具有大量隐藏单元的高模型表示能力的神经网络,往往过于适合你的数据,并且容易受到随机参数初始化的影响。同时,当初始层以监督方式正确初始化时,梯度稀释问题不再那么严重。这就是为什么将预训练作为监督任务的初始步骤,通常采用梯度下降算法进行。
  2. CNN与其他神经网络具有相同的命运。需要调整的参数太多:最佳输入补丁大小、隐藏层数、每个层的特征映射数、池和步长、归一化窗口、学习速率等。因此,与其他ML技术相比,模型选择问题相对较难。大型网络的培训要么在GPU上进行,要么在CPU集群上进行。
票数 3
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/26423668

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档