首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >初始损失(iteration=0)与权重初始化的选择有很大的不同。为什么?

初始损失(iteration=0)与权重初始化的选择有很大的不同。为什么?
EN

Stack Overflow用户
提问于 2017-04-11 15:27:31
回答 1查看 59关注 0票数 0

我有大小为32x32的128个特征图。我希望将其上采样/反卷积为8x256x256,其中8是特征映射输出的数量。我使用了CAFFE中的Deconvolution层来完成这项任务。

代码语言:javascript
复制
layer {
  name: "Deconvolution1"
  type: "Deconvolution"
  bottom: "layer1"
  top: "Deconvolution1"
  param {
    lr_mult: 1
    decay_mult: 1
  }
  convolution_param {
    num_output: 8
    bias_term: false
    pad: 0
    kernel_size: 8
    stride: 8
    weight_filler {
      type: "msra"
    }
  }
}

在我的设置中,我使用weight_filter is msra,因为我从头开始训练我的网络。我也尝试过其他的滤镜,比如带有std=0.01的gaussian。结果显示在初始损失时有很大的不同。对于msra,我的初始损失是6.5,而对于高斯,我的初始损失是1.2。有什么问题吗?我在初始阶段的预期损失不到2。谢谢大家

EN

回答 1

Stack Overflow用户

发布于 2017-04-12 02:28:42

最初的损失无关紧要。是的,差异随机扩散可以显着改变它。在基准拓扑(vis )中使用相同的初始过滤器,我经常看到20%的差异。AlexNet)。

问题是模型训练得有多好。如果你的损失在一两个时期内下降到预期范围,并持续总体下降趋势直到收敛,那么你就有了一个可行的方法。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/43339366

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档