文章/答案/技术大牛

发布

社区首页 >问答首页 >初始损失(iteration=0)与权重初始化的选择有很大的不同。为什么？

问初始损失(iteration=0)与权重初始化的选择有很大的不同。为什么？
EN

Stack Overflow用户

提问于 2017-04-11 15:27:31

回答 1查看 59关注 0票数 0

我有大小为32x32的128个特征图。我希望将其上采样/反卷积为8x256x256，其中8是特征映射输出的数量。我使用了CAFFE中的Deconvolution层来完成这项任务。

layer {
  name: "Deconvolution1"
  type: "Deconvolution"
  bottom: "layer1"
  top: "Deconvolution1"
  param {
    lr_mult: 1
    decay_mult: 1
  }
  convolution_param {
    num_output: 8
    bias_term: false
    pad: 0
    kernel_size: 8
    stride: 8
    weight_filler {
      type: "msra"
    }
  }
}

在我的设置中，我使用weight_filter is msra，因为我从头开始训练我的网络。我也尝试过其他的滤镜，比如带有std=0.01的gaussian。结果显示在初始损失时有很大的不同。对于msra，我的初始损失是6.5，而对于高斯，我的初始损失是1.2。有什么问题吗？我在初始阶段的预期损失不到2。谢谢大家

machine-learning

neural-network

deep-learning

caffe

pycaffe

回答 1

Stack Overflow用户

发布于 2017-04-12 02:28:42

最初的损失无关紧要。是的，差异随机扩散可以显着改变它。在基准拓扑(vis )中使用相同的初始过滤器，我经常看到20%的差异。AlexNet)。

问题是模型训练得有多好。如果你的损失在一两个时期内下降到预期范围，并持续总体下降趋势直到收敛，那么你就有了一个可行的方法。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/43339366

复制

相似问题

问初始损失(iteration=0)与权重初始化的选择有很大的不同。为什么？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问初始损失(iteration=0)与权重初始化的选择有很大的不同。为什么？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问初始损失(iteration=0)与权重初始化的选择有很大的不同。为什么？
EN