如果我们使用相同的训练例子多次训练,它不会给期望的θ值带来任何变化。有人能提供它背后的直觉或一些理论解释来支持这一点吗?
在我看来,在训练中使用同样的训练例子可能会有帮助。给定一个训练实例,权重试图收敛,但由于学习速率小等原因,它们没有收敛到最优水平。因此,当模型再次看到训练实例时,可以帮助权重收敛到极小值。思想/直觉?
发布于 2018-08-01 09:54:08
这实际上取决于您使用的算法类型。对于像随机梯度下降这样的迭代方法,情况就是这样。对于基于树的方法,除了通过人为地创建更大的数据集来改变围绕正则化的超参数的解释之外,这并不重要。
https://datascience.stackexchange.com/questions/36298
复制相似问题