我正在开发一个使用Backpropation算法的项目。所以我在scikit-learn中学习反向传播算法。
mlp = MLPClassifier(hidden_layer_sizes=(hiddenLayerSize,), solver='lbfgs', learning_rate='constant',learning_rate_init=0.001, max_iter=100000, random_state=1)有不同的求解器选项,如lbfgs,adam和sgd,还有激活选项。关于应该使用哪个选项进行反向传播,有什么最佳实践吗?
发布于 2017-08-19 16:13:21
solver是在这里设置优化算法的参数。一般来说,设置sgd (stochastic gradient descent)的效果最好,而且它实现了更快的收敛。在使用sgd时,除了设置learning_rate之外,还需要设置momentum参数(默认值=0.9 )。
激活函数选项是为了引入模型的非线性,如果你的模型有很多层,你必须使用激活函数,如relu (rectified linear unit)来引入非线性,否则使用多层将变得无用。relu是最简单、最有用的激活函数。
发布于 2019-11-26 04:32:50
另一件要考虑的事情是,当激活函数为ReLu时,学习率不应该太大。

ReLu函数的主要问题是所谓的“死亡重新生成”问题。当神经元陷入负值时,它被认为是死亡的,当学习率太大时,最有可能发生这种情况。
https://stackoverflow.com/questions/45769058
复制相似问题