我一直在从事一个与序列序列自动编码器相关的项目,用于时间序列预测。因此,我已经在编码器和解码器中使用了tf.contrib.rnn.MultiRNNCell。我搞不懂用哪种策略来规范我的seq2seq模型。我是在损失中使用L2正则化,还是在multiRNNCell中使用DropOutWrapper (tf.contrib.rnn.DropoutWrapper)?或者我可以使用这两种策略..。L2用于multiRNNCell细胞间的魏氏和偏压(投影层)和DropOutWrapper?(预先谢谢:)
发布于 2018-04-23 21:24:53
您可以同时使用退出和L2正则化,正如通常所做的那样。它们是完全不同类型的正规化。然而,我要指出的是,最近的文献表明,批量正常化已经取代了原来关于批处理正常化的文件中所指出的对辍学的需要:
https://arxiv.org/abs/1502.03167
从摘要:“它也作为一个正规化者,在某些情况下消除了Dropout的需要。”
L2正则化通常在使用批处理规范时应用。没有什么可以阻止您应用所有3种形式的正则化,上面的语句只表明当批处理规范已经在使用时,您可能不会看到通过应用退出而得到的改进。
对于L2正则化的应用量和退出保持概率,一般都有最优值。这些是通过尝试和错误或超参数搜索算法来调优的超参数。
https://stackoverflow.com/questions/49987574
复制相似问题