我试着在returnn中训练一个简单的单向编码器,在删除编码器的解码器和bw层之后,使用这个配置https://github.com/rwth-i6/returnn-experiments/blob/master/2018-asr-attention/librispeech/full-setup-attention/returnn.config。
但是,如果没有预先训练,我的所有实验都不会收敛。我尝试了不同的学习率和不同的时间减少因素。正如第一篇论文中提到的((https://arxiv.org/abs/1805.03294)和2nd paper预训练使训练变得稳定,但在我的情况下,如果没有预训练,我的模型都不会收敛。
有人能给我建议一些可行的解决方法吗?
发布于 2019-03-01 18:36:02
从评论来看,似乎主要的问题是:如何在没有预训练的情况下使其收敛。
预训练的要点是它使训练更稳定,我们需要更少的其他超参数的调整。这就是为什么当你只是禁用预训练时,它不会按原样收敛。你必须对它进行更多的调整。
需要调整的内容:
(初始、预热阶段,进一步的标签平滑)(可能这也需要调度)更重要
https://stackoverflow.com/questions/53592053
复制相似问题