问返回中的预训练
EN

Stack Overflow用户

提问于 2018-12-03 18:40:39

回答 1查看 98关注 0票数 0

我试着在returnn中训练一个简单的单向编码器，在删除编码器的解码器和bw层之后，使用这个配置https://github.com/rwth-i6/returnn-experiments/blob/master/2018-asr-attention/librispeech/full-setup-attention/returnn.config。

但是，如果没有预先训练，我的所有实验都不会收敛。我尝试了不同的学习率和不同的时间减少因素。正如第一篇论文中提到的((https://arxiv.org/abs/1805.03294)和2nd paper预训练使训练变得稳定，但在我的情况下，如果没有预训练，我的模型都不会收敛。

有人能给我建议一些可行的解决方法吗？

returnn

回答 1

Stack Overflow用户

发布于 2019-03-01 18:36:02

从评论来看，似乎主要的问题是:如何在没有预训练的情况下使其收敛。

预训练的要点是它使训练更稳定，我们需要更少的其他超参数的调整。这就是为什么当你只是禁用预训练时，它不会按原样收敛。你必须对它进行更多的调整。

需要调整的内容：

学习率(初始、预热阶段，进一步的丢弃(dropout，L2，标签平滑))(可能这也需要调度)

(初始、预热阶段，进一步的标签平滑)(可能这也需要调度)更重要

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/53592053

复制

相似问题

问返回中的预训练
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问返回中的预训练EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问返回中的预训练
EN