首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >返回中的预训练

返回中的预训练
EN

Stack Overflow用户
提问于 2018-12-03 18:40:39
回答 1查看 98关注 0票数 0

我试着在returnn中训练一个简单的单向编码器,在删除编码器的解码器和bw层之后,使用这个配置https://github.com/rwth-i6/returnn-experiments/blob/master/2018-asr-attention/librispeech/full-setup-attention/returnn.config

但是,如果没有预先训练,我的所有实验都不会收敛。我尝试了不同的学习率和不同的时间减少因素。正如第一篇论文中提到的((https://arxiv.org/abs/1805.03294)和2nd paper预训练使训练变得稳定,但在我的情况下,如果没有预训练,我的模型都不会收敛。

有人能给我建议一些可行的解决方法吗?

EN

回答 1

Stack Overflow用户

发布于 2019-03-01 18:36:02

从评论来看,似乎主要的问题是:如何在没有预训练的情况下使其收敛。

预训练的要点是它使训练更稳定,我们需要更少的其他超参数的调整。这就是为什么当你只是禁用预训练时,它不会按原样收敛。你必须对它进行更多的调整。

需要调整的内容:

  • 学习率(初始、预热阶段,进一步的丢弃(dropout,L2,标签平滑))(可能这也需要调度)

(初始、预热阶段,进一步的标签平滑)(可能这也需要调度)更重要

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/53592053

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档