首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >对于roberta-large模型,训练损失没有减少,但对于roberta-base,bert-base-uncased,效果很好

对于roberta-large模型,训练损失没有减少,但对于roberta-base,bert-base-uncased,效果很好
EN

Stack Overflow用户
提问于 2020-07-15 05:26:51
回答 1查看 425关注 0票数 2

我有一个pytorch lightning代码,当使用bert-base或roberta-base时,它非常适合二进制分类任务,但不能用于roberta-large,即训练损失不会下降。

我不知道为什么会发生这样的事情。我正在寻找这样一个问题的原因。

编辑:我正在MNLI数据集上进行训练(仅限蕴涵类和矛盾类)模型预测所有示例的同一类。

谢谢

EN

回答 1

Stack Overflow用户

发布于 2020-07-16 15:07:35

我稍微降低了学习率,这个问题似乎得到了解决。有趣的是,将学习从5e-5改为5e-6可以产生如此大的影响。

现在,更大的问题是“我如何找到正确的超参数集?”

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/62904242

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档