问对于roberta-large模型，训练损失没有减少，但对于roberta-base，bert-base-uncased，效果很好
EN

Stack Overflow用户

提问于 2020-07-15 05:26:51

回答 1查看 425关注 0票数 2

我有一个pytorch lightning代码，当使用bert-base或roberta-base时，它非常适合二进制分类任务，但不能用于roberta-large，即训练损失不会下降。

我不知道为什么会发生这样的事情。我正在寻找这样一个问题的原因。

编辑:我正在MNLI数据集上进行训练(仅限蕴涵类和矛盾类)模型预测所有示例的同一类。

谢谢

发布于 2020-07-16 15:07:35

我稍微降低了学习率，这个问题似乎得到了解决。有趣的是，将学习从5e-5改为5e-6可以产生如此大的影响。

现在，更大的问题是“我如何找到正确的超参数集？”

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/62904242

复制

相似问题

问对于roberta-large模型，训练损失没有减少，但对于roberta-base，bert-base-uncased，效果很好EN