我有一个pytorch lightning代码,当使用bert-base或roberta-base时,它非常适合二进制分类任务,但不能用于roberta-large,即训练损失不会下降。
我不知道为什么会发生这样的事情。我正在寻找这样一个问题的原因。
编辑:我正在MNLI数据集上进行训练(仅限蕴涵类和矛盾类)模型预测所有示例的同一类。
谢谢
发布于 2020-07-16 15:07:35
我稍微降低了学习率,这个问题似乎得到了解决。有趣的是,将学习从5e-5改为5e-6可以产生如此大的影响。
现在,更大的问题是“我如何找到正确的超参数集?”
https://stackoverflow.com/questions/62904242
复制相似问题