文章/答案/技术大牛

发布

社区首页 >问答首页 >小模型过拟合问题

问小模型过拟合问题
EN

Data Science用户

提问于 2022-11-02 02:36:41

回答 1查看 198关注 0票数 0

我有一个编译码器的架构，在这里我使用了前3层的Swin变压器和很少的卷积层。我尝试了不同的方法：

1.培训变压器层，在这样做时，模型包含大约304,086*2(编码器+解码器)可训练参数。

二、大约冻结变压器层。105 *2= 210 (编码器+解码器)可训练参数。这也显示了我几乎没有几层CNN。

在这两种方法中，验证损失都高于训练损失。上面所描述的曲线用于逼近(i)。

我有7K可培训的数据，并使用700进行验证。此外，使用L2-正则化，但结果没有变化。

overfitting

machine-learning

deep-learning

pytorch

transformer

回答 1

Data Science用户

发布于 2022-11-07 05:55:27

你的模型一点也不小，我认为它实际上很大。您可以考虑将多少数据与参数的数量进行比较。因此，您有700 k的参数，以适应小于7k的发生。这并不小，我强烈怀疑这可以通过任何形式的正规化来解决。

票数 1

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/115797

复制

相似问题

问小模型过拟合问题
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问小模型过拟合问题EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问小模型过拟合问题
EN