首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >小模型过拟合问题

小模型过拟合问题
EN

Data Science用户
提问于 2022-11-02 02:36:41
回答 1查看 198关注 0票数 0

我有一个编译码器的架构,在这里我使用了前3层的Swin变压器和很少的卷积层。我尝试了不同的方法:

1.培训变压器层,在这样做时,模型包含大约304,086*2(编码器+解码器)可训练参数。

二、大约冻结变压器层。105 *2= 210 (编码器+解码器)可训练参数。这也显示了我几乎没有几层CNN。

在这两种方法中,验证损失都高于训练损失。上面所描述的曲线用于逼近(i)。

我有7K可培训的数据,并使用700进行验证。此外,使用L2-正则化,但结果没有变化。

EN

回答 1

Data Science用户

发布于 2022-11-07 05:55:27

你的模型一点也不小,我认为它实际上很大。您可以考虑将多少数据与参数的数量进行比较。因此,您有700 k的参数,以适应小于7k的发生。这并不小,我强烈怀疑这可以通过任何形式的正规化来解决。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/115797

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档