
我有一个编译码器的架构,在这里我使用了前3层的Swin变压器和很少的卷积层。我尝试了不同的方法:
1.培训变压器层,在这样做时,模型包含大约304,086*2(编码器+解码器)可训练参数。
二、大约冻结变压器层。105 *2= 210 (编码器+解码器)可训练参数。这也显示了我几乎没有几层CNN。
在这两种方法中,验证损失都高于训练损失。上面所描述的曲线用于逼近(i)。
我有7K可培训的数据,并使用700进行验证。此外,使用L2-正则化,但结果没有变化。
发布于 2022-11-07 05:55:27
你的模型一点也不小,我认为它实际上很大。您可以考虑将多少数据与参数的数量进行比较。因此,您有700 k的参数,以适应小于7k的发生。这并不小,我强烈怀疑这可以通过任何形式的正规化来解决。
https://datascience.stackexchange.com/questions/115797
复制相似问题