我正在进行一个二进制分类项目,通过为少数类生成新的样本,使用VAE (变分自动编码器)来处理两个类之间的不平衡。
第一类(多数类)包含20000个样本,第二类(少数类)包含500个样本。
在对少数民族班级的VAE模型进行训练后,为该类生成了新的样本,并将它们添加到训练集中,然后对两个分类模型进行了训练,一个是关于不平衡数据(仅训练集)的训练模型,另一个是用VAE生成的训练集+数据训练的模型。问题是第一个模型比第二个模型给出的结果更好(F1分数,Roc auc.),我认为问题可能是因为VAE训练的数据数量有限。
有什么帮助吗。
发布于 2022-06-27 03:54:50
虽然500个训练图像还不足以从VAE中生成多样化的图像,但是您仍然可以尝试制作一些。最好是对10个不同图像(甚至更多)的潜在用户进行处理,并将其传递给解码器(如果您已经在这样做了,请忽略它。如果你正在做其他的方法,试试这个)。
如果它仍然不起作用,那么,我建议您在整个数据集上构建一个条件VAE。在条件VAE中,您使用标签来训练VAE,这样您的模型不仅可以学习重建,还可以学习它正在重建的图像类型。这将帮助您生成任何特定类的图像。
https://stackoverflow.com/questions/72510883
复制相似问题