我试着用4种不同的类别训练神经网络来进行图像分类:
问题是训练图像的数量偏向于一个/两个类(Es)。
我想知道是否有一种方法来训练神经网络,根据每堂课训练样本的数量?
我是否必须将每堂课的训练样本数目限制在所有课程的最少数目?
发布于 2018-07-30 05:37:14
没有不平衡的不同类的数据并不重要。重要的是,您的数据应该有一个真正的分布。培训数据的分布应该与测试环境相同。因为您可以阅读这里,所以您的数据应该非常适合将要使用的任务。因此,如果你的样品的分布是真实的,就不会有问题。考虑一下,对于不平衡的数据集,我们应该使用适当的评估指标,比如F1评分。
最后,如果这是数据的真实分布,我强烈建议您不要更改实际分布,即使您想要增加数据。不应更改不同类的相对比率。
发布于 2018-07-29 17:05:10
有时,一个类比另一个类更常见。这通常都是值得思考的。我想这并不是您所描述的那样(也就是说,人们以后想要对生产中的图像进行分类的事情是任意的),所以让我们忽略这种情况(尽管它可能会影响测试集上的性能,这取决于测试集中最常见的是什么)。不过,一般来说,您会尝试一些策略(例如,不过度采样(无论是否有某种程度的数据增加),并在真实的测试集上测试它们的性能。
绝对不要扔掉任何图像。通常情况下,我们很难在数据增强中创建真实的图像--在这里,您已经拥有了它们!因此,一种更吸引人的方法是使用一个数据生成器来平均地(或以任何比例对每个类进行最有意义的采样)来创建一批培训数据(包括一些数据增强,例如轻微的旋转、颜色/饱和度的变化等)。
https://datascience.stackexchange.com/questions/36147
复制相似问题