亲爱的DataScience社区,我正在研究具有高维输入的类不平衡表数据.表格数据是从卫星数据像素导出的,而我用根据可用数据计算的导出指数来夸大列车数据维数。对于数据计数较低的类,用F1评分测量的精度很低。我已经附上了样本数据大小。

我使用MLP,CatBoostClassifier和支持向量机来完成任务,CatBoostClassifier给了我最好的结果。为了解决数据分类的准确性问题,我实现了过采样、欠采样(丢失了大量高计数类的特征)、SMOTE、GSMOTE以及一种算法方法,在CatBoostClassifier中使用class_weights参数在模型训练部分分配权重。最好的结果是当我使用算法方法分配class_weights时。

尽管如此,样本较高的类具有较高的F1分数,而在样本不足的类中,my模型的性能并不好。查阅了大量的文献,但对如何更好地解决这一不平衡的问题,在分类模型和评价指标的选择等方面并没有得出有效的结论。
接下来,我计划将数据分割成块,并在不同的模型上进行训练,并使用投票方法对完成后的状态进行分类和更新。
因此,我想听听datascience社区是如何处理这种数据不平衡的。另外,有什么适合于挑战的深度学习方法?
发布于 2022-09-14 18:38:46
我在dataset上实现了一些东西,它有如此多的类,并且对我来说很好,虽然泛化可能是一个问题,但它值得一试,在您的情况下,我要做的是最初有一个模型来预测A类、B类和can类的合并(您可以称之为特殊类),所以它将是一个3类问题,一旦您在这里有很好的准确性,您可以创建另一个模型来预测独立的类,从类的特殊。我再一次告诉你,这在我的工作中适用于我,而且该模型也部署在生产中。
https://datascience.stackexchange.com/questions/114371
复制相似问题