文章/答案/技术大牛

发布

社区首页 >问答首页 >不平衡二值分类中多数类的平滑抽样与下采样比较

问不平衡二值分类中多数类的平滑抽样与下采样比较
EN

Data Science用户

提问于 2016-11-11 14:42:33

回答 1查看 1.6K关注 0票数 2

我有一个二元分类任务，两个类之间的不平衡。我想比较一下SMOTE .降低多数阶级的规模和少数阶级的规模。

我使用以下两种方法对分类器进行了3次验证：

将少数群体的人数增加到多数人的人数。
使用随机次抽样将多数类缩小为少数类

为了测试哪种方法更有效，我用三重交叉验证训练了分类器(随机森林)。

我从三重简历中得到的混淆矩阵似乎促进了SMOTE的使用(这两个类具有更好的分类性能)。我认为这份简历可以用来选择最好的方法。

然而，当我在一个真实的测试集上测试分类器时(它被排除在外，不用于训练或验证)，我看不到SMOTE算法w.r.t的真正优势。多数类的随机子样本。少数阶级的分类较好，但以牺牲多数阶级的表现为代价。

这是SMOTE算法的局限性，还是我的模型选择方法(使用三重CV)有一些缺陷？

classification

cross-validation

model-selection

class-imbalance

回答 1

Data Science用户

回答已采纳

发布于 2016-11-13 22:40:59

如果没有实际数据，很难说。

但是，我可以告诉您，SMOTE会创建人工实例，因此，当在许多扩展中使用时，可能会“偏离”实际的少数类数据。很难确定这片土地的面积。影响因素很多，首先是数据，然后是相邻系数。

你可以试着用样本下的随机数来增加能量。因此，您可以尝试使用第一个Adaboost来代替随机森林，例如，每个分类器都被训练在不同的子样本上。

票数 2

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/15058

复制

相似问题

问不平衡二值分类中多数类的平滑抽样与下采样比较
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问不平衡二值分类中多数类的平滑抽样与下采样比较EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问不平衡二值分类中多数类的平滑抽样与下采样比较
EN