首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >不平衡二值分类中多数类的平滑抽样与下采样比较

不平衡二值分类中多数类的平滑抽样与下采样比较
EN

Data Science用户
提问于 2016-11-11 14:42:33
回答 1查看 1.6K关注 0票数 2

我有一个二元分类任务,两个类之间的不平衡。我想比较一下SMOTE .降低多数阶级的规模和少数阶级的规模。

我使用以下两种方法对分类器进行了3次验证:

  • 将少数群体的人数增加到多数人的人数。
  • 使用随机次抽样将多数类缩小为少数类

为了测试哪种方法更有效,我用三重交叉验证训练了分类器(随机森林)。

我从三重简历中得到的混淆矩阵似乎促进了SMOTE的使用(这两个类具有更好的分类性能)。我认为这份简历可以用来选择最好的方法。

然而,当我在一个真实的测试集上测试分类器时(它被排除在外,不用于训练或验证),我看不到SMOTE算法w.r.t的真正优势。多数类的随机子样本。少数阶级的分类较好,但以牺牲多数阶级的表现为代价。

这是SMOTE算法的局限性,还是我的模型选择方法(使用三重CV)有一些缺陷?

EN

回答 1

Data Science用户

回答已采纳

发布于 2016-11-13 22:40:59

如果没有实际数据,很难说。

但是,我可以告诉您,SMOTE会创建人工实例,因此,当在许多扩展中使用时,可能会“偏离”实际的少数类数据。很难确定这片土地的面积。影响因素很多,首先是数据,然后是相邻系数。

你可以试着用样本下的随机数来增加能量。因此,您可以尝试使用第一个Adaboost来代替随机森林,例如,每个分类器都被训练在不同的子样本上。

票数 2
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/15058

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档