我有一个二元分类任务,两个类之间的不平衡。我想比较一下SMOTE .降低多数阶级的规模和少数阶级的规模。
我使用以下两种方法对分类器进行了3次验证:
为了测试哪种方法更有效,我用三重交叉验证训练了分类器(随机森林)。
我从三重简历中得到的混淆矩阵似乎促进了SMOTE的使用(这两个类具有更好的分类性能)。我认为这份简历可以用来选择最好的方法。
然而,当我在一个真实的测试集上测试分类器时(它被排除在外,不用于训练或验证),我看不到SMOTE算法w.r.t的真正优势。多数类的随机子样本。少数阶级的分类较好,但以牺牲多数阶级的表现为代价。
这是SMOTE算法的局限性,还是我的模型选择方法(使用三重CV)有一些缺陷?
发布于 2016-11-13 22:40:59
如果没有实际数据,很难说。
但是,我可以告诉您,SMOTE会创建人工实例,因此,当在许多扩展中使用时,可能会“偏离”实际的少数类数据。很难确定这片土地的面积。影响因素很多,首先是数据,然后是相邻系数。
你可以试着用样本下的随机数来增加能量。因此,您可以尝试使用第一个Adaboost来代替随机森林,例如,每个分类器都被训练在不同的子样本上。
https://datascience.stackexchange.com/questions/15058
复制相似问题