首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >SMOTE过采样和交叉验证

SMOTE过采样和交叉验证
EN

Stack Overflow用户
提问于 2015-08-06 20:52:21
回答 2查看 5K关注 0票数 5

我正在Weka中解决一个二进制分类问题,数据集高度不平衡(一个类别90%,另一个类别10% )。我首先将SMOTE (http://www.cs.cmu.edu/afs/cs/project/jair/pub/volume16/chawla02a-html/node6.html)应用于整个数据集,以平衡类别,然后对新获得的数据执行10倍交叉验证。我发现了(overly?)乐观的结果,F1在90%左右。

这是由于过采样造成的吗?对应用了SMOTE的数据执行交叉验证是不是不好的做法?有什么办法可以解决这个问题吗?

EN

回答 2

Stack Overflow用户

发布于 2015-08-28 22:39:01

我认为你应该首先拆分测试和训练的数据,然后只在训练部分执行SMOTE,然后在没有合成示例的数据集部分测试算法,这会让你更好地了解算法的性能。

票数 12
EN

Stack Overflow用户

发布于 2015-12-08 19:23:00

根据我的经验,手工划分数据集不是处理这个问题的好方法。当你有1个数据集时,你应该对你使用的每个分类器进行交叉验证,交叉验证的1倍是你的测试set_which,你不应该在it_上实现SMOTE,你还有9个其他的折叠作为你的训练集,其中你必须有一个平衡的数据集。在循环中重复此操作10次。这样你就会得到比手工划分整个数据集更好的结果。

很明显,如果你在测试和训练集上都应用了SMOTE,那么你就得到了一个合成的测试集,它给了你一个实际上并不正确的高精度。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/31856326

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档