我正在Weka中解决一个二进制分类问题,数据集高度不平衡(一个类别90%,另一个类别10% )。我首先将SMOTE (http://www.cs.cmu.edu/afs/cs/project/jair/pub/volume16/chawla02a-html/node6.html)应用于整个数据集,以平衡类别,然后对新获得的数据执行10倍交叉验证。我发现了(overly?)乐观的结果,F1在90%左右。
这是由于过采样造成的吗?对应用了SMOTE的数据执行交叉验证是不是不好的做法?有什么办法可以解决这个问题吗?
发布于 2015-08-28 22:39:01
我认为你应该首先拆分测试和训练的数据,然后只在训练部分执行SMOTE,然后在没有合成示例的数据集部分测试算法,这会让你更好地了解算法的性能。
发布于 2015-12-08 19:23:00
根据我的经验,手工划分数据集不是处理这个问题的好方法。当你有1个数据集时,你应该对你使用的每个分类器进行交叉验证,交叉验证的1倍是你的测试set_which,你不应该在it_上实现SMOTE,你还有9个其他的折叠作为你的训练集,其中你必须有一个平衡的数据集。在循环中重复此操作10次。这样你就会得到比手工划分整个数据集更好的结果。
很明显,如果你在测试和训练集上都应用了SMOTE,那么你就得到了一个合成的测试集,它给了你一个实际上并不正确的高精度。
https://stackoverflow.com/questions/31856326
复制相似问题