我有一个倾斜的数据集,其中有推特推文和与it.The相关的情绪,积极情绪:负面情绪的比率约为1:4(训练集)。当我在Weka上运行训练集(没有SOMTE)时,结果并不令人满意。所以我使用SMOTE来平衡我在那之后得到的classes.The结果,这要好得多。我使用Libsvm进行分类。
由这种SMOTE技术生成的模型的可靠性如何?对于这种不平衡的数据集,我们可以总是使用SMOTE吗?我是ML和weka的新手,所以对这些东西了解不多。
发布于 2015-03-11 23:49:48
那得看情况。无论是随机的还是合成的,过采样和欠采样都有许多利弊。应该通过比较训练和交叉验证或测试错误来检查结果。还可以通过绘制y轴上的错误率和x轴上的数据大小来绘制学习曲线。这种方式可以检测到过于乐观的结果、泛化能力等。有时我们会因为过度拟合而得到好的分数。我使用了SMOTE,并取得了很好的效果。但是,我必须检查我提到的流程,看看它有多好。对于类不平衡问题,您可以尝试的另一件事是保持数据集不变,然后应用一个成本敏感的学习器,该学习器将根据一些权重对FP和FN进行惩罚。此外,您还可以对不平衡的数据集应用常规算法,然后应用成本敏感评估,如成本曲线。这条曲线可以告诉你,如果给你一个50-50平衡的数据集,你的模型将会如何表现。
https://stackoverflow.com/questions/28958200
复制相似问题