问SMOTE后产生的结果可靠吗？
EN

Stack Overflow用户

提问于 2015-03-10 15:29:25

回答 1查看 989关注 0票数 1

我有一个倾斜的数据集，其中有推特推文和与it.The相关的情绪，积极情绪:负面情绪的比率约为1:4(训练集)。当我在Weka上运行训练集(没有SOMTE)时，结果并不令人满意。所以我使用SMOTE来平衡我在那之后得到的classes.The结果，这要好得多。我使用Libsvm进行分类。

由这种SMOTE技术生成的模型的可靠性如何？对于这种不平衡的数据集，我们可以总是使用SMOTE吗？我是ML和weka的新手，所以对这些东西了解不多。

weka

machine-learning

回答 1

Stack Overflow用户

发布于 2015-03-11 23:49:48

那得看情况。无论是随机的还是合成的，过采样和欠采样都有许多利弊。应该通过比较训练和交叉验证或测试错误来检查结果。还可以通过绘制y轴上的错误率和x轴上的数据大小来绘制学习曲线。这种方式可以检测到过于乐观的结果、泛化能力等。有时我们会因为过度拟合而得到好的分数。我使用了SMOTE，并取得了很好的效果。但是，我必须检查我提到的流程，看看它有多好。对于类不平衡问题，您可以尝试的另一件事是保持数据集不变，然后应用一个成本敏感的学习器，该学习器将根据一些权重对FP和FN进行惩罚。此外，您还可以对不平衡的数据集应用常规算法，然后应用成本敏感评估，如成本曲线。这条曲线可以告诉你，如果给你一个50-50平衡的数据集，你的模型将会如何表现。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/28958200

复制

相似问题

问SMOTE后产生的结果可靠吗？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问SMOTE后产生的结果可靠吗？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问SMOTE后产生的结果可靠吗？
EN