首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >为什么过采样后高度不平衡的数据集的准确性会降低?

为什么过采样后高度不平衡的数据集的准确性会降低?
EN

Data Science用户
提问于 2018-02-23 08:51:12
回答 1查看 10.9K关注 0票数 7

我创建了一个合成数据集,其中一个类中有20个样本,另一个类中有100个,因此创建了一个不平衡的数据集。平衡前的数据分类准确率为80%,而平衡后的分类准确率为60% (即两个类别的100个样本)。可能的原因是什么?

EN

回答 1

Data Science用户

发布于 2018-02-23 09:21:10

对于你的问题,准确性可能不是一个很好的衡量标准。

对于原始数据集,如果模型只是对所有样本都属于大类做了一个虚拟预测,准确率将达到83% (100/120)。但在不平衡的数据集中,这通常不是我们想要预测的。

让我们来看看欺诈检测的问题。交易是欺诈的可能性很小(假设0.01%),但未被发现的欺诈事务的损失是巨大的(e.x )。100万美元)。另一方面,手工验证事务是否相对较小的成本。在这种情况下,我们想要发现所有可能的欺诈,即使我们必须作出许多错误的积极预测。

要处理不平衡的数据集,首先必须选择要回答的问题。那么,这个问题的好指标是什么呢?在决定使用哪种技术之前,先回答以下两个问题。

回到原来的问题。为什么当我们对较小的类进行过抽样时,准确度会降低?

这是因为这种技术将更多的权重放在小类上,使模型偏向于它。该模型现在将预测精度较高的小类,但总体精度将下降。

票数 6
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/28227

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档