文章/答案/技术大牛

发布

社区首页 >问答首页 >为什么过采样后高度不平衡的数据集的准确性会降低？

问为什么过采样后高度不平衡的数据集的准确性会降低？
EN

Data Science用户

提问于 2018-02-23 08:51:12

回答 1查看 10.9K关注 0票数 7

我创建了一个合成数据集，其中一个类中有20个样本，另一个类中有100个，因此创建了一个不平衡的数据集。平衡前的数据分类准确率为80%，而平衡后的分类准确率为60% (即两个类别的100个样本)。可能的原因是什么？

classification

dataset

unsupervised-learning

supervised-learning

class-imbalance

回答 1

Data Science用户

发布于 2018-02-23 09:21:10

对于你的问题，准确性可能不是一个很好的衡量标准。

对于原始数据集，如果模型只是对所有样本都属于大类做了一个虚拟预测，准确率将达到83% (100/120)。但在不平衡的数据集中，这通常不是我们想要预测的。

让我们来看看欺诈检测的问题。交易是欺诈的可能性很小(假设0.01%)，但未被发现的欺诈事务的损失是巨大的(e.x )。100万美元)。另一方面，手工验证事务是否相对较小的成本。在这种情况下，我们想要发现所有可能的欺诈，即使我们必须作出许多错误的积极预测。

要处理不平衡的数据集，首先必须选择要回答的问题。那么，这个问题的好指标是什么呢？在决定使用哪种技术之前，先回答以下两个问题。

回到原来的问题。为什么当我们对较小的类进行过抽样时，准确度会降低？

这是因为这种技术将更多的权重放在小类上，使模型偏向于它。该模型现在将预测精度较高的小类，但总体精度将下降。

票数 6

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/28227

复制

相似问题

问为什么过采样后高度不平衡的数据集的准确性会降低？
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问为什么过采样后高度不平衡的数据集的准确性会降低？EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问为什么过采样后高度不平衡的数据集的准确性会降低？
EN