文章/答案/技术大牛

发布

社区首页 >问答首页 >模型由于数据不平衡而倾斜

问模型由于数据不平衡而倾斜
EN

Data Science用户

提问于 2020-11-06 04:38:13

回答 1查看 39关注 0票数 0

在生活中，一些事件是罕见的，大多数情况是正常的。因此，我想知道，为了发现罕见的案例，我们是否应该使用一个不平衡的数据集，其中包含更多的历史罕见案例？

以德国信用数据为例。它包含关于20个变量的数据，以及对1000名贷款申请者来说申请人是否被视为良好或不良信用风险的分类。70%是好的。30%坏蛋

使用这个原始数据集，我假设模型将倾向于更好地识别正常情况(因为数据中有更多的正常情况)。

如果使用一个平衡的数据集，即好信用的数量等于坏信用的数量，那么最后一个模型将很好地预测“好”和“坏”。

但是，如果我们想使用机器学习来识别罕见的事件，例如在这种情况下，不良信贷客户。我们是否应该使用一个不平衡的数据集(例如，70%的不良信用，总共1000条记录中的30%很好)，其中包含更多的不良信用客户，而不是好的客户，所以最终的模型是善于识别坏客户？或者平衡的数据集总是必要的(也是唯一正确的方法)。

有人能解释一下这件事吗？

谢谢。

数据链接：https://online.stat.psu.edu/stat857/sites/onlinecourses.science.psu.edu.stat857/files/german_信贷/索引

machine-learning

data

回答 1

Data Science用户

回答已采纳

发布于 2020-11-06 09:49:45

不平衡数据集的

影响--

首先，我要说，不平衡的数据集影响取决于您使用的模型类型。

例如：

如果每个类都有足够的数据来逼近高斯分布，那么高斯朴素Bayes不应该受到太大的影响。(而且数据是正态分布的)
神经网络学习是利用预测的误差来更新其模型，因此，拥有不平衡的数据集会导致学习不平衡(例如，70%的权重/biais已经根据类“好”进行更新)。你不希望这种事发生在事先。

如何处理不平衡的数据集?

可能还有其他方法，但至少可以这样做：

使用不受不平衡数据集影响的算法。
有些算法有一个class_weight参数。在学习过程中，你可以用它来惩罚更多的少数民族班级，因此该模型不得不更多地关注少数民族课堂的观察。有关更多详细信息，请参见本文：这门课是怎么_科学知识中的重量参数-学习工作？
重新整理您的数据集，使其变得平衡。这可能是通过欠采样多数派阶级或过采样少数阶级。

再读

如何处理不平衡数据

在机器学习数据集中打击不平衡类的8种策略

希望能帮上忙。

票数 1

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/85008

复制

相似问题

问模型由于数据不平衡而倾斜
EN

回答 1

Data Science用户

影响--

如何处理不平衡的数据集?

再读

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问模型由于数据不平衡而倾斜EN

回答 1

Data Science用户

影响--

如何处理不平衡的数据集?

再读

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问模型由于数据不平衡而倾斜
EN