首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >模型由于数据不平衡而倾斜

模型由于数据不平衡而倾斜
EN

Data Science用户
提问于 2020-11-06 04:38:13
回答 1查看 39关注 0票数 0

在生活中,一些事件是罕见的,大多数情况是正常的。因此,我想知道,为了发现罕见的案例,我们是否应该使用一个不平衡的数据集,其中包含更多的历史罕见案例?

以德国信用数据为例。它包含关于20个变量的数据,以及对1000名贷款申请者来说申请人是否被视为良好或不良信用风险的分类。70%是好的。30%坏蛋

使用这个原始数据集,我假设模型将倾向于更好地识别正常情况(因为数据中有更多的正常情况)。

如果使用一个平衡的数据集,即好信用的数量等于坏信用的数量,那么最后一个模型将很好地预测“好”和“坏”。

但是,如果我们想使用机器学习来识别罕见的事件,例如在这种情况下,不良信贷客户。我们是否应该使用一个不平衡的数据集(例如,70%的不良信用,总共1000条记录中的30%很好),其中包含更多的不良信用客户,而不是好的客户,所以最终的模型是善于识别坏客户?或者平衡的数据集总是必要的(也是唯一正确的方法)。

有人能解释一下这件事吗?

谢谢。

数据链接:https://online.stat.psu.edu/stat857/sites/onlinecourses.science.psu.edu.stat857/files/german_信贷/索引

EN

回答 1

Data Science用户

回答已采纳

发布于 2020-11-06 09:49:45

不平衡数据集的

影响--

首先,我要说,不平衡的数据集影响取决于您使用的模型类型。

例如:

  • 如果每个类都有足够的数据来逼近高斯分布,那么高斯朴素Bayes不应该受到太大的影响。(而且数据是正态分布的)
  • 神经网络学习是利用预测的误差来更新其模型,因此,拥有不平衡的数据集会导致学习不平衡(例如,70%的权重/biais已经根据类“好”进行更新)。你不希望这种事发生在事先。

如何处理不平衡的数据集?

可能还有其他方法,但至少可以这样做:

  • 使用不受不平衡数据集影响的算法。
  • 有些算法有一个class_weight参数。在学习过程中,你可以用它来惩罚更多的少数民族班级,因此该模型不得不更多地关注少数民族课堂的观察。有关更多详细信息,请参见本文:这门课是怎么_科学知识中的重量参数-学习工作?
  • 重新整理您的数据集,使其变得平衡。这可能是通过欠采样多数派阶级或过采样少数阶级。

再读

如何处理不平衡数据

在机器学习数据集中打击不平衡类的8种策略

希望能帮上忙。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/85008

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档