在生活中,一些事件是罕见的,大多数情况是正常的。因此,我想知道,为了发现罕见的案例,我们是否应该使用一个不平衡的数据集,其中包含更多的历史罕见案例?
以德国信用数据为例。它包含关于20个变量的数据,以及对1000名贷款申请者来说申请人是否被视为良好或不良信用风险的分类。70%是好的。30%坏蛋
使用这个原始数据集,我假设模型将倾向于更好地识别正常情况(因为数据中有更多的正常情况)。
如果使用一个平衡的数据集,即好信用的数量等于坏信用的数量,那么最后一个模型将很好地预测“好”和“坏”。
但是,如果我们想使用机器学习来识别罕见的事件,例如在这种情况下,不良信贷客户。我们是否应该使用一个不平衡的数据集(例如,70%的不良信用,总共1000条记录中的30%很好),其中包含更多的不良信用客户,而不是好的客户,所以最终的模型是善于识别坏客户?或者平衡的数据集总是必要的(也是唯一正确的方法)。
有人能解释一下这件事吗?
谢谢。
数据链接:https://online.stat.psu.edu/stat857/sites/onlinecourses.science.psu.edu.stat857/files/german_信贷/索引
发布于 2020-11-06 09:49:45
不平衡数据集的
首先,我要说,不平衡的数据集影响取决于您使用的模型类型。
例如:
可能还有其他方法,但至少可以这样做:
class_weight参数。在学习过程中,你可以用它来惩罚更多的少数民族班级,因此该模型不得不更多地关注少数民族课堂的观察。有关更多详细信息,请参见本文:这门课是怎么_科学知识中的重量参数-学习工作?希望能帮上忙。
https://datascience.stackexchange.com/questions/85008
复制相似问题