我是很新的机器学习方法,所以我可能写不出适当的技术公式。
我的问题是,在一个二元分类问题中,Class = 1和Class = 0中样本大小的最佳比例。(我可能使用不同的模型,但我将从决策树开始)。
我试图通过使用一些风险因素来建立一个300.000人口的风险模型,每个风险因素都有一个风险权重。所以基本上它是一个累积的模型
Risk_amount = Risk_factor_1 * weight_1 + Risk_factor_2 * weight_2 + Risk_factor_3 * weight_3 .
我的最大问题是,Risk_amount是否真的属于Class = 1。
我想要我的ML-模型找到最优的权重这些风险因素。
我已经知道300.000中的1000个在实际中是有风险的。因此,使用Class = 1的目标数据量是1000。
因此,具有非危险人口Class = 0的目标数据总数为299.000。
问题是,Class = 1的数量和Class = 0的数量之间的最佳比例是多少?
1000 Class = 1对1000 Class = 0
或
1000 Class = 1对整个Class = 0是299.000吗?
发布于 2019-01-08 15:09:26
分类中的两个类之间的平衡非常重要,因为您不希望您的模型过于适合特定的类。
在这里,除了精确性外,您还可以使用度量来真正评估您的模型到底有多好。如果无法平衡数据集,则有多种处理不平衡数据的方法。它们如下:
对结果进行深入的分析对于理解如何着手解决这个问题是非常重要的。请看f1评分,查准率和召回除了准确性。还阅读了这些指标的微观/宏平均值。
datascience、stackexchange和堆栈溢出中有很多关于如何处理不平衡的数据以进行分类的讨论。下面是一个链接:https://stackoverflow.com/questions/40568254/machine-learning-classification-on-imbalanced-data
享受机器学习的乐趣:)
https://datascience.stackexchange.com/questions/43677
复制相似问题