首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >最优比例的数量之间的类别=1和数量的类别= 0?

最优比例的数量之间的类别=1和数量的类别= 0?
EN

Data Science用户
提问于 2019-01-08 14:53:50
回答 1查看 371关注 0票数 0

我是很新的机器学习方法,所以我可能写不出适当的技术公式。

我的问题是,在一个二元分类问题中,Class = 1Class = 0中样本大小的最佳比例。(我可能使用不同的模型,但我将从决策树开始)。

我试图通过使用一些风险因素来建立一个300.000人口的风险模型,每个风险因素都有一个风险权重。所以基本上它是一个累积的模型

Risk_amount = Risk_factor_1 * weight_1 + Risk_factor_2 * weight_2 + Risk_factor_3 * weight_3 .

我的最大问题是,Risk_amount是否真的属于Class = 1

我想要我的ML-模型找到最优的权重这些风险因素。

我已经知道300.000中的1000个在实际中是有风险的。因此,使用Class = 1的目标数据量是1000。

因此,具有非危险人口Class = 0的目标数据总数为299.000。

问题是,Class = 1的数量和Class = 0的数量之间的最佳比例是多少?

1000 Class = 1对1000 Class = 0

1000 Class = 1对整个Class = 0是299.000吗?

EN

回答 1

Data Science用户

回答已采纳

发布于 2019-01-08 15:09:26

分类中的两个类之间的平衡非常重要,因为您不希望您的模型过于适合特定的类。

在这里,除了精确性外,您还可以使用度量来真正评估您的模型到底有多好。如果无法平衡数据集,则有多种处理不平衡数据的方法。它们如下:

  1. 您可以使用某些技术,比如SMOTE,来生成更多的样本。
  2. 您必须在测试中拆分数据集,并使用分层进行培训,以便在评估中保持平衡。
  3. 您可以对大类进行子采样并平衡这两个类,并通过获取较大类的随机子样本来多次。

对结果进行深入的分析对于理解如何着手解决这个问题是非常重要的。请看f1评分,查准率和召回除了准确性。还阅读了这些指标的微观/宏平均值。

datascience、stackexchange和堆栈溢出中有很多关于如何处理不平衡的数据以进行分类的讨论。下面是一个链接:https://stackoverflow.com/questions/40568254/machine-learning-classification-on-imbalanced-data

享受机器学习的乐趣:)

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/43677

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档