首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如果我的数据中存在阶级不平衡问题,我该怎么说呢?

如果我的数据中存在阶级不平衡问题,我该怎么说呢?
EN

Data Science用户
提问于 2022-09-23 11:09:29
回答 1查看 63关注 0票数 0

假设我有这个数据集:

标签-总额%

0- 18.53%

1%-8 18%

2- 26.22%

3%,16 46%

4%-- 8.62%

5? 9.58%

6%-5 88%

7%- 6.53%

我可以说我有班级不平衡的问题?在这种情况下,是否必须解决使用所有各种技术(重采样、数据增强、更改perf度量等)的问题?

是否有一个数学公式来得到不平衡严重程度的等级,或者类似的东西来理解是否存在阶级不平衡问题?

我认为我们必须逐案评估,避免数据不平衡的技术甚至可能根本不起作用,没有一个普遍的规则。有什么想法吗?

EN

回答 1

Data Science用户

回答已采纳

发布于 2022-09-23 12:35:54

“不平衡问题”是几个松散相关的问题的混合体,主要是这两个问题:

  1. 当某个类的样本太少,特别是维数太多时,很难概括。然而,像重采样这样的方法在这种情况下不会有多大帮助:在一种过于简化的方式中,这意味着试图通过改变模型偏差来对抗模型方差。除了收集更多的数据之外,除了收集更多的数据之外,您几乎什么也做不了,除非,您可能只对少数几个罕见类的特定类特定度量感兴趣。您的类分布似乎并没有那么糟糕--不管类比率如何,您的模型都可以用足够的样本进行泛化。
  2. 逻辑函数低估了罕见病例的概率。这基本上只是偏倚,重采样/重称/阈值选择基本上都有相同的效果。后者是最容易的,因为它不需要再培训,但严格来说,这是一个决策部分,不应与评估阶段混为一谈(不同行动可能有一个以上的决定门槛等)。

因此,“理想的”方法是:根本不重采样,使用“适当”(独立于类和阈值独立的)度量(如日志丢失)进行评估,从而在决策阶段之前直接处理分数/概率(如果需要的话进行校准)。

然而,在DS上下文中,您仍然需要“直观”的度量(基于混淆矩阵),这些指标是阈值敏感的,并且通常是特定于类的。即便如此,任何比在查准率/召回曲线上选择阈值更复杂的事情通常都是过度的。

票数 3
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/114636

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档