文章/答案/技术大牛

发布

社区首页 >问答首页 >如果我的数据中存在阶级不平衡问题，我该怎么说呢？

问如果我的数据中存在阶级不平衡问题，我该怎么说呢？
EN

Data Science用户

提问于 2022-09-23 11:09:29

回答 1查看 63关注 0票数 0

假设我有这个数据集：

标签-总额%

0- 18.53%

1%-8 18%

2- 26.22%

3%，16 46%

4%-- 8.62%

5? 9.58%

6%-5 88%

7%- 6.53%

我可以说我有班级不平衡的问题？在这种情况下，是否必须解决使用所有各种技术(重采样、数据增强、更改perf度量等)的问题？

是否有一个数学公式来得到不平衡严重程度的等级，或者类似的东西来理解是否存在阶级不平衡问题？

我认为我们必须逐案评估，避免数据不平衡的技术甚至可能根本不起作用，没有一个普遍的规则。有什么想法吗？

machine-learning

class-imbalance

回答 1

Data Science用户

回答已采纳

发布于 2022-09-23 12:35:54

“不平衡问题”是几个松散相关的问题的混合体，主要是这两个问题：

当某个类的样本太少，特别是维数太多时，很难概括。然而，像重采样这样的方法在这种情况下不会有多大帮助:在一种过于简化的方式中，这意味着试图通过改变模型偏差来对抗模型方差。除了收集更多的数据之外，除了收集更多的数据之外，您几乎什么也做不了，除非，您可能只对少数几个罕见类的特定类特定度量感兴趣。您的类分布似乎并没有那么糟糕--不管类比率如何，您的模型都可以用足够的样本进行泛化。
逻辑函数低估了罕见病例的概率。这基本上只是偏倚，重采样/重称/阈值选择基本上都有相同的效果。后者是最容易的，因为它不需要再培训，但严格来说，这是一个决策部分，不应与评估阶段混为一谈(不同行动可能有一个以上的决定门槛等)。

因此，“理想的”方法是:根本不重采样，使用“适当”(独立于类和阈值独立的)度量(如日志丢失)进行评估，从而在决策阶段之前直接处理分数/概率(如果需要的话进行校准)。

然而，在DS上下文中，您仍然需要“直观”的度量(基于混淆矩阵)，这些指标是阈值敏感的，并且通常是特定于类的。即便如此，任何比在查准率/召回曲线上选择阈值更复杂的事情通常都是过度的。

票数 3

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/114636

复制

相似问题

问如果我的数据中存在阶级不平衡问题，我该怎么说呢？
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如果我的数据中存在阶级不平衡问题，我该怎么说呢？EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如果我的数据中存在阶级不平衡问题，我该怎么说呢？
EN