假设我有这个数据集:
标签-总额%
0- 18.53%
1%-8 18%
2- 26.22%
3%,16 46%
4%-- 8.62%
5? 9.58%
6%-5 88%
7%- 6.53%
我可以说我有班级不平衡的问题?在这种情况下,是否必须解决使用所有各种技术(重采样、数据增强、更改perf度量等)的问题?
是否有一个数学公式来得到不平衡严重程度的等级,或者类似的东西来理解是否存在阶级不平衡问题?
我认为我们必须逐案评估,避免数据不平衡的技术甚至可能根本不起作用,没有一个普遍的规则。有什么想法吗?
发布于 2022-09-23 12:35:54
“不平衡问题”是几个松散相关的问题的混合体,主要是这两个问题:
因此,“理想的”方法是:根本不重采样,使用“适当”(独立于类和阈值独立的)度量(如日志丢失)进行评估,从而在决策阶段之前直接处理分数/概率(如果需要的话进行校准)。
然而,在DS上下文中,您仍然需要“直观”的度量(基于混淆矩阵),这些指标是阈值敏感的,并且通常是特定于类的。即便如此,任何比在查准率/召回曲线上选择阈值更复杂的事情通常都是过度的。
https://datascience.stackexchange.com/questions/114636
复制相似问题