对于使用成本矩阵最大限度地提高模型性能的分类问题,通常采用再平衡技术。
比方说,我有以下两个类的成本。
C(a,a) = 0, C(b,b) = 0, C(a,b) = 2, C(b,a) = 1.然后,使用再平衡技术,我需要b类的例子和a类的例子的两倍。
但是,当(a,a)或(b,b)有成本时,再平衡战略应该是什么?
例如,
C(a,a) = 0, C(b,b) = 2, C(a,b) = -2, C(b,a) = -10我该怎么处理这些案子?
发布于 2019-04-25 15:08:12
在与正确答案C(b,b)相关联的情况下(在您的示例中),查找成本函数并不常见。
但如果有,我认为分类的解决方案可能是微不足道的:我可以说“我所有的预测都是'b'”,这样,我就可以把-10作为一种成本很多次,从而给我一个负成本(当然,取决于平衡)。
我不知道你提到的应用成本的技术(相应地重新平衡),但对我来说,如果目标函数发生变化以考虑到这一点,那就更自然了。
下面的文章讨论了解决这一问题的可能性(而不是重新平衡,我们应该度量成本敏感矩阵)。还有XGBoost!
据我所知,XGBoost分类的成本函数可以是个性化的。
https://datascience.stackexchange.com/questions/50912
复制相似问题