我有一个不平衡的数据集。我的目标是通过混淆矩阵平衡敏感性和特异性。我在r中使用了glmnet和课堂权重。该模型很好地平衡了灵敏度/特异性,但我看了校准图,而概率没有得到很好的校准。我读过关于校准概率的文章,但我想知道我的目标是否是产生等级预测是否重要。如果这确实重要,我还没有找到一种方法来校准使用插入符号::train()时的概率。
发布于 2022-11-03 13:01:59
这个话题已经得到了广泛的讨论,特别是在斯蒂芬-科拉萨的一些回答中。我将试图总结主要的带回家的信息,为您的具体问题。
从纯粹的统计角度来看,您的兴趣应该是为任何新数据实例的每个类生成一个概率作为输出。当您处理不平衡数据时,这样的概率可能很小,但是--只要它们是正确的--这不是一个问题。当然,有些模型可以给出类概率的糟糕估计。。在这种情况下,校准允许您更好地校准从给定模型中获得的概率。这意味着,每当您为一个新的观察估计属于目标类的概率p时,p确实是该类的真正概率。
如果您能够获得一个良好的概率估计,那么平衡灵敏度或特异性不是问题的统计部分的一部分,而是决策分量的一部分。这样的最终决定可能需要使用某种阈值。根据I和II类型错误的成本,成本最优阈值可能会改变;但是,最优决策也可能包括一个以上的阈值。。
最终,您确实需要小心您的模型的最终用户的具体需求,因为这将决定使用它进行决策的最佳方式。
https://stackoverflow.com/questions/73766750
复制相似问题