在精确回忆曲线下,我迷失在召回值与面积之间的关系中。我使用二进制分类器对不平衡的数据集进行分类。我通过默认的sklearn python包记录了查准率-召回曲线下的召回值和区域。在我的例子中,1类是罕见的类,0类是另一类。
我训练了两个模特。第二个模型我使用过采样方法来平衡训练数据集。测试数据集在这两个模型中都从未被触及过。下面是测试数据集的记录值。
使用不平衡数据集进行
召回: 0.629,auc查全率: 0.8828
平衡数据集的
召回: 0.8426,auc查全率: 0.884
我的问题是:
发布于 2021-02-17 02:28:53
为什么召回值提高了,但查全率曲线却没有变化?
试着在同一张图中绘制两种训练的精确-回忆曲线。你一定会明白为什么会发生这种事。澄清一下,对于TP来说,1级或0级是什么?如果它是1,那么它是有意义的,因为类平衡一般,增加FP值也,我们调用平衡来增加在分布中的稀有类的召回值。
我可以说,如果我选择一个合适的阈值,第一个模型和第二个模型一样好吗?
这是我们做混淆矩阵分析的原因之一。特别是在二进制分类的情况下,它计算了与实际类分离value.so无关的边界1和0的损失,可以用类分离值检查召回和召回精度的AUC值。
我应该关注哪一个评价矩阵?
这取决于您的领域的情况;选择最好的模型考虑灵敏度和特异性值所需。
https://stackoverflow.com/questions/66233422
复制相似问题