我对如何表示混淆矩阵感到困惑--在哪里放置FP和FN。Link1和Link2在二值分类中表现出不同的混淆矩阵。行表示实际值,列表示预测值。根据我的理解,正确的混淆矩阵应该是:
| Pred Neg| Pred Pos
|___________________
Actual Negative(class0) | TN | FP
------------------ |-------------
Actual Positive(Class1) | FN | TP其中TN (0类)表示正确识别的正常模式的数量。TP (1类)表示正确识别的恶性模式的数量。另一方面,FP表示分类器在其正常的情况下预测信号是恶性的。
\text{Precision} = \frac{TP}{TP+FP},\text{Recall or TPR} = \frac{TP}{TP+FN},
问题1:我对混淆矩阵的理解和构建是否正确?
问题2:精确性和召回性之间的直观区别是什么?如果精确性<召回会发生什么?
发布于 2020-06-29 19:26:27
问题1:我对混淆矩阵的理解和构建是否正确?
是的,您的定义和构造混淆矩阵的方式都是正确的。您提供的链接也与彼此一致。只要保持正确的关系,他们只会切换行和列,因为对于表示没有严格的规则。
链接1显示了这个矩阵:
| Pos Class | Neg Class
Pos Pred | TP | FP
Neg Pred | FN | TN链接2显示了相同的矩阵,但已转置:
| Pos Pred | Neg Pred
Pos Class | TP | FN
Neg Class | FP | TN问题2:精确性和召回性之间的直观区别是什么?
精度是指当您预测一个正类时,您的正确率。它考虑到了你所有的积极预测,并计算出其中的哪个比例是正确的。当你的精度很高时,这意味着一旦你做了一个积极的预测,你很可能是正确的。这并不能说明你的负面预测有多正确--你可以在100个实际阳性的情况下做出1次积极预测和99次负面预测,但仍能获得100%的准确率,因为你唯一的积极预测恰好是正确的。
回忆是你能够正确预测正类的速度。它考虑了所有实际的积极类,并计算出哪些比例的预测是正确的。当你的召回率很高时,这意味着很少有实际的积极因素在没有被检测到的情况下从你的模型中溜走。这并没有说明你对积极预测的正确程度--这个模型总是预测一个积极的类很容易达到100%的召回率。
人们通常通过在两者之间找到最可接受的平衡来努力优化精确性和召回性。您可能希望阅读这个关于精确召回曲线的文章,以便更充分地了解这些指标之间的关系。
如果精确性<召回会发生什么?
正如您在文章中所强调的,这两个公式仅在分母上有所不同。因此,当精确度小于回忆时,你的预测中的假阳性数就会大于假阴性数。
https://datascience.stackexchange.com/questions/76861
复制相似问题