我正在阅读凯莱赫等人所著的“预测数据分析的机器学习基础”一书。我遇到了一些我认为是错误的事情,但我想确认一下。在解释精确性和回忆性时,作者写道:
电子邮件分类是一个很好的应用场景,其中不同的信息提供的查准率和召回是有用的。精确值告诉我们,真正的火腿电子邮件被标记为垃圾邮件的可能性有多大: 25% (1−精度)。另一方面,回忆告诉我们垃圾邮件被系统漏掉的可能性有多大,并最终出现在我们的收件箱中: 33.333% (1次−召回)。
精度定义为:TP \over {TP + FP}。因此:
因此,这应该给我们的概率,一个电子邮件标记为火腿(积极预测)实际上是垃圾邮件。那么,上述报价中的精确性和召回是否应该被转换?
发布于 2020-06-15 16:41:37
作者很可能假设垃圾邮件类是正的,而您则直觉地将ham类与正类关联起来。在我看来,这两种选择都有意义:
在阅读这一段时,只要考虑到作者的解释,就没有任何错误。这种混淆说明了为什么在二进制分类问题中,应该始终明确地定义哪些类为正类:)
https://datascience.stackexchange.com/questions/76023
复制相似问题