我喜欢理解不平衡数据集的准确性。
让我们假设我们有一个医学数据,我们想预测病人之间的疾病。例如,在现有的数据集中,95%的患者没有疾病,5%的患者患有疾病。很明显,它是一个不平衡的数据集。现在,假设我们的模型预测100 %的病人没有任何疾病。
精度均值= (TP+TN)/(TP+TN+FP+FN)
如果该模型预测100名患者没有疾病,我们预测患者之间的疾病,那么True阳性指患者之间的疾病,True阴性指的是患者之间没有疾病。
在这种情况下,精度应该是(0+100)/(0+100+0+0) = 1。
我们将预测有多少病人患有一种疾病,所以如果我们得到1的准确性,这是否意味着100%的患者患有这种疾病?
我是以处理分类问题不平衡数据的5种技术为例。我不确定在精确计算的时候,如果他们已经描述过他们的模型预测了all 100 out of 100 patients have no disease.,为什么要计算为(0+95+0+5)/(0+95+0+5)= 0.95
我希望我能澄清我的问题。谢谢。
发布于 2022-09-10 18:13:31
准确性是指可能预测的数量中正确预测的数量。在很多方面,这就像一个考试成绩:你有机会得到分数的100\%,得到97\%或79\%或其他什么。阶级比例不是一个因素。
在您的示例中,95阴性患者和5阳性患者。您预测了100阴性患者,这意味着您获得了95正确和5不正确的准确性的95\%。
请注意,准确性是衡量性能的一个令人惊讶的问题,这是真正的即使课堂是自然平衡的。
然而,在不平衡的情况下,准确性有可能以许多其他性能度量中不存在的方式误导,而您的例子就是一个很好的例子。您的模型所做的只是预测大多数类;它没有做任何聪明的事情。然而,您的模型实现了95\%的准确性,这听起来像是学校中的高\text{A},表明了很强的表现。
发布于 2022-09-10 18:12:35
您对准确度的计算是不正确的,因为TN的值不应该是100,而应该是95,如本例所示。该模型预测100名患者没有疾病,但实际上只有95名患者是正确的,因为其中5名患者确实患有此病。因此,真正的阴性率实际上是95,而不是100。
https://datascience.stackexchange.com/questions/114297
复制相似问题