首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何计算不平衡数据集的精度

如何计算不平衡数据集的精度
EN

Data Science用户
提问于 2022-09-10 18:05:12
回答 2查看 596关注 0票数 2

我喜欢理解不平衡数据集的准确性。

让我们假设我们有一个医学数据,我们想预测病人之间的疾病。例如,在现有的数据集中,95%的患者没有疾病,5%的患者患有疾病。很明显,它是一个不平衡的数据集。现在,假设我们的模型预测100 %的病人没有任何疾病。

精度均值= (TP+TN)/(TP+TN+FP+FN)

如果该模型预测100名患者没有疾病,我们预测患者之间的疾病,那么True阳性指患者之间的疾病,True阴性指的是患者之间没有疾病。

在这种情况下,精度应该是(0+100)/(0+100+0+0) = 1。

我们将预测有多少病人患有一种疾病,所以如果我们得到1的准确性,这是否意味着100%的患者患有这种疾病?

我是以处理分类问题不平衡数据的5种技术为例。我不确定在精确计算的时候,如果他们已经描述过他们的模型预测了all 100 out of 100 patients have no disease.,为什么要计算为(0+95+0+5)/(0+95+0+5)= 0.95

我希望我能澄清我的问题。谢谢。

EN

回答 2

Data Science用户

回答已采纳

发布于 2022-09-10 18:13:31

准确性是指可能预测的数量中正确预测的数量。在很多方面,这就像一个考试成绩:你有机会得到分数的100\%,得到97\%79\%或其他什么。阶级比例不是一个因素。

在您的示例中,95阴性患者和5阳性患者。您预测了100阴性患者,这意味着您获得了95正确和5不正确的准确性的95\%

请注意,准确性是衡量性能的一个令人惊讶的问题,这是真正的即使课堂是自然平衡的

然而,在不平衡的情况下,准确性有可能以许多其他性能度量中不存在的方式误导,而您的例子就是一个很好的例子。您的模型所做的只是预测大多数类;它没有做任何聪明的事情。然而,您的模型实现了95\%的准确性,这听起来像是学校中的高\text{A},表明了很强的表现。

票数 7
EN

Data Science用户

发布于 2022-09-10 18:12:35

您对准确度的计算是不正确的,因为TN的值不应该是100,而应该是95,如本例所示。该模型预测100名患者没有疾病,但实际上只有95名患者是正确的,因为其中5名患者确实患有此病。因此,真正的阴性率实际上是95,而不是100。

票数 5
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/114297

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档