文章/答案/技术大牛

发布

社区首页 >问答首页 >如何计算不平衡数据集的精度

问如何计算不平衡数据集的精度
EN

Data Science用户

提问于 2022-09-10 18:05:12

回答 2查看 596关注 0票数 2

我喜欢理解不平衡数据集的准确性。

让我们假设我们有一个医学数据，我们想预测病人之间的疾病。例如，在现有的数据集中，95%的患者没有疾病，5%的患者患有疾病。很明显，它是一个不平衡的数据集。现在，假设我们的模型预测100 %的病人没有任何疾病。

精度均值= (TP+TN)/(TP+TN+FP+FN)

如果该模型预测100名患者没有疾病，我们预测患者之间的疾病，那么True阳性指患者之间的疾病，True阴性指的是患者之间没有疾病。

在这种情况下，精度应该是(0+100)/(0+100+0+0) = 1。

我们将预测有多少病人患有一种疾病，所以如果我们得到1的准确性，这是否意味着100%的患者患有这种疾病？

我是以处理分类问题不平衡数据的5种技术为例。我不确定在精确计算的时候，如果他们已经描述过他们的模型预测了all 100 out of 100 patients have no disease.，为什么要计算为(0+95+0+5)/(0+95+0+5)= 0.95

我希望我能澄清我的问题。谢谢。

machine-learning

classification

class-imbalance

imbalanced-learn

回答 2

Data Science用户

回答已采纳

发布于 2022-09-10 18:13:31

准确性是指可能预测的数量中正确预测的数量。在很多方面，这就像一个考试成绩:你有机会得到分数的100\%，得到97\%或79\%或其他什么。阶级比例不是一个因素。

在您的示例中，95阴性患者和5阳性患者。您预测了100阴性患者，这意味着您获得了95正确和5不正确的准确性的95\%。

请注意，准确性是衡量性能的一个令人惊讶的问题，这是真正的即使课堂是自然平衡的。

然而，在不平衡的情况下，准确性有可能以许多其他性能度量中不存在的方式误导，而您的例子就是一个很好的例子。您的模型所做的只是预测大多数类；它没有做任何聪明的事情。然而，您的模型实现了95\%的准确性，这听起来像是学校中的高\text{A}，表明了很强的表现。

票数 7

Data Science用户

发布于 2022-09-10 18:12:35

您对准确度的计算是不正确的，因为TN的值不应该是100，而应该是95，如本例所示。该模型预测100名患者没有疾病，但实际上只有95名患者是正确的，因为其中5名患者确实患有此病。因此，真正的阴性率实际上是95，而不是100。

票数 5

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/114297

复制

相似问题

问如何计算不平衡数据集的精度
EN

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何计算不平衡数据集的精度EN

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何计算不平衡数据集的精度
EN