首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >不平衡数据的评价指标

不平衡数据的评价指标
EN

Data Science用户
提问于 2021-07-02 00:26:24
回答 2查看 196关注 0票数 0

嗨,我是个CS研究生

我有个问题要问人工智能或数据专家。我在写论文

我的数据集是时间序列传感器数据,异常(正类)比率在5%到6%之间。

你可以看到下面的图片。我在sklearn库中使用了classification_report

但是,我不知道该在我的评估部分报告什么价值.

我认为用宏avg (0.40)报告f1评分是合理的。

可以吗?

谢谢你的解释!

EN

回答 2

Data Science用户

发布于 2021-07-06 07:58:08

传统的评估指标受到扭曲数据的严重影响。在您的情况下,由于您有不平衡的数据,您应该明确地避免那些,如准确性。例如,

假设您有一个有100条记录的测试数据。其中3名为A级,97名为B级。我创建了这样的模型:

代码语言:javascript
复制
prediction = "B"

很简单,我总是上第二节课。我将获得97%的准确性,但我无法预测任何我真正关心的记录。

这在癌症预测等情况下很重要,因为早期发现是很重要的。

你可以用的是:

  • 敏感度
  • 特异性
  • G-均值
  • F-测度
  • 类加权度量,其中将更多的权重赋予较小的度量。
票数 0
EN

Data Science用户

发布于 2023-05-10 14:51:03

对于不平衡的数据集,您应该报告基准比率(5%的异常,95%的常规观察),以及所选的分数;否则,解释可能导致基准率谬误。

混淆矩阵派生出来的通用指标就可以了。小心中华民国,它往往是过于乐观的准确性和一般较不容易理解的实践者。对于高度不平衡的数据集,大多数情况下,中华民国AUC将接近1。

我个人喜欢成对的度量标准,比如精确召回或特异性敏感性,它们分别报告I型和II型错误。

还有一些衡量标准,它们对这两个错误进行了不平等的权衡。F1 -分数集中在较低的,例如,精度0.1,和回忆0.9产生F1 0.18。

查看USENIX论文计算机安全中的机器学习,其中提到用于不平衡数据集的度量。

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/97341

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档