文章/答案/技术大牛

发布

社区首页 >问答首页 >不平衡数据的评价指标

问不平衡数据的评价指标
EN

Data Science用户

提问于 2021-07-02 00:26:24

回答 2查看 196关注 0票数 0

嗨，我是个CS研究生

我有个问题要问人工智能或数据专家。我在写论文

我的数据集是时间序列传感器数据，异常(正类)比率在5%到6%之间。

你可以看到下面的图片。我在sklearn库中使用了classification_report

但是，我不知道该在我的评估部分报告什么价值.

我认为用宏avg (0.40)报告f1评分是合理的。

可以吗？

谢谢你的解释！

machine-learning

time-series

class-imbalance

anomaly-detection

model-evaluations

回答 2

Data Science用户

发布于 2021-07-06 07:58:08

传统的评估指标受到扭曲数据的严重影响。在您的情况下，由于您有不平衡的数据，您应该明确地避免那些，如准确性。例如,

假设您有一个有100条记录的测试数据。其中3名为A级，97名为B级。我创建了这样的模型：

prediction = "B"

很简单，我总是上第二节课。我将获得97%的准确性，但我无法预测任何我真正关心的记录。

这在癌症预测等情况下很重要，因为早期发现是很重要的。

你可以用的是：

敏感度
特异性
G-均值
F-测度
类加权度量，其中将更多的权重赋予较小的度量。

票数 0

Data Science用户

发布于 2023-05-10 14:51:03

对于不平衡的数据集，您应该报告基准比率(5%的异常，95%的常规观察)，以及所选的分数；否则，解释可能导致基准率谬误。

从混淆矩阵派生出来的通用指标就可以了。小心中华民国，它往往是过于乐观的准确性和一般较不容易理解的实践者。对于高度不平衡的数据集，大多数情况下，中华民国AUC将接近1。

我个人喜欢成对的度量标准，比如精确召回或特异性敏感性，它们分别报告I型和II型错误。

还有一些衡量标准，它们对这两个错误进行了不平等的权衡。F1 -分数集中在较低的，例如，精度0.1，和回忆0.9产生F1 0.18。

查看USENIX论文计算机安全中的机器学习，其中提到用于不平衡数据集的度量。

票数 0

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/97341

复制

相似问题

问不平衡数据的评价指标
EN

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问不平衡数据的评价指标EN

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问不平衡数据的评价指标
EN