文章/答案/技术大牛

发布

社区首页 >问答首页 >对于负类，我应该使用哪一种标准来对带有较少标签的集成数据进行分类？

问对于负类，我应该使用哪一种标准来对带有较少标签的集成数据进行分类？
EN

Data Science用户

提问于 2020-11-10 20:33:31

回答 2查看 100关注 0票数 1

从阅读中，我了解到，当我们有较少的正面类标签，最好是使用精确或召回作为评价标准。当我们有较少的负样本时，我应该使用哪一种度量？

我在找一种方法，而不是换标签。

问题设置:我正在开发参数化的脆弱性函数来预测结构的损坏(例如树)。脆弱函数的一个例子是这里，脆性函数在给定一些参数(如风荷载)的情况下，估计超过某一损伤状态的概率。损伤状态可以用损伤比(0-1，1为完全损伤)来表示。现在，我们感兴趣的是估计超过给定特征的损伤率的概率。详细说明，任何损害的概率为P(Damage_ratio>0.0|features)。在对某一阈值的0-1连续损伤率与损伤(-级)/no损伤(+级)进行分类后，可以使用Logistic回归从数据中学习这条曲线。现在，当我们从阈值从0移到1时，dataset将从由受损案例主导的不平衡数据转换为一个平衡状态，最后转换为另一个由非损伤情况主导的不平衡数据。

现在，当学习模型时，'AUR-ROC‘在数据平衡时表现得非常好。当数据与更多的无损伤情况不平衡时，精度表现良好(P(Damage_ratio>0.1|features)).对于很少有负数的情况，这些度量标准做得并不好(P(Damage_ratio>0.9|features))。我试着换了这个标签，但效果非常有限。在不平衡的数据设置中，是否还有其他性能良好的“度量”？

classification

class-imbalance

回答 2

Data Science用户

发布于 2020-11-10 21:55:20

这些类的名称并不重要，你可以称它们为A类和B类。在二进制分类中，典型的选择是使用精确性、回忆性和F1-分数进行评估。还有其他选择，但这取决于任务。

假设您选择f1-得分，您选择哪个类作为评估的“正”类也取决于任务。通常建议使用少数类，因为它是分类器中最具挑战性的类。

这里唯一的问题是，调用一个类“负”并使用它作为“正”类计算F1分数可能会混淆，但这只是一个命名问题。您可以轻松地将这一点添加到解释中，或者通过调用类A和B来避免任何混淆。

票数 1

Data Science用户

发布于 2023-05-19 18:04:40

最值得推荐的是精确度、召回和F1评分，但也有类似评分或其他阈值指标的其他指标。

无论如何，根据我的经验，度量的选择取决于您的用例和部署分类器的条件(例如。如果您的生产数据在类之间确实有不同的比率，则您的度量性能可能会产生误导)。

票数 0

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/85221

复制

相似问题

问对于负类，我应该使用哪一种标准来对带有较少标签的集成数据进行分类？
EN

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问对于负类，我应该使用哪一种标准来对带有较少标签的集成数据进行分类？EN

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问对于负类，我应该使用哪一种标准来对带有较少标签的集成数据进行分类？
EN