从阅读中,我了解到,当我们有较少的正面类标签,最好是使用精确或召回作为评价标准。当我们有较少的负样本时,我应该使用哪一种度量?
我在找一种方法,而不是换标签。
问题设置:我正在开发参数化的脆弱性函数来预测结构的损坏(例如树)。脆弱函数的一个例子是这里,脆性函数在给定一些参数(如风荷载)的情况下,估计超过某一损伤状态的概率。损伤状态可以用损伤比(0-1,1为完全损伤)来表示。现在,我们感兴趣的是估计超过给定特征的损伤率的概率。详细说明,任何损害的概率为P(Damage_ratio>0.0|features)。在对某一阈值的0-1连续损伤率与损伤(-级)/no损伤(+级)进行分类后,可以使用Logistic回归从数据中学习这条曲线。现在,当我们从阈值从0移到1时,dataset将从由受损案例主导的不平衡数据转换为一个平衡状态,最后转换为另一个由非损伤情况主导的不平衡数据。
现在,当学习模型时,'AUR-ROC‘在数据平衡时表现得非常好。当数据与更多的无损伤情况不平衡时,精度表现良好(P(Damage_ratio>0.1|features)).对于很少有负数的情况,这些度量标准做得并不好(P(Damage_ratio>0.9|features))。我试着换了这个标签,但效果非常有限。在不平衡的数据设置中,是否还有其他性能良好的“度量”?
发布于 2020-11-10 21:55:20
这些类的名称并不重要,你可以称它们为A类和B类。在二进制分类中,典型的选择是使用精确性、回忆性和F1-分数进行评估。还有其他选择,但这取决于任务。
假设您选择f1-得分,您选择哪个类作为评估的“正”类也取决于任务。通常建议使用少数类,因为它是分类器中最具挑战性的类。
这里唯一的问题是,调用一个类“负”并使用它作为“正”类计算F1分数可能会混淆,但这只是一个命名问题。您可以轻松地将这一点添加到解释中,或者通过调用类A和B来避免任何混淆。
发布于 2023-05-19 18:04:40
最值得推荐的是精确度、召回和F1评分,但也有类似评分或其他阈值指标的其他指标。
无论如何,根据我的经验,度量的选择取决于您的用例和部署分类器的条件(例如。如果您的生产数据在类之间确实有不同的比率,则您的度量性能可能会产生误导)。
https://datascience.stackexchange.com/questions/85221
复制相似问题