文章/答案/技术大牛

发布

社区首页 >问答首页 >为什么F度量对于分类任务来说是首选的？

问为什么F度量对于分类任务来说是首选的？
EN

Data Science用户

提问于 2018-08-12 09:32:02

回答 3查看 2K关注 0票数 12

Why是通常用于(监督)分类任务的F-测度，而G-测度(或Fowlkes-Mallows索引)通常用于(无监督)聚类任务？

F-度量是精度和回忆的调和平均值。

G-度量(或Fowlkes-Mallows索引)是几何的平均值精度和召回的平均值。

下面是一个不同方法的情节。

F1 (谐波) $= 2\cdot\frac{精度\cdot召回}{精确+召回}$

几何$= \sqrt{精度\cdot召回}$

算术$= \frac{精确+召回}{2}$

我问这个问题的原因是，我需要决定在NLG任务中使用哪一个平均值，在哪里我测量了 BLEU 和 ROUGE (BLEU相当于精确，而ROUGE则相当于回忆)。How我应该计算这些分数的平均值吗？

machine-learning

model-evaluations

scoring

metric

nlg

回答 3

Data Science用户

发布于 2018-08-12 14:13:03

为了解决数据集不平衡的问题，Fı评分比简单的分类精度更好；如果你正在寻找的东西很少发生，那么一个天真的分类器总是可以说不，并且看起来很好！Fı上的一个变体是F，其中

F= (1+ß²)×

变化，以平衡精度和召回。至于为什么F或G，我认为这是经验-你没有说你是分类或聚类在你自己的应用程序？

票数 3

Data Science用户

发布于 2021-01-17 21:41:59

将评分函数作为衡量绩效的客观指标。评分函数的选择本身是主观的，应该反映出您或问题在跟踪的任何度量指标(例如，精确和回忆，或敏感性和特异性，或BLEU和ROUGE)之间的平衡方面认为是重要的。

算术平均、几何平均和调和均值都是广义均值族的特例，这意味着它们在概念上是相关的。对于您的任务，算术平均值表示BLEU或ROUGE是否更高之间的偏好，而在增加一个值而将另一个值减少相同的值时，两者没有差别。几何和声意味着BLEU和鲁格之间的差异，和声意味着比几何平均更“悲观”。这可以在你的图表中看到，其中算术曲线位于几何曲线之上，谐波曲线在底部。使用广义平均，你可以主观地选择任何曲线之上的算术曲线，低于谐波曲线，或两者之间的任何位置。调和平均或几何平均更有意义的根本原因是没有内在的原因，它们只有简单的公式。选择比较接近的东西来衡量BLEU和鲁奇之间的交易价值。同样，你可能会决定你不想使用这些方法中的任何一种基于广义的平均值。

票数 0

Data Science用户

发布于 2019-02-22 20:18:25

如果查准率和召回率相近，那么F1是比较不同型号的一种很好的方法。

短而甜:)

票数 -3

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/36817

复制

相似问题

问为什么F度量对于分类任务来说是首选的？
EN

回答 3

Data Science用户

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问为什么F度量对于分类任务来说是首选的？EN

回答 3

Data Science用户

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问为什么F度量对于分类任务来说是首选的？
EN