首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >为什么F度量对于分类任务来说是首选的?

为什么F度量对于分类任务来说是首选的?
EN

Data Science用户
提问于 2018-08-12 09:32:02
回答 3查看 2K关注 0票数 12

Why是通常用于(监督)分类任务的F-测度,而G-测度(或Fowlkes-Mallows索引)通常用于(无监督)聚类任务?

F-度量是精度回忆调和平均值。

G-度量(或Fowlkes-Mallows索引)是几何的平均值精度召回的平均值。

下面是一个不同方法的情节。

F1 (谐波) $= 2\cdot\frac{精度\cdot召回}{精确+召回}$

几何$= \sqrt{精度\cdot召回}$

算术$= \frac{精确+召回}{2}$

我问这个问题的原因是,我需要决定在NLG任务中使用哪一个平均值,在哪里我测量了 BLEU ROUGE (BLEU相当于精确,而ROUGE则相当于回忆)。How我应该计算这些分数的平均值吗?

EN

回答 3

Data Science用户

发布于 2018-08-12 14:13:03

为了解决数据集不平衡的问题,Fı评分比简单的分类精度更好;如果你正在寻找的东西很少发生,那么一个天真的分类器总是可以说不,并且看起来很好!Fı上的一个变体是F,其中

F= (1+ß²)×

变化,以平衡精度和召回。至于为什么F或G,我认为这是经验-你没有说你是分类或聚类在你自己的应用程序?

票数 3
EN

Data Science用户

发布于 2021-01-17 21:41:59

将评分函数作为衡量绩效的客观指标。评分函数的选择本身是主观的,应该反映出您或问题在跟踪的任何度量指标(例如,精确和回忆,或敏感性和特异性,或BLEU和ROUGE)之间的平衡方面认为是重要的。

算术平均、几何平均和调和均值都是广义均值族的特例,这意味着它们在概念上是相关的。对于您的任务,算术平均值表示BLEU或ROUGE是否更高之间的偏好,而在增加一个值而将另一个值减少相同的值时,两者没有差别。几何和声意味着BLEU和鲁格之间的差异,和声意味着比几何平均更“悲观”。这可以在你的图表中看到,其中算术曲线位于几何曲线之上,谐波曲线在底部。使用广义平均,你可以主观地选择任何曲线之上的算术曲线,低于谐波曲线,或两者之间的任何位置。调和平均或几何平均更有意义的根本原因是没有内在的原因,它们只有简单的公式。选择比较接近的东西来衡量BLEU和鲁奇之间的交易价值。同样,你可能会决定你不想使用这些方法中的任何一种基于广义的平均值。

票数 0
EN

Data Science用户

发布于 2019-02-22 20:18:25

如果查准率和召回率相近,那么F1是比较不同型号的一种很好的方法。

短而甜:)

票数 -3
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/36817

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档