Why是通常用于(监督)分类任务的F-测度,而G-测度(或Fowlkes-Mallows索引)通常用于(无监督)聚类任务?
F-度量是精度和回忆的调和平均值。
G-度量(或Fowlkes-Mallows索引)是几何的平均值精度和召回的平均值。
下面是一个不同方法的情节。

F1 (谐波) $= 2\cdot\frac{精度\cdot召回}{精确+召回}$
几何$= \sqrt{精度\cdot召回}$
算术$= \frac{精确+召回}{2}$
我问这个问题的原因是,我需要决定在NLG任务中使用哪一个平均值,在哪里我测量了 BLEU 和 ROUGE (BLEU相当于精确,而ROUGE则相当于回忆)。How我应该计算这些分数的平均值吗?
发布于 2018-08-12 14:13:03
为了解决数据集不平衡的问题,Fı评分比简单的分类精度更好;如果你正在寻找的东西很少发生,那么一个天真的分类器总是可以说不,并且看起来很好!Fı上的一个变体是F,其中
F= (1+ß²)×
变化,以平衡精度和召回。至于为什么F或G,我认为这是经验-你没有说你是分类或聚类在你自己的应用程序?
发布于 2021-01-17 21:41:59
将评分函数作为衡量绩效的客观指标。评分函数的选择本身是主观的,应该反映出您或问题在跟踪的任何度量指标(例如,精确和回忆,或敏感性和特异性,或BLEU和ROUGE)之间的平衡方面认为是重要的。
算术平均、几何平均和调和均值都是广义均值族的特例,这意味着它们在概念上是相关的。对于您的任务,算术平均值表示BLEU或ROUGE是否更高之间的偏好,而在增加一个值而将另一个值减少相同的值时,两者没有差别。几何和声意味着BLEU和鲁格之间的差异,和声意味着比几何平均更“悲观”。这可以在你的图表中看到,其中算术曲线位于几何曲线之上,谐波曲线在底部。使用广义平均,你可以主观地选择任何曲线之上的算术曲线,低于谐波曲线,或两者之间的任何位置。调和平均或几何平均更有意义的根本原因是没有内在的原因,它们只有简单的公式。选择比较接近的东西来衡量BLEU和鲁奇之间的交易价值。同样,你可能会决定你不想使用这些方法中的任何一种基于广义的平均值。
发布于 2019-02-22 20:18:25
如果查准率和召回率相近,那么F1是比较不同型号的一种很好的方法。
短而甜:)
https://datascience.stackexchange.com/questions/36817
复制相似问题