我有一套10个实验,计算精度,回忆和F1评分为每个实验。现在,平均查准率和平均召回率很容易计算。我对F1的平均分数有些困惑。
关于如何计算平均F1分数,有两种方法:
f1 = 2*p*r/(p+r)计算f1分数。我找不到任何有力的理由来支持这些论点。我能找到的最接近的文档是:https://www.kaggle.com/wiki/MeanFScore
有人能用一些参考(如果可能的话)来解释哪些方法是正确的,为什么?
编辑:其中一位成员建议使用这源。不过,我仍然怀疑消息来源的可靠性。我在他们的研究出版物中看到人们没有使用上面解释的方法。(甚至我也会在我的一本出版物中使用它)我希望社会上会有更多的意见来验证这个想法。
发布于 2017-01-21 23:47:01
正如其他用户所提到的,解决方案并不十分明确。一般的方法是遵循所提到的这里。
此外,正如我的一位高级研发人员和我的导师所建议的那样,实际的方法是将F1平均分数计算为平均精确度和平均召回率的HM。
这当然取决于您的使用情况以及您如何计算度量(微观/宏)。
发布于 2017-01-22 13:11:32
本文讨论了Forman和Scholz的交叉验证研究中的苹果对苹果:分类器性能测量中的缺陷计算交叉验证中平均F分的不同方法。研究表明,在极高的类不平衡条件下,某些计算方法(个体折叠平均分数、F-分数或基于个体折叠平均、查准率和召回率的F-分数)会导致结果偏颇。本文建议计算F-分数时,从每个折叠中添加TP、FP、FN,计算精度和回忆,最后计算F-分数。
发布于 2017-01-13 16:19:44
正如您所观察到的,您可以为您的任何定义辩护。最重要的是,你用“平均F1分数”来记录你的意思。您还应该考虑这两个选项中哪个提供了更有意义的评估。这取决于您的特定应用程序或任务。
在我看来,“平均F1分数”显然意味着你计算个人F1分数的平均值。在某些情况下,选项2可以被描述为F1的整体得分。这取决于您要聚合的内容。“F1评分的平均精度和回忆”可能是一个很好的一般描述选项2。
https://datascience.stackexchange.com/questions/16179
复制相似问题