在一篇关于假新闻检测的研究论文中,作者收集了一个由16,817真文章和5,323假新闻组成的假新闻二进制数据集(假新闻与真实新闻)。
作者使用精确性、精确性、查全性和F1给出了结果,但没有具体说明他们在F1度量(macro、micro、weighted等)上应用哪种平均值。
以下是研究结果:

如果您注意到最后一个系统,精度值是0.689,F1值是0.717,这比精度要高。
因此,给出数据集的不平衡状态,作者是否可能使用F1度量中的类平均使用macro方法?
对我来说,这“不可能”发生,我认为他们可能使用了weighed F1评分。
发布于 2020-02-18 17:41:59
他们计算了为二进制分类任务定义的“标准”F1评分:
precision = 0.656
recall = 0.792
f1 = 2 * (precision * recall) / (precision + recall)
f1给出
0.7176132596685083F1评分的其他版本用于多个类,因为您可以在“扩展到多类分类”下面看到这里:
F-评分也用于多个类别(多类分类)的分类问题的评价。在这种设置中,最终得分是通过微观平均(按班级频率偏差)或宏观平均(将所有类都视为同等重要)来获得的。对于宏观平均,申请人使用了两个不同的公式:(算术)类精度和回忆均值的F-得分或类F-分数的算术平均值,后者表现出更理想的特性。
或者,请参阅这里以了解F1评分及其参数描述的实现。
https://datascience.stackexchange.com/questions/68293
复制相似问题