现在我将报告命名实体识别的结果。我发现有一点令人困惑的是,我对精确度和召回率的理解是,一个人简单地总结了所有类别的真阳性、真阴性、假阳性和假阴性。
但现在这似乎是不可信的,因为我认为每个错误分类都会同时产生一个假阳性和一个假阴性(例如,本应标记为"A“但被标记为"B”的标记是"A“的假阴性和”B“的假阳性)。因此,所有类别上的假阳性和假阴性的数量将是相同的,这意味着精度是(总是!)等同于回忆。这根本不可能是真的,所以我的推理中有一个错误,我想知道它在哪里。这当然是非常明显和直截了当的事情,但我现在想不起来了。
发布于 2009-11-29 13:42:30
计算精确度和召回率的方法(这就是我在论文中使用的方法)是测量实体之间的相互关系。假设基本事实有以下内容(没有区分它们是什么类型的实体)
[Microsoft Corp.] CEO [Steve Ballmer] announced the release of [Windows 7] today
这有3个实体。
假设您的实际提取具有以下内容
[Microsoft Corp.] [CEO] [Steve] Ballmer announced the release of Windows 7 [today]
Microsoft Corp完全匹配,CEO和today为假阳性,Windows 7为假阴性,Steve为子字符串匹配
我们通过首先定义匹配标准来计算精度和召回率。例如,它们必须是完全匹配的吗?如果它们完全重叠,这是匹配吗?实体类型重要吗?通常,我们希望为这些标准中的几个提供精确度和召回率。
完全匹配:真阳性=1 (Microsoft Corp.,唯一完全匹配),假阳性=3 (CEO、today和Steve,这不是完全匹配),假阴性=2 (Steve Ballmer和Windows 7)
Precision = True Positives / (True Positives + False Positives) = 1/(1+3) = 0.25
Recall = True Positives / (True Positives + False Negatives) = 1/(1+2) = 0.33任何重叠正常:真阳性=2 (Microsoft Corp.和Steve与Steve Ballmer重叠),假阳性=2 (CEO和today),假阴性=1 (Windows 7)
Precision = True Positives / (True Positives + False Positives) = 2/(2+2) = 0.55
Recall = True Positives / (True Positives + False Negatives) = 2/(2+1) = 0.66然后,读者可以推断“真正的性能”(无偏见的人类检查员在允许使用人类判断来决定哪些重叠差异显著,哪些重叠差异不显著时所提供的精确度和召回率)介于两者之间。
报告F1度量通常也很有用,它是精确度和召回率的调和平均值,当您必须在精确度和召回率之间进行权衡时,它会给出一些“性能”的概念。
发布于 2009-11-24 00:12:19
在CoNLL-2003 NER task中,评估是基于正确标记的实体,而不是标记,如论文'Introduction to the CoNLL-2003 Shared Task: Language-Independent Named Entity Recognition'中所述。如果系统在文档中识别出具有正确起始点和结束点的正确类型的实体,则该实体被正确标记。我更喜欢这种评估方法,因为它更接近于衡量实际任务的性能;NER系统的用户关心的是实体,而不是单个令牌。
但是,您所描述的问题仍然存在。如果使用类型LOC标记类型为ORG的实体,则会导致LOC的假阳性和ORG的假阴性。在这个blog post中有一个关于这个问题的有趣的讨论。
发布于 2013-05-05 04:46:18
正如前面提到的,有不同的方法来衡量NER性能。可以分别评估实体在文本中的位置和它们的类别(人员、位置、组织等)被检测到的精确度。或者将这两个方面结合在一个单一的衡量标准中。
你会在下面的论文中找到一个很好的评论:D. Nadeau, Semi-Supervised Named Entity Recognition: Learning to Recognize 100 Entity Types with Little Supervision (2007)。请看2.6节。NER的评估。
https://stackoverflow.com/questions/1783653
复制相似问题