使用两个不同的摘要系统(sys1和sys2)的结果和相同的参考摘要,我用BLEU和ROUGE对它们进行了评估。问题是: sys1的所有表情得分都高于sys2 (表情-1,表情-2,表情-3,表情-4,表情-L,表情-SU4,...)但sys1的BLEU得分低于sys2的BLEU得分(相当多)。
因此,我的问题是:红色和BLEU都是基于n元语法来衡量系统总结和人类总结之间的相似性。那么为什么评价结果会有这样的差异呢?在解释这个问题上,红色和BLEU的主要不同之处是什么?
发布于 2016-08-28 18:35:06
一般而言:
Bleu测量精确度:机器生成的摘要中的单词(和/或n-gram)在人类参考摘要中出现了多少。
红色度量召回:人类参考摘要中的单词(和/或n-gram)在机器生成的摘要中出现了多少。
自然-这些结果是互补的,就像在精确度和召回率中经常出现的情况一样。如果系统结果中出现在人类参考文献中的单词很多,那么您将具有高Bleu,如果您具有出现在系统结果中的人类参考文献中的许多单词,则您将具有高红度值。
在您的例子中,sys1似乎比sys2具有更高的Rouge,因为sys1中的结果始终有更多来自人类参考文献的单词出现在其中,而不是sys2的结果。但是,由于您的Bleu得分显示sys1的召回率低于sys2,这表明在人类参考文献中,与sys2相关的sys1结果中出现的单词并不多。
例如,如果您的sys1输出的结果包含引用中的单词(提升红色),但也有许多引用中未包含的单词(降低Bleu),则可能会发生这种情况。看起来,sys2给出的结果是大多数输出的单词确实出现在人类参考文献中( in the Blue),但也遗漏了许多出现在人类参考文献中的单词。
顺便说一句,有一个叫做简要惩罚的东西,它非常重要,并且已经被添加到了标准的Bleu实现中。它会惩罚比引用的一般长度更短的系统结果(请阅读更多关于它的here)。这是对n-gram度量行为的补充,n-gram度量行为实际上比参考结果惩罚的时间更长,因为分母越长,系统结果就越长。
你也可以为Rouge实现一些类似的东西,但是这一次惩罚的系统结果比一般的参考长度长,否则他们就可以人为地获得更高的Rouge分数(因为结果越长,你命中引用中出现的一些单词的机会就越高)。在Rouge中,我们除以人类引用的长度,因此我们需要对较长的系统结果进行额外的惩罚,这可能会人为地提高他们的Rouge分数。
最后,您可以使用F1度量来使指标协同工作: F1 =2* (Bleu * Rouge) / (Bleu + Rouge)
发布于 2017-11-07 10:01:33
和BLEU都是基于n元文法来衡量系统总结和人类总结之间的相似性。那么为什么评价结果会有这样的差异呢?在解释这个问题上,红色和BLEU的主要不同之处是什么?
同时存在ROUGE-n精确度和ROUGE-n精确度召回。原始的ROUGE实现从介绍ROUGE {3}的论文中计算两者,以及结果的F1分数。
来自http://text-analytics101.rxnlp.com/2017/01/how-rouge-works-for-evaluation-of.html (mirror):
ROUGE recall:

ROUGE精度:

(介绍ROUGE {1}的论文中的原始ROUGE实现可能会执行更多操作,如词干提取。)
ROUGE-n的精确度和召回率很容易解释,这与BLEU不同(参见Interpreting ROUGE scores)。
ROUGE-n精度与BLEU的不同之处在于,BLEU引入了一个简短的惩罚项,并且还计算了几个大小为n-gram的n-gram匹配(不像ROUGE-n,其中只有一个选择的n-gram大小)。堆栈溢出不支持LaTeX,所以我不会在更多的公式中与BLEU进行比较。{2}清楚地解释了BLEU。
参考文献:
发布于 2019-12-17 19:02:35
ROGUE和BLEU都是适用于创建文本摘要任务的一组指标。最初机器翻译需要使用BLEU,但它非常适用于文本摘要任务。
最好使用示例来理解概念。首先,我们需要像这样的摘要候选者(机器学习创建的摘要):
猫
是在床底下被发现的
和黄金标准摘要(通常由人创建):
猫
在床底下
让我们为unigram (每个单词)的大小写找出精确度和召回率。我们使用单词作为度量标准。
机器学习摘要有7个单词(mlsw=7),黄金标准摘要有6个单词(gssw=6),重叠单词的数量也是6个(ow=6)。
机器学习的召回率为: ow/gssw=6/6=1机器学习的精度为: ow/mlsw=6/7=0.86
同样,分组的单字、双字、n字的we can compute精度和召回率也很高。
对于流氓,我们知道它同时使用召回率和精确度,以及F1分数,这是它们的调和平均值。
对于BLEU来说,also use精确度与召回率是成对的,但使用了几何平均值和简洁性惩罚。
细微的差异,但重要的是要注意它们都使用精确度和召回率。
https://stackoverflow.com/questions/38045290
复制相似问题