文章/答案/技术大牛

发布

问文本摘要评测
EN

Stack Overflow用户

提问于 2016-06-27 11:02:43

回答 3查看 24.8K关注 0票数 50

使用两个不同的摘要系统(sys1和sys2)的结果和相同的参考摘要，我用BLEU和ROUGE对它们进行了评估。问题是: sys1的所有表情得分都高于sys2 (表情-1，表情-2，表情-3，表情-4，表情-L，表情-SU4，...)但sys1的BLEU得分低于sys2的BLEU得分(相当多)。

因此，我的问题是:红色和BLEU都是基于n元语法来衡量系统总结和人类总结之间的相似性。那么为什么评价结果会有这样的差异呢？在解释这个问题上，红色和BLEU的主要不同之处是什么？

nlp

text-processing

rouge

bleu

回答 3

Stack Overflow用户

回答已采纳

发布于 2016-08-28 18:35:06

一般而言：

Bleu测量精确度：机器生成的摘要中的单词(和/或n-gram)在人类参考摘要中出现了多少。

红色度量召回：人类参考摘要中的单词(和/或n-gram)在机器生成的摘要中出现了多少。

自然-这些结果是互补的，就像在精确度和召回率中经常出现的情况一样。如果系统结果中出现在人类参考文献中的单词很多，那么您将具有高Bleu，如果您具有出现在系统结果中的人类参考文献中的许多单词，则您将具有高红度值。

在您的例子中，sys1似乎比sys2具有更高的Rouge，因为sys1中的结果始终有更多来自人类参考文献的单词出现在其中，而不是sys2的结果。但是，由于您的Bleu得分显示sys1的召回率低于sys2，这表明在人类参考文献中，与sys2相关的sys1结果中出现的单词并不多。

例如，如果您的sys1输出的结果包含引用中的单词(提升红色)，但也有许多引用中未包含的单词(降低Bleu)，则可能会发生这种情况。看起来，sys2给出的结果是大多数输出的单词确实出现在人类参考文献中( in the Blue)，但也遗漏了许多出现在人类参考文献中的单词。

顺便说一句，有一个叫做简要惩罚的东西，它非常重要，并且已经被添加到了标准的Bleu实现中。它会惩罚比引用的一般长度更短的系统结果(请阅读更多关于它的here)。这是对n-gram度量行为的补充，n-gram度量行为实际上比参考结果惩罚的时间更长，因为分母越长，系统结果就越长。

你也可以为Rouge实现一些类似的东西，但是这一次惩罚的系统结果比一般的参考长度长，否则他们就可以人为地获得更高的Rouge分数(因为结果越长，你命中引用中出现的一些单词的机会就越高)。在Rouge中，我们除以人类引用的长度，因此我们需要对较长的系统结果进行额外的惩罚，这可能会人为地提高他们的Rouge分数。

最后，您可以使用F1度量来使指标协同工作: F1 =2* (Bleu * Rouge) / (Bleu + Rouge)

票数 59

Stack Overflow用户

发布于 2017-11-07 10:01:33

和BLEU都是基于n元文法来衡量系统总结和人类总结之间的相似性。那么为什么评价结果会有这样的差异呢？在解释这个问题上，红色和BLEU的主要不同之处是什么？

同时存在ROUGE-n精确度和ROUGE-n精确度召回。原始的ROUGE实现从介绍ROUGE {3}的论文中计算两者，以及结果的F1分数。

来自http://text-analytics101.rxnlp.com/2017/01/how-rouge-works-for-evaluation-of.html (mirror)：

ROUGE recall：

ROUGE精度：

(介绍ROUGE {1}的论文中的原始ROUGE实现可能会执行更多操作，如词干提取。)

ROUGE-n的精确度和召回率很容易解释，这与BLEU不同(参见Interpreting ROUGE scores)。

ROUGE-n精度与BLEU的不同之处在于，BLEU引入了一个简短的惩罚项，并且还计算了几个大小为n-gram的n-gram匹配(不像ROUGE-n，其中只有一个选择的n-gram大小)。堆栈溢出不支持LaTeX，所以我不会在更多的公式中与BLEU进行比较。{2}清楚地解释了BLEU。

参考文献：

{1}林金耀。"Rouge:一个自动评估摘要的包。“在文本摘要分支中: ACL-04研讨会论文集，第8.2004卷。作者声明：http://anthology.aclweb.org/W/W04/W04-1013.pdf
{2} https://scholar.google.com/scholar?cluster=2397172516759442154&hl=en&as_sdt=0,5；“重新评价Bleu在机器翻译研究中的作用。”在EACL中，第6卷，第249-256页。2006年。https://scholar.google.com/scholar?cluster=8900239586727494087&hl=en&as_sdt=0,5 ;

票数 18

Stack Overflow用户

发布于 2019-12-17 19:02:35

ROGUE和BLEU都是适用于创建文本摘要任务的一组指标。最初机器翻译需要使用BLEU，但它非常适用于文本摘要任务。

最好使用示例来理解概念。首先，我们需要像这样的摘要候选者(机器学习创建的摘要)：

猫

是在床底下被发现的

和黄金标准摘要(通常由人创建)：

猫

在床底下

让我们为unigram (每个单词)的大小写找出精确度和召回率。我们使用单词作为度量标准。

机器学习摘要有7个单词(mlsw=7)，黄金标准摘要有6个单词(gssw=6)，重叠单词的数量也是6个(ow=6)。

机器学习的召回率为: ow/gssw=6/6=1机器学习的精度为: ow/mlsw=6/7=0.86

同样，分组的单字、双字、n字的we can compute精度和召回率也很高。

对于流氓，我们知道它同时使用召回率和精确度，以及F1分数，这是它们的调和平均值。

对于BLEU来说，also use精确度与召回率是成对的，但使用了几何平均值和简洁性惩罚。

细微的差异，但重要的是要注意它们都使用精确度和召回率。

票数 8

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/38045290

复制

相似问题

问文本摘要评测
EN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问文本摘要评测EN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问文本摘要评测
EN