首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >文本摘要评测

文本摘要评测
EN

Stack Overflow用户
提问于 2016-06-27 11:02:43
回答 3查看 24.8K关注 0票数 50

使用两个不同的摘要系统(sys1和sys2)的结果和相同的参考摘要,我用BLEU和ROUGE对它们进行了评估。问题是: sys1的所有表情得分都高于sys2 (表情-1,表情-2,表情-3,表情-4,表情-L,表情-SU4,...)但sys1的BLEU得分低于sys2的BLEU得分(相当多)。

因此,我的问题是:红色和BLEU都是基于n元语法来衡量系统总结和人类总结之间的相似性。那么为什么评价结果会有这样的差异呢?在解释这个问题上,红色和BLEU的主要不同之处是什么?

EN

回答 3

Stack Overflow用户

回答已采纳

发布于 2016-08-28 18:35:06

一般而言:

Bleu测量精确度:机器生成的摘要中的单词(和/或n-gram)在人类参考摘要中出现了多少。

红色度量召回:人类参考摘要中的单词(和/或n-gram)在机器生成的摘要中出现了多少。

自然-这些结果是互补的,就像在精确度和召回率中经常出现的情况一样。如果系统结果中出现在人类参考文献中的单词很多,那么您将具有高Bleu,如果您具有出现在系统结果中的人类参考文献中的许多单词,则您将具有高红度值。

在您的例子中,sys1似乎比sys2具有更高的Rouge,因为sys1中的结果始终有更多来自人类参考文献的单词出现在其中,而不是sys2的结果。但是,由于您的Bleu得分显示sys1的召回率低于sys2,这表明在人类参考文献中,与sys2相关的sys1结果中出现的单词并不多。

例如,如果您的sys1输出的结果包含引用中的单词(提升红色),但也有许多引用中未包含的单词(降低Bleu),则可能会发生这种情况。看起来,sys2给出的结果是大多数输出的单词确实出现在人类参考文献中( in the Blue),但也遗漏了许多出现在人类参考文献中的单词。

顺便说一句,有一个叫做简要惩罚的东西,它非常重要,并且已经被添加到了标准的Bleu实现中。它会惩罚比引用的一般长度更短的系统结果(请阅读更多关于它的here)。这是对n-gram度量行为的补充,n-gram度量行为实际上比参考结果惩罚的时间更长,因为分母越长,系统结果就越长。

你也可以为Rouge实现一些类似的东西,但是这一次惩罚的系统结果比一般的参考长度长,否则他们就可以人为地获得更高的Rouge分数(因为结果越长,你命中引用中出现的一些单词的机会就越高)。在Rouge中,我们除以人类引用的长度,因此我们需要对较长的系统结果进行额外的惩罚,这可能会人为地提高他们的Rouge分数。

最后,您可以使用F1度量来使指标协同工作: F1 =2* (Bleu * Rouge) / (Bleu + Rouge)

票数 59
EN

Stack Overflow用户

发布于 2017-11-07 10:01:33

和BLEU都是基于n元文法来衡量系统总结和人类总结之间的相似性。那么为什么评价结果会有这样的差异呢?在解释这个问题上,红色和BLEU的主要不同之处是什么?

同时存在ROUGE-n精确度和ROUGE-n精确度召回。原始的ROUGE实现从介绍ROUGE {3}的论文中计算两者,以及结果的F1分数。

来自http://text-analytics101.rxnlp.com/2017/01/how-rouge-works-for-evaluation-of.html (mirror):

ROUGE recall:

ROUGE精度:

(介绍ROUGE {1}的论文中的原始ROUGE实现可能会执行更多操作,如词干提取。)

ROUGE-n的精确度和召回率很容易解释,这与BLEU不同(参见Interpreting ROUGE scores)。

ROUGE-n精度与BLEU的不同之处在于,BLEU引入了一个简短的惩罚项,并且还计算了几个大小为n-gram的n-gram匹配(不像ROUGE-n,其中只有一个选择的n-gram大小)。堆栈溢出不支持LaTeX,所以我不会在更多的公式中与BLEU进行比较。{2}清楚地解释了BLEU。

参考文献:

票数 18
EN

Stack Overflow用户

发布于 2019-12-17 19:02:35

ROGUE和BLEU都是适用于创建文本摘要任务的一组指标。最初机器翻译需要使用BLEU,但它非常适用于文本摘要任务。

最好使用示例来理解概念。首先,我们需要像这样的摘要候选者(机器学习创建的摘要):

是在床底下被发现的

和黄金标准摘要(通常由人创建):

在床底下

让我们为unigram (每个单词)的大小写找出精确度和召回率。我们使用单词作为度量标准。

机器学习摘要有7个单词(mlsw=7),黄金标准摘要有6个单词(gssw=6),重叠单词的数量也是6个(ow=6)。

机器学习的召回率为: ow/gssw=6/6=1机器学习的精度为: ow/mlsw=6/7=0.86

同样,分组的单字、双字、n字的we can compute精度和召回率也很高。

对于流氓,我们知道它同时使用召回率和精确度,以及F1分数,这是它们的调和平均值。

对于BLEU来说,also use精确度与召回率是成对的,但使用了几何平均值和简洁性惩罚。

细微的差异,但重要的是要注意它们都使用精确度和召回率。

票数 8
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/38045290

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档