首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >在ROUGE指标中,低值、中值和高值意味着什么?

在ROUGE指标中,低值、中值和高值意味着什么?
EN

Stack Overflow用户
提问于 2022-06-19 08:10:21
回答 1查看 352关注 0票数 -1

引入ROUGE度量是为了“通过将摘要与人类创建的其他(理想的)摘要进行比较,自动确定摘要的质量”[1]。

在计算任何ROUGE度量时,您将得到一个包含3个参数的AggregateScore对象:lowmidhigh。如何计算这些汇总值?

例如,在huggingface实现[2]中:

代码语言:javascript
复制
>>> rouge = evaluate.load('rouge')
>>> predictions = ["hello there", "general kenobi"]
>>> references = ["hello there", "general kenobi"]
>>> results = rouge.compute(predictions=predictions,
...                         references=references)
>>> print(list(results.keys()))
['rouge1', 'rouge2', 'rougeL', 'rougeLsum']
>>> print(results["rouge1"])
AggregateScore(low=Score(precision=1.0, recall=1.0, fmeasure=1.0), mid=Score(precision=1.0, recall=1.0, fmeasure=1.0), high=Score(precision=1.0, recall=1.0, fmeasure=1.0))
>>> print(results["rouge1"].mid.fmeasure)
1.0

编辑:7月7日,huggingface实现被简化为返回一个更干净、更容易理解的dict:https://github.com/huggingface/evaluate/issues/148

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2022-06-19 08:10:21

给定一个(汇总,gold_summary)对的列表,任何ROUGE度量都会按列表中的每一项计算。在huggingface中,您可以通过添加use_aggregator=False并获得这些值来选择退出聚合部分。

对于聚合,使用了一个引导重采样[12]。引导重采样是一种用于提取置信区间[3.4.]的技术。这样做的想法是,对于n样本,您可以绘制x乘以一个样本,替换n大小,然后计算每个重采样的一些统计数据。现在您得到了一个名为empirical bootstrap distribution的新发行版,它可以用于提取置信区间。

在google [4.]的ROUGE实现中,他们使用了:

  • 要运行的重协议数的n
  • 重采样统计量的mean
  • 2.5th, 50th and 97.5th percentiles分别计算低、中和高的值(可以用confidence_interval参数控制)
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/72675260

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档