我有一些关于机器翻译的蓝色分数计算的问题。我意识到他们对BLEU可能有不同的衡量标准。我找到了BLEU的代码报告的五个值,分别是BLEU-1,16-2,and-3,in-4,还有最后,这似乎是前四个BLEUs的指数平均值。不过,我还不清楚这两者之间有什么区别。你有什么想法吗?谢谢
附注:起初,我认为这个问题更像是一个理论内容,并将其发布在元堆栈上。版主已经关闭并将其评论为堆栈溢出类型的问题。所以请不要再惩罚我了。=)
发布于 2017-06-10 14:06:54
来源:http://www.statmt.org/book/slides/08-evaluation.pdf
我还没听说过BLEU-1和BLEU-2,但我想它指的是1克,2克,3克和4克,我的意思是在你问题中的公式precision[i] = BLEU-i中:

发布于 2018-04-14 20:59:03
实际上,BLEU-n并不只使用n克分数。它通过n克分数计算1克,并给它们同等的权重来计算最后的分数。有关更多信息,请参阅此链接的“累积N分数”一节。
https://stackoverflow.com/questions/44324681
复制相似问题