我试图理解机器翻译评价分数的概念。
我明白BLEU的得分是如何实现的。它考察了BLEU-1、BLEU-2、16-3、100-4等不同的n-克,并试图与人类的书面翻译相匹配。
然而,我不能真正理解什么是流星评分,以评估MT的质量。我正试着直观地理解这个理由。我已经在寻找不同的博客文章,但无法真正弄清楚。
这两种评估指标是如何不同的,它们是如何相关的?
有人能帮忙吗?
发布于 2022-04-27 07:08:37
流星是对MT的标准精度-召回类型的的一种修改.你希望翻译假说中的所有词都有对应的参考翻译(精确),以及翻译假设中的参考翻译(回忆)中的所有内容。召回的重要性是精确性的9倍。
为此,需要(单语)对齐假设中的单词与参考之间的关系。对于机器翻译来说,这并不容易,因为翻译可能使用不同的词来表示相同的内容。为此,“流星”使用了一个带有单词n克释义的表,这是语言特有的.
最后,由于对齐方式很难看,有一个惩罚。如果你随机调整翻译,你仍然可以得到一个完美的对齐,但这个句子显然被打断了。惩罚是减去对齐单词总数中连续字块对齐数的立方体。
https://stackoverflow.com/questions/71963140
复制相似问题