我一直在官方网站(和pdf手册)中搜索giza++短语表输出中数字的含义:http://www.statmt.org/moses/?n=FactoredTraining.ScorePhrases。
这就是我要说的。
假设这是短语表中的一行
načiniti na koji ||| way in which ||| 0.833333 * 0.33333 * ||| * ||| 12 3 1这意味着:
e = "načiniti na koji"
f = "way in which"
count(e) = 12
count(f) = 3
count(e, f) = 1
p(f|e) = count(f, e) / count(e) = 1/12 = 0.833333
p(e|f) = count(f, e) / count(f) = 1/3 = 0.333333这些都很有道理。
然而,如果我使用文本编辑器进行文本搜索,我会得到:
count("načiniti na koji") = 4
count("way in which") = 9也就是说,完全不同的数字。
另一件奇怪的事情是:
osnivanje i ||| the ||| 0.000124085 * 1 * ||| 0-0 ||| 8059 1 1所以,考虑到官方网站的解释,
count("the) = 1,和
count("osnivanje i") = 8059.一种解释可能是,它可能正好相反。
但是,真正的计数(“the”)是21466。
还有其他教程/手册可以更好地澄清giza++输出文件的内容吗?
发布于 2017-09-19 07:29:55
所以我想应该是这样的:
因此,可以用以下方式来表示:
E-外国giza成员
F-英国吉萨成员
在完成此操作之后,对f_phrases进行了两种排序,这就是我们如何获得两个表文件的方法
对进行排序,使某一外国短语(e)的所有英文译文彼此相邻。
analiza i analysis and
analiza i analysis and
analiza i analysis and
analiza i analysis and
analiza i analysis and
analiza i analysis and
analiza i analysis and
analiza i analysis and
analiza i analysis and
analiza i analysis and
analiza i analysis and
analiza i analysis and
analiza i analysis and
analiza i and
analiza i evaluation and
analiza i the analysis and
analiza i through evaluation and因此,我们得出结论,
计数(E)=计数(“analiza i") = 17
之后,对对进行排序,使某个本族语短语(f)的所有外文翻译彼此相邻。
分析、分析、分析与分析分析与分析I和analiza I
我们看到了count(f) = count("analysis and") = 14
考虑到它是相同的表,只是以其他方式排序,我们看到count("analysis and", "analiza i") = count("analiza i", "analysis and") = 17
由此产生的短语-表看起来如下:
analiza i|||analysis and||| 14 ||| 17||| 13
e ||| f ||| count(f) ||| count(e) ||| count(e, f) = count(f, e)当计算条件概率时,就使用逆序,就像短语表中的顺序一样:
p(e|f) = p(e, f) / p(f) phrase translation probability
p(f|e) = p(f, e) / p(e) inverse phrase translation probability https://stackoverflow.com/questions/46284455
复制相似问题