文章/答案/技术大牛

发布

社区首页 >问答首页 >giza++短语表中的计数是什么意思？

问giza++短语表中的计数是什么意思？
EN

Stack Overflow用户

提问于 2017-09-18 16:48:23

回答 1查看 432关注 0票数 2

我一直在官方网站(和pdf手册)中搜索giza++短语表输出中数字的含义：http://www.statmt.org/moses/?n=FactoredTraining.ScorePhrases。

这就是我要说的。

假设这是短语表中的一行

načiniti na koji ||| way in which ||| 0.833333 * 0.33333 * ||| * ||| 12 3 1

这意味着：

e = "načiniti na koji"
f = "way in which"

count(e) = 12
count(f) = 3
count(e, f) = 1

p(f|e) = count(f, e) / count(e) = 1/12 = 0.833333
p(e|f) = count(f, e) / count(f) = 1/3 = 0.333333

这些都很有道理。

然而，如果我使用文本编辑器进行文本搜索，我会得到：

count("načiniti na koji") = 4
count("way in which") = 9

也就是说，完全不同的数字。

另一件奇怪的事情是：

osnivanje i ||| the ||| 0.000124085 * 1 * ||| 0-0 ||| 8059 1 1

所以，考虑到官方网站的解释，

count("the) = 1,

和

count("osnivanje i") = 8059.

一种解释可能是，它可能正好相反。

但是，真正的计数(“the”)是21466。

还有其他教程/手册可以更好地澄清giza++输出文件的内容吗？

machine-translation

moses

giza++

回答 1

Stack Overflow用户

发布于 2017-09-19 07:29:55

所以我想应该是这样的：

Giza在并行语料库中运行。
每当两个短语对齐时，它们就会被刷新为文本文件，让我们将其命名为f_phrases

因此，可以用以下方式来表示：

E-外国giza成员

F-英国吉萨成员

在完成此操作之后，对f_phrases进行了两种排序，这就是我们如何获得两个表文件的方法

extract.o.sorted

对进行排序，使某一外国短语(e)的所有英文译文彼此相邻。

analiza i      analysis and
analiza i      analysis and
analiza i      analysis and
analiza i      analysis and
analiza i      analysis and
analiza i      analysis and
analiza i      analysis and
analiza i      analysis and
analiza i      analysis and
analiza i      analysis and
analiza i      analysis and
analiza i      analysis and
analiza i      analysis and
analiza i      and
analiza i      evaluation and
analiza i      the analysis and
analiza i      through evaluation and

因此，我们得出结论，

计数(E)=计数(“analiza i") = 17

之后，对对进行排序，使某个本族语短语(f)的所有外文翻译彼此相邻。

extract.inv.sorted

分析、分析、分析与分析分析与分析I和analiza I

我们看到了count(f) = count("analysis and") = 14

考虑到它是相同的表，只是以其他方式排序，我们看到count("analysis and", "analiza i") = count("analiza i", "analysis and") = 17

由此产生的短语-表看起来如下：

analiza i|||analysis and|||     14      |||             17|||               13

e       ||| f        ||| count(f) ||| count(e)   ||| count(e, f) = count(f, e)

当计算条件概率时，就使用逆序，就像短语表中的顺序一样：

p(e|f) = p(e, f) / p(f) phrase translation probability 
p(f|e) = p(f, e) / p(e) inverse phrase translation probability

票数 3

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/46284455

复制

相似问题

问giza++短语表中的计数是什么意思？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问giza++短语表中的计数是什么意思？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问giza++短语表中的计数是什么意思？
EN