首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >giza++短语表中的计数是什么意思?

giza++短语表中的计数是什么意思?
EN

Stack Overflow用户
提问于 2017-09-18 16:48:23
回答 1查看 432关注 0票数 2

我一直在官方网站(和pdf手册)中搜索giza++短语表输出中数字的含义:http://www.statmt.org/moses/?n=FactoredTraining.ScorePhrases

这就是我要说的。

假设这是短语表中的一行

代码语言:javascript
复制
načiniti na koji ||| way in which ||| 0.833333 * 0.33333 * ||| * ||| 12 3 1

这意味着:

代码语言:javascript
复制
e = "načiniti na koji"
f = "way in which"

count(e) = 12
count(f) = 3
count(e, f) = 1

p(f|e) = count(f, e) / count(e) = 1/12 = 0.833333
p(e|f) = count(f, e) / count(f) = 1/3 = 0.333333

这些都很有道理。

然而,如果我使用文本编辑器进行文本搜索,我会得到:

代码语言:javascript
复制
count("načiniti na koji") = 4
count("way in which") = 9

也就是说,完全不同的数字。

另一件奇怪的事情是:

代码语言:javascript
复制
osnivanje i ||| the ||| 0.000124085 * 1 * ||| 0-0 ||| 8059 1 1

所以,考虑到官方网站的解释,

代码语言:javascript
复制
count("the) = 1,

代码语言:javascript
复制
count("osnivanje i") = 8059.

一种解释可能是,它可能正好相反。

但是,真正的计数(“the”)是21466。

还有其他教程/手册可以更好地澄清giza++输出文件的内容吗?

EN

回答 1

Stack Overflow用户

发布于 2017-09-19 07:29:55

所以我想应该是这样的:

  • Giza在并行语料库中运行。
  • 每当两个短语对齐时,它们就会被刷新为文本文件,让我们将其命名为f_phrases

因此,可以用以下方式来表示:

E-外国giza成员

F-英国吉萨成员

在完成此操作之后,对f_phrases进行了两种排序,这就是我们如何获得两个表文件的方法

  1. extract.o.sorted

对进行排序,使某一外国短语(e)的所有英文译文彼此相邻。

代码语言:javascript
复制
analiza i      analysis and
analiza i      analysis and
analiza i      analysis and
analiza i      analysis and
analiza i      analysis and
analiza i      analysis and
analiza i      analysis and
analiza i      analysis and
analiza i      analysis and
analiza i      analysis and
analiza i      analysis and
analiza i      analysis and
analiza i      analysis and
analiza i      and
analiza i      evaluation and
analiza i      the analysis and
analiza i      through evaluation and

因此,我们得出结论,

计数(E)=计数(“analiza i") = 17

之后,对对进行排序,使某个本族语短语(f)的所有外文翻译彼此相邻。

  1. extract.inv.sorted

分析、分析、分析与分析分析与分析I和analiza I

我们看到了count(f) = count("analysis and") = 14

考虑到它是相同的表,只是以其他方式排序,我们看到count("analysis and", "analiza i") = count("analiza i", "analysis and") = 17

由此产生的短语-表看起来如下:

代码语言:javascript
复制
analiza i|||analysis and|||     14      |||             17|||               13

e       ||| f        ||| count(f) ||| count(e)   ||| count(e, f) = count(f, e)

当计算条件概率时,就使用逆序,就像短语表中的顺序一样:

代码语言:javascript
复制
p(e|f) = p(e, f) / p(f) phrase translation probability 
p(f|e) = p(f, e) / p(e) inverse phrase translation probability 
票数 3
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/46284455

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档