首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >有没有关于giza++的教程?

有没有关于giza++的教程?
EN

Stack Overflow用户
提问于 2011-04-22 11:36:07
回答 5查看 11.2K关注 0票数 19

其“readme”文件中的Urls无效(http://www.fjoch.com/mkcls.htmlhttp://www.fjoch.com/GIZA++.html)。有没有关于giza++的好教程?或者,是否有一些替代方案具有完整的文档?

EN

回答 5

Stack Overflow用户

回答已采纳

发布于 2011-05-09 06:10:59

以下内容摘自我为一堂课准备的教程。(注意:这里假设您已在*nix系统上成功安装了GIZA++-v2。)

  1. 从两个数据文件开始,其中包含已标记化的平行句子,每行一个句子。例如,一对平行的英语-法语文件可能如下所示。

示例1- train.en

代码语言:javascript
复制
I gave him the book . 
He read the book . 
He loved the book .

示例2- train.fr

代码语言:javascript
复制
Je lui ai donne/ le livre .
Il a lu le livre .
Il aimait le livre .

  1. 通过plain2snt.out运行这些文件,以获得目标和源词汇表文件(*.vcb)以及句子对文件(*.snt).

从GIZA++目录中,运行:

代码语言:javascript
复制
./plain2snt.out TEXT1 TEXT2

其中TEXT1TEXT2是步骤1中描述的数据文件。

这将在与TEXT1TEXT2相同的目录中生成四个文件(假设它们位于同一目录中):

  • TEXT1_TEXT2.snt
  • TEXT1.vcb
  • TEXT2_TEXT1.snt
  • TEXT2.vcb

vocab文件包含文本中每个单词的唯一(整数) ID (NB:非标记化/词汇化)、单词/字符串以及该字符串出现的次数。这些字符由单个空格字符分隔。

句子文件包含数字。对于每个句子对,有三行:第一行是该句子对在语料库中出现的次数的计数,第二行和第三行是一个(空格分隔的)数字字符串,对应于词汇文件中的单词条目。根据*.snt文件的命名约定,假设第一个文件是源文件,第二个文件是目标语言。例如,在文件TEXT1_TEXT2.snt中,第一行将是第一个句子对在语料库中出现的次数的计数,第二行将是与TEXT1.vcb文件中的单词相对应的数字字符串,第三行将是与TEXT2.vcb文件中的单词相对应的数字字符串。

  1. 现在可以将TEXT1.vcbTEXT2.vcb和两个*.snt文件中的任何一个用作GIZA++的输入,以生成对齐。

例如:

代码语言:javascript
复制
./GIZA++ -s TEXT1.vcb -t TEXT2.vcb -c TEXT1_TEXT2.snt

但请注意,当我尝试运行此命令时,为了获得正确的输出,我必须将TEXT1_TEXT2.snt重命名为名称中不带下划线的名称。

票数 41
EN

Stack Overflow用户

发布于 2013-07-05 20:36:05

这个Powerpoint教程对我很有效:http://www.tc.umn.edu/~bthomson/wordalignment/GIZA.ppt

票数 3
EN

Stack Overflow用户

发布于 2014-05-24 05:15:37

这个非常有用:http://fabioticconi.wordpress.com/2011/01/17/how-to-do-a-word-alignment-with-giza-or-mgiza-from-parallel-corpus/

IIT-B学者已经为GIZA++和MOSES的设置和使用提供了良好和详细的演示文稿。

其中一些是:http://www.cse.iitb.ac.in/~pb/cs712-2013/potpouri/kashyap-giza-mozes-jan2013.pdf

http://www.cse.iitb.ac.in/~anoopk/publications/presentations/moses_giza_intro.pdf

http://www.cfilt.iitb.ac.in/Moses-Tutorial.pdf

票数 3
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/5752043

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档