我想使用伯克利定位器进行一些MT研究,因为,显然,它击败了GIZA++相当方便(在一些报告的结果中减少了32%的对齐误差)。在大多数情况下,伯克利对齐器“示例”目录中的输出看起来就像摩西对GIZA++输出文件所做的那样(即配对对齐的单词索引),但是在某些对后有一些有趣的“-P”。在我的一生中,我找不到这些"-P“注释应该意味着什么的任何文档(当然不是在伯克利对齐器的”文档“目录中)。
为了清晰起见,我会给出一个说明性的例子。假设你有这样的句子:"Jean pl itàMarie“和"Marie likes”。法语是源语言,英语是目标语言。"Jean“(索引0和2,resp.)和"Marie“(指数3和0,resp.)在两个句子中对齐,以及“pl it”和"à“(法文索引1和2,resp.)与"like“(英文索引1)对齐。在摩西-后处理的GIZA++输出中,这将由源-目标索引对的列表表示:
0-2 1-1 2-1 3-0伯克利对齐器生成的文件非常类似于此,但有些索引对在它们上有一个-P (例如,您可能会看到类似于1-1-P的内容)。
这到底是什么意思?我是否可以安全地删除这些-P注释并获得GIZA++通过-摩西风格的对齐,或者我应该做更多的事情(例如,将它们相乘成一系列对齐的索引对,或者您做了什么)?
发布于 2010-11-18 18:24:26
我对此不太了解,但我对代码进行了搜索:
http://www.google.com/codesearch?hl=en&lr=&q=%22-P%22+package:http://berkeleyaligner.googlecode.com&sbtn=Search
/**
* Writes the sure and proposed alignments in a modified
* version of the Pharaoh format.
*
* For example, if we have 7 sure alignments and two possibles, we get:
*
* enPos1-frPos1 enPos2-frPos2 ... enPos8-frPos8-P enPos9-frPos9-P
*
* here, the -P indicates possible alignments.
*/
public String outputHard() {
return dumpModifiedPharaoh(false);
}这些似乎是“可能”的排列。这是因为在法老(?)中,代码被设置为输出“硬”对齐。格式。似乎您可以决定使用或转储-P别名,或者切换到“软”输出,这为每对都提供了一个强度,然后扫描一个阈值参数。
https://stackoverflow.com/questions/4218120
复制相似问题