首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >伯克利校准器的输出格式中的“-P”是什么?

伯克利校准器的输出格式中的“-P”是什么?
EN

Stack Overflow用户
提问于 2010-11-18 18:17:45
回答 1查看 756关注 0票数 1

我想使用伯克利定位器进行一些MT研究,因为,显然,它击败了GIZA++相当方便(在一些报告的结果中减少了32%的对齐误差)。在大多数情况下,伯克利对齐器“示例”目录中的输出看起来就像摩西对GIZA++输出文件所做的那样(即配对对齐的单词索引),但是在某些对后有一些有趣的“-P”。在我的一生中,我找不到这些"-P“注释应该意味着什么的任何文档(当然不是在伯克利对齐器的”文档“目录中)。

为了清晰起见,我会给出一个说明性的例子。假设你有这样的句子:"Jean pl itàMarie“和"Marie likes”。法语是源语言,英语是目标语言。"Jean“(索引0和2,resp.)和"Marie“(指数3和0,resp.)在两个句子中对齐,以及“pl it”和"à“(法文索引1和2,resp.)与"like“(英文索引1)对齐。在摩西-后处理的GIZA++输出中,这将由源-目标索引对的列表表示:

代码语言:javascript
复制
0-2 1-1 2-1 3-0

伯克利对齐器生成的文件非常类似于此,但有些索引对在它们上有一个-P (例如,您可能会看到类似于1-1-P的内容)。

这到底是什么意思?我是否可以安全地删除这些-P注释并获得GIZA++通过-摩西风格的对齐,或者我应该做更多的事情(例如,将它们相乘成一系列对齐的索引对,或者您做了什么)?

EN

回答 1

Stack Overflow用户

发布于 2010-11-18 18:24:26

我对此不太了解,但我对代码进行了搜索:

http://www.google.com/codesearch?hl=en&lr=&q=%22-P%22+package:http://berkeleyaligner.googlecode.com&sbtn=Search

代码语言:javascript
复制
    /**
     * Writes the sure and proposed alignments in a modified
     * version of the Pharaoh format.
     *
     * For example, if we have 7 sure alignments and two possibles, we get:
     *
     * enPos1-frPos1 enPos2-frPos2 ... enPos8-frPos8-P enPos9-frPos9-P
     *
     * here, the -P indicates possible alignments.
     */
    public String outputHard() {
            return dumpModifiedPharaoh(false);
    }

这些似乎是“可能”的排列。这是因为在法老(?)中,代码被设置为输出“硬”对齐。格式。似乎您可以决定使用或转储-P别名,或者切换到“软”输出,这为每对都提供了一个强度,然后扫描一个阈值参数。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/4218120

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档