首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >自然语言处理.字对齐

自然语言处理.字对齐
EN

Stack Overflow用户
提问于 2010-03-11 14:18:26
回答 4查看 4.2K关注 0票数 9

我正在寻找字对齐工具和算法。

我正在处理双语英语-印地语文本,目前正在研究。

  • 动态时间扭曲( DTW )算法
  • 竞争链接算法( CLA )
  • NATools
  • Giza++

请您提出其他的算法/工具,这些算法/工具是独立于语言的,并且可以实现并行英语印地语语料库的统计词对齐以及它的评估

有些工具对某些语言是最好的,你能告诉我这是怎么回事吗?如果是的话,你能提供一个例子说明什么更适合像印地语这样的亚洲语言。相反的例子,我不应该使用这样的语言也是受欢迎的。

我听说过一些关于插头字对齐器的事.有人能告诉我这个工具对我是否有用吗。

谢谢。。:)

EN

回答 4

Stack Overflow用户

回答已采纳

发布于 2010-03-18 04:08:24

伯克利定位器非常好。通过对IBM对齐模型进行联合培训,它能够获得比GIZA++这样的旧包更低的对齐错误率(AER)。

它还支持一些更高级的特性,例如语法失真(即使用解析树信息来获得更好的对齐)。为此,您只需要为其中一个语言对解析树。所以,你学印地语<->英语应该没问题,因为有很多免费的和好的英语解析器。

如果您决定不使用伯克利对齐器,您可能应该只使用GIZA++。多年来,它从本质上说一直是机器翻译社区中标准的字对齐器。

票数 6
EN

Stack Overflow用户

发布于 2010-05-14 00:08:19

Uplug是一个很好的工具,我一直在使用它来对齐英语<->马其顿语文本。它本质上是通过添加所谓的线索对齐而建立在Giza++上的。它的高级设置实际上结合了线索对齐和Giza++,并执行3次这样的迭代。线索越多(标签、引理.)你会提供更好的结果。但我必须指出,与使用Giza++相比,您不应该期望得到根本不同的结果。

不管怎么说,如果你打算认真研究SMT这个话题,我建议你读一读关于Uplug的论文(博士论文),这将对你很有好处。

票数 3
EN

Stack Overflow用户

发布于 2010-03-12 19:06:05

摩西是一个统计机器翻译套件,您可能需要看一看。它的单词对齐组件构建在GIZA++上,但可能会被调整以更好地处理特定的语言对,而不是纯GIZA++。他们的邮件列表和您可以在http://www.statmt.org/上找到的资源也可能是一个更好的地方来就这个主题提出问题。有一件事你什么也没说,但我认为更有问题的是,在哪里可以得到一个平行的印地语语料库<->英语。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/2425614

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档