首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何使用GIZA++解析占用大量内存和时间的mkcls?

如何使用GIZA++解析占用大量内存和时间的mkcls?
EN

Stack Overflow用户
提问于 2013-02-22 08:22:46
回答 2查看 591关注 0票数 1

我使用GIZA++对齐来自Europarl语料库位的单词。

在使用GIZA++训练对齐模型之前,我需要使用mkcls脚本来创建隐藏马尔可夫模型算法所必需的类:

代码语言:javascript
复制
mkcls -n10 -pcorp.tok.low.src -Vcorp.tok.low.src.vcb.classes

我尝试了一个小的1000行语料库,它工作正常,并在几分钟内完成。我现在用1500,000行在语料库上试用,它占了我的CPU (Six-Core AMD Opteron(tm) Processor 2431 × 12) 的100%

在创建类之前,我已经采取了必要的步骤来标记,降低所有大写,并过滤出超过40个单词的行。

有谁在mkcls for GIZA++上有类似的经验吗?怎么解决的?如果有人在Europarl语料库上做过同样的操作,那么运行mkcls**?** 需要多长时间?

EN

回答 2

Stack Overflow用户

发布于 2013-02-23 02:09:36

由于mkcls脚本MOSESGIZA++不是并行化的,而Europarl语料库中150万单词中的句子和单词的数量,所以制作词汇类需要花费大约1-2个小时。

其他的前吉萨++处理步骤(即。plain2sntsnt2cooc)所花费的时间和处理能力要小得多。

票数 0
EN

Stack Overflow用户

发布于 2013-04-08 13:06:21

试试支持多线程的mgiza (http://www.kyloo.net/software/doku.php/mgiza:overview )。它将大大减少完成任务所需的时间。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/15019755

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档