我使用GIZA++对齐来自Europarl语料库位的单词。
在使用GIZA++训练对齐模型之前,我需要使用mkcls脚本来创建隐藏马尔可夫模型算法所必需的类:
mkcls -n10 -pcorp.tok.low.src -Vcorp.tok.low.src.vcb.classes我尝试了一个小的1000行语料库,它工作正常,并在几分钟内完成。我现在用1500,000行在语料库上试用,它占了我的CPU (Six-Core AMD Opteron(tm) Processor 2431 × 12) 的100%
在创建类之前,我已经采取了必要的步骤来标记,降低所有大写,并过滤出超过40个单词的行。
有谁在mkcls for GIZA++上有类似的经验吗?怎么解决的?如果有人在Europarl语料库上做过同样的操作,那么运行mkcls**?** 需要多长时间?
发布于 2013-02-23 02:09:36
由于mkcls脚本MOSES和GIZA++不是并行化的,而Europarl语料库中150万单词中的句子和单词的数量,所以制作词汇类需要花费大约1-2个小时。
其他的前吉萨++处理步骤(即。plain2snt,snt2cooc)所花费的时间和处理能力要小得多。
发布于 2013-04-08 13:06:21
试试支持多线程的mgiza (http://www.kyloo.net/software/doku.php/mgiza:overview )。它将大大减少完成任务所需的时间。
https://stackoverflow.com/questions/15019755
复制相似问题