首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >moses SMT系统中的标记器即使只有10个句子也会被卡住

moses SMT系统中的标记器即使只有10个句子也会被卡住
EN

Stack Overflow用户
提问于 2016-10-16 23:28:09
回答 1查看 526关注 0票数 1

我在试着做一个基线的MT系统。为了检查它是如何工作的,我制作了一个仅有2000个句子的源(S)和目标(T)语料库。第一步是为机器翻译(MT)系统准备数据。在这一步中,首先我们必须执行这里提到的标记化,Baseline SMT。我使用了下面的代码:

代码语言:javascript
复制
~/mosesdecoder/scripts/tokenizer/tokenizer.perl -l en \
< ~/corpus/training/news-commentary-v8.fr-en.en    \
> ~/corpus/news-commentary-v8.fr-en.tok.en
~/mosesdecoder/scripts/tokenizer/tokenizer.perl -l fr \
< ~/corpus/training/news-commentary-v8.fr-en.fr    \
> ~/corpus/news-commentary-v8.fr-en.tok.fr

(说S=法语&T=英语)

我检查了2个小时后,它仍然在运行。我很好奇,因为这是意想不到的。然后我试着只用了十句话。令我惊讶的是,它已经运行了30分钟,而且还在运行。

我做错什么了吗?

PS: OS = Ubuntu 14.04.5LTS Sony ultrabook无双引导。

EN

回答 1

Stack Overflow用户

发布于 2020-08-13 13:52:52

请按照以下步骤操作;

代码语言:javascript
复制
git clone https://github.com/moses-smt/mosesdecoder.git
cd mosesdecoder

git clone https://github.com/moses-smt/giza-pp.git
cd giza-pp
make

mkdir tools
cp giza-pp/GIZA++-v2/GIZA++ giza-pp/GIZA++-v2/snt2cooc.out giza-pp/mkcls-v2/mkcls tools

scripts/tokenizer/tokenizer.perl -l fr < ~/corpus/training/news-commentary-v8.fr-en.fr > ~/corpus/news-commentary-v8.fr-en.tok.fr
票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/40071989

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档