我在试着做一个基线的MT系统。为了检查它是如何工作的,我制作了一个仅有2000个句子的源(S)和目标(T)语料库。第一步是为机器翻译(MT)系统准备数据。在这一步中,首先我们必须执行这里提到的标记化,Baseline SMT。我使用了下面的代码:
~/mosesdecoder/scripts/tokenizer/tokenizer.perl -l en \
< ~/corpus/training/news-commentary-v8.fr-en.en \
> ~/corpus/news-commentary-v8.fr-en.tok.en
~/mosesdecoder/scripts/tokenizer/tokenizer.perl -l fr \
< ~/corpus/training/news-commentary-v8.fr-en.fr \
> ~/corpus/news-commentary-v8.fr-en.tok.fr(说S=法语&T=英语)
我检查了2个小时后,它仍然在运行。我很好奇,因为这是意想不到的。然后我试着只用了十句话。令我惊讶的是,它已经运行了30分钟,而且还在运行。
我做错什么了吗?
PS: OS = Ubuntu 14.04.5LTS Sony ultrabook无双引导。
发布于 2020-08-13 13:52:52
请按照以下步骤操作;
git clone https://github.com/moses-smt/mosesdecoder.git
cd mosesdecoder
git clone https://github.com/moses-smt/giza-pp.git
cd giza-pp
make
mkdir tools
cp giza-pp/GIZA++-v2/GIZA++ giza-pp/GIZA++-v2/snt2cooc.out giza-pp/mkcls-v2/mkcls tools
scripts/tokenizer/tokenizer.perl -l fr < ~/corpus/training/news-commentary-v8.fr-en.fr > ~/corpus/news-commentary-v8.fr-en.tok.frhttps://stackoverflow.com/questions/40071989
复制相似问题