我正在尝试用口袋狮身人面像创建一个僧伽罗语语音识别系统。我使用SRILM工具来创建语言模型。我用来创建语言模型的源文件是Here。我在windows 8.1上使用cygwin来运行SRILM 1.7.1。但是一旦我运行了这个命令
ngram-count -vocab sinhalalexicon.txt -text sinhalacorpus.Train -order 3 -write sinhala.count -unk我得到了
iconv: Invalid or incomplete multibyte or wide character
iconv: Invalid or incomplete multibyte or wide character我在这里做错了什么?使用Notepad++手动创建了sinhalacorpus.Train文件
发布于 2015-07-23 17:58:21
我找到了我的问题的解决方案。一旦我将语料库和词典文件转换为BOM Unix格式的,并将编码更改为UTF-8,而不使用,它就可以工作了。我使用Notepad++进行更改。
https://stackoverflow.com/questions/31582725
复制相似问题