我在用西班牙语试cmusphinx。我下载了西班牙型号和dict,但准确性很差.
我试图删除"es.dict“中的所有单词,而不是我所需要的单词。并且准确率变化到100% (删除99%的单词.)。
但是这种变化在性能上产生了另一个问题,我认为系统正在尝试读取文件"es-20k.lm“中的每个单词。
我的输出显示了每一个被删除的单词:“2016年11月12日11:05:14 PM edu.cmu.sphinx.linguist.dictionary.TextDictionary getWord INFORMACI n:词典缺少‘argumento’这个词的音标。”
如何删除西班牙语模型中未使用的单词?有可能吗?我只想修改这个模型的字典,删除未使用的单词。(我现在只想要50个字)。
我正在尝试文档中建议的工具,但我不明白,或者我看不出是如何做到的。
谢谢。
发布于 2016-11-13 07:51:36
你应该把字典保持不变。您需要在文本编辑器中编写语法,或者按照语言模型教程的建议使用srilm构建语言模型。
总之,减少语言词汇量并不是提高准确性的唯一途径,往往是由于噪声、记录条件失配等因素造成的。你也得好好研究一下。
https://stackoverflow.com/questions/40568809
复制相似问题