几个月来,我一直在与CMUsphinx合作编写土耳其语语音短信。我成功地开了一列100小时的火车。我的目标是使用结果声学模型与Sphinx3解码器。但是,Sphinx3解码器无法解码我的测试wav文件。然后,我注意到斯芬克斯列车在训练结束时运行pocketsphinx_batch来测试模型。
所以,我开始研究poscketsphinx。我现在的情况是,pocketsphinx批处理无法解码一个wav文件(实际上它只产生ııı,而不是其他任何东西),但是pocketsphinx连续使用同一个文件产生更有意义的输出(例如,15个单词中有10个正确的单词)。
我想我错过了一些配置步骤。我有一个压缩的档案在这个链接,其中包括声学和语言模型,字典和wav文件,我试图解码。
我希望能够在Sphinx3和Pocketsphinx_batch中使用我的模型,从而获得帮助。
谢谢。
发布于 2017-04-06 20:16:58
幸运的是我发现了这个问题。它是由sphinx_fe产生的特征向量。我是用默认值创建它们的。在读取了make_feats.pl和sphinxtrain.cfg文件之后,我创建了与声学模型兼容的特征向量。Sphinxtrain.cfg的提升器参数为22,但如果使用默认值为sphinx_fe,则提升器为0,这意味着没有提升器。我创建了具有提升器值22的mfc,然后它工作了。
https://stackoverflow.com/questions/43229569
复制相似问题