用pocketsphinx、continuous和batch对.wav格式的音频文件进行解码时,结果差异非常显着。我想问: 1.为什么pocketsphinx batch通常比pocketsphinx给出好的结果? 2.有没有关于pocketsphinx batch和continuous工作的确切解释? 3.当使用pocketsphinx解码时cmninit值不正确,因此,我认为循环wav音频文件,结果相当好。有没有办法自动获得cmnit值而不是硬编码? 4.词汇表之外的单词在pocketsphinx批处理中无法识别。不是也输出最接近未识别单词的单词的情况吗?为什么它没有发生呢?
发布于 2018-08-19 06:52:17
Batch将音频作为一个整体进行分析,以便正确估计cmn值。
在源代码中
有许多高级算法,例如used by Google
pocketsphinx批处理中无法识别
这就是语音识别算法的工作原理,它需要查找单词列表。有像espnet这样的现代端到端系统,它可以识别子词单元,因此可以处理任意词汇表。
https://stackoverflow.com/questions/50922679
复制相似问题