我正在研究嵌入式设备的语音相关语音识别解决方案。我看过口袋狮身人面像,但因为我仍然不熟悉它,我想也许有更有经验的人可能会知道。是否有可能使用pocketsphinx来实现这样的语音识别。而不是使用声学和语言模型,它应该记录音频,提取其特征,然后将其与所说的匹配。是否可以使用pocketsphinx实现此流程?如果不是,有人能为我指出解决方案的正确方向吗?谢谢。
发布于 2012-12-05 15:51:49
是否可以使用pocketsphinx来实现这样的语音识别。
pocketsphinx中没有这样的功能
你能做的就是先用sphinxbase提取MFC系数,参见sphinx_fe源码。
然后,您可以应用DTW算法来比较记录。DTW的实现非常简单,只有50行代码:
http://en.wikipedia.org/wiki/Dynamic_time_warping
实现DTW的库也很少,您可以在wikipedia页面上找到链接。
如果能看到一个演示DTW实现的pocketsphinx补丁,那就太好了。
https://stackoverflow.com/questions/13699496
复制相似问题