如果音频的采样率和比特深度与系统的训练数据相匹配,识别效果最好。
那么,是否有人知道Microsoft语音平台(如果这很重要的话,最新的)使用的采样率和/或位深度(和/或立体声/单声道)?如果是的话,你还记得你是从哪里得到这些信息的吗?
请注意,我使用的是MS语音平台,而不是SAPI。除非两者使用相同的训练数据,否则AFAIK就不一样了。准确地说-我用的是:http://msdn.microsoft.com/en-us/library/microsoft.speech.recognition.speechrecognitionengine.setinputtowavefile%28v=office.14%29.aspx
我的第一次尝试是基于页面上给出的C++代码示例。
发布于 2013-08-10 16:35:29
Microsoft.Speech SR引擎不需要训练(与System.Speech SR引擎不同),并且对采样率相对不敏感(将适用于任何大于8 KHz的采样率)。16位音频是首选,但我相信它将与8位音频工作。
https://stackoverflow.com/questions/18142501
复制相似问题