首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Microsoft语音平台.采样率和位深度

Microsoft语音平台.采样率和位深度
EN

Stack Overflow用户
提问于 2013-08-09 08:07:46
回答 2查看 702关注 0票数 0

如果音频的采样率和比特深度与系统的训练数据相匹配,识别效果最好。

那么,是否有人知道Microsoft语音平台(如果这很重要的话,最新的)使用的采样率和/或位深度(和/或立体声/单声道)?如果是的话,你还记得你是从哪里得到这些信息的吗?

请注意,我使用的是MS语音平台,而不是SAPI。除非两者使用相同的训练数据,否则AFAIK就不一样了。准确地说-我用的是:http://msdn.microsoft.com/en-us/library/microsoft.speech.recognition.speechrecognitionengine.setinputtowavefile%28v=office.14%29.aspx

我的第一次尝试是基于页面上给出的C++代码示例。

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2013-08-10 16:35:29

Microsoft.Speech SR引擎不需要训练(与System.Speech SR引擎不同),并且对采样率相对不敏感(将适用于任何大于8 KHz的采样率)。16位音频是首选,但我相信它将与8位音频工作。

票数 0
EN

Stack Overflow用户

发布于 2018-01-03 11:13:59

我找不到关于采样率的任何信息,但似乎比特深度实际上是8位(也许这在埃里克·布朗的回答之后已经发生了变化)。

引用自此页清单支持的音频格式:

语音平台对大于8位分辨率的音频进行降采样.

您应该很好地提供任何比特深度,这是一个8位的倍数(无论如何都是这样),因为不会因为四舍五入而造成精度损失(并且不存在分辨率的混叠,不像采样率)。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/18142501

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档