首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >在语音识别过程中获得替代建议

在语音识别过程中获得替代建议
EN

Stack Overflow用户
提问于 2020-01-26 05:03:40
回答 2查看 193关注 0票数 1

我想用离线语音来识别文本,主要是德语。

特别是,我想使用Mozilla DeepSpeech (百度的DeepSpeech架构的TensorFlow实现),但我担心音频输入的音频质量不足以产生低错误率(单词错误率)。

(英文)例子:

发言人说“知道”,但引擎可能已经理解"flow"显示“"go"”know“E 211

我想把[flow, show, go, know]从引擎中拿回来,这样之后我可以手动决定哪种建议最适合。我怎么能拿到这个?

其他对文本引擎的演讲提供了这种可能性吗?

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2020-08-03 14:22:37

DeepSpeech已经更新了释出。为了获得更好的推断结果,您需要遵循他们的指示和建议,例如输入音频文件应该位于16000 Hz、单通道和16位。音频重采样可能会影响推理的质量,请记住这一点。我个人使用SoX进行重采样,但还有其他选项,取样。同时,对于他们的论坛也有很多好的建议。

有一个叫做https://pypi.org/project/SpeechRecognition/的Python库。他们有一些离线模型和在线API服务,用于语音到文本。

票数 2
EN

Stack Overflow用户

发布于 2022-05-03 08:11:43

您可以使用.NET语音识别:https://learn.microsoft.com/en-us/dotnet/api/system.speech.recognition?view=netframework-4.8

只需注意,.NET语音识别只有在设置语音识别语法(围绕他们可以说的规则)时才能正常工作。

查看RecognitionResult对象的替代项或同音属性。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/59915703

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档