我想用离线语音来识别文本,主要是德语。
特别是,我想使用Mozilla DeepSpeech (百度的DeepSpeech架构的TensorFlow实现),但我担心音频输入的音频质量不足以产生低错误率(单词错误率)。
(英文)例子:
发言人说“知道”,但引擎可能已经理解"flow"或显示“或"go"或”know“E 211。
我想把[flow, show, go, know]从引擎中拿回来,这样之后我可以手动决定哪种建议最适合。我怎么能拿到这个?
其他对文本引擎的演讲提供了这种可能性吗?
发布于 2020-08-03 14:22:37
DeepSpeech已经更新了释出。为了获得更好的推断结果,您需要遵循他们的指示和建议,例如输入音频文件应该位于16000 Hz、单通道和16位。音频重采样可能会影响推理的质量,请记住这一点。我个人使用SoX进行重采样,但还有其他选项,取样。同时,对于他们的论坛也有很多好的建议。
有一个叫做https://pypi.org/project/SpeechRecognition/的Python库。他们有一些离线模型和在线API服务,用于语音到文本。
发布于 2022-05-03 08:11:43
您可以使用.NET语音识别:https://learn.microsoft.com/en-us/dotnet/api/system.speech.recognition?view=netframework-4.8。
只需注意,.NET语音识别只有在设置语音识别语法(围绕他们可以说的规则)时才能正常工作。
查看RecognitionResult对象的替代项或同音属性。
https://stackoverflow.com/questions/59915703
复制相似问题