因此,Vosk-api是一个出色的离线语音识别器,它提供了出色的支持,但是在这篇文章(2020年8月14日)中,文档非常糟糕(或者隐藏得非常巧妙)。
问题是:是否有任何替代的google-speech-recognizer功能,允许额外的语音适应的转录改善?
例如。
"config": {
"encoding":"LINEAR16",
"sampleRateHertz": 8000,
"languageCode":"en-US",
"speechContexts": [{
"phrases": ["weather"]
}]
}对于Google来说,这个配置意味着这个短语相对于来说将有更大的优先权,这听起来也是一样的。
或者是等级代币?我知道它可能不是在Vosk中为python3实现的,但是.
以下是参考资料:
https://cloud.google.com/speech-to-text/docs/class-tokens
https://cloud.google.com/speech-to-text/docs/speech-adaptation
发布于 2020-08-14 19:36:47
有关Vosk模型适应的信息,请参阅本文档:
https://alphacephei.com/vosk/adaptation
基本上有四个层次:
这个过程不是完全自动化的,但是您可以在小组中寻求帮助。
https://stackoverflow.com/questions/63411574
复制相似问题