我想改变音频编码从穆劳到线性,以便使用线性语音识别模型从谷歌。我使用的是一个电话通道,所以音频是用mulaw编码的,8位,8000 in。当我使用Google模型时,识别一些简短的单字->存在一些问题--基本上它们根本不被识别-> API没有返回--我想知道更改线性或Flac的编码是一个好的实践吗?我已经做到了,但我不能真正衡量这种改善的程度。
发布于 2022-01-04 09:03:47
发布于 2022-01-30 13:49:58
理想情况下,音频将以使用无损编解码器(如linear16 ot flac )开始录制。但是,一旦你有了它的格式,如骡子,转码,然后发送到谷歌,语音到文字是没有帮助的。
考虑使用model=phone_call和use_enhanced=true来提高电话质量。为了进行快速实验,您可以使用STT https://cloud.google.com/speech-to-text/docs/ui-overview。
https://stackoverflow.com/questions/70564595
复制相似问题