首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >转换从混音到线性影响音频质量?

转换从混音到线性影响音频质量?
EN

Stack Overflow用户
提问于 2022-01-03 10:45:47
回答 2查看 171关注 0票数 0

我想改变音频编码从穆劳到线性,以便使用线性语音识别模型从谷歌。我使用的是一个电话通道,所以音频是用mulaw编码的,8位,8000 in。当我使用Google模型时,识别一些简短的单字->存在一些问题--基本上它们根本不被识别-> API没有返回--我想知道更改线性或Flac的编码是一个好的实践吗?我已经做到了,但我不能真正衡量这种改善的程度。

EN

回答 2

Stack Overflow用户

发布于 2022-01-04 09:03:47

无论是对无头音频数据使用最佳做法还是对头型音频数据使用FLAC都是LINEAR16。它们都提供无损编解码器。很好的做法是将采样率设置为16000 Hz,否则您可以设置sample_rate_hertz来匹配音频源的本地采样率(而不是重新采样)。由于提供了各种提高音频质量的方法,您可以使用世界水平的信心来测量响应的准确性。

票数 1
EN

Stack Overflow用户

发布于 2022-01-30 13:49:58

理想情况下,音频将以使用无损编解码器(如linear16 ot flac )开始录制。但是,一旦你有了它的格式,如骡子,转码,然后发送到谷歌,语音到文字是没有帮助的。

考虑使用model=phone_calluse_enhanced=true来提高电话质量。为了进行快速实验,您可以使用STT https://cloud.google.com/speech-to-text/docs/ui-overview

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/70564595

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档