我正在处理通过Quicktime录制并以.m4a格式保存的音频。我想使用Google的语音API,他们的建议如下:
Do:
使用无损编解码器记录和传输音频。建议使用FLAC或LINEAR16。
避免:
在记录或传输过程中使用mp3、mp4、m4a、mu-law、a-law或其他有损编解码器可能会降低精度。如果您的音频已经处于API不支持的编码中,请将其转换为无损的FLAC或LINEAR16。如果您的应用程序必须使用有损编解码器来节省带宽,我们建议按首选顺序使用AMR_WB、OGG_OPUS或SPEEX_WITH_HEADER_BYTE编解码器。
来源:https://cloud.google.com/speech/docs/best-practices
API支持FLAC、WAV或raw,我正在尝试以编程方式将我的文件转换为其中之一,以便在应用程序中使用。但是,我无法找到一个好的Python库来完成这个任务。
更新:答案是:https://www.ffmpeg.org/ (不是python,但肯定是最全面的工具)
发布于 2018-02-28 20:06:20
我使用的是python库: pydub:pydub github链接,它们是在ffmpeg上构建的。
https://stackoverflow.com/questions/48939937
复制相似问题