我正在测试和流媒体音频以及wav文件。我使用来自电话的音频: 8000采样率,8位,混音编码。Google配置是适当设置的。
当我用正常序列测试它时,它会返回一个正确的转录。然而,当我说一个单词(特别是数字)时,我经常没有从api ->获得任何响应,就好像它没有输入一样。这种情况发生在流和批量转录。
有人知道为什么会这样吗?怎么修呢?
发布于 2022-01-11 05:54:55
云语音到文本API 最佳做法建议使用无损编解码器,如FLAC或LINEAR16。我用LINEAR16进行了验证,它适用于数字中的单个单词。所以解决办法是对音频进行转码。
https://stackoverflow.com/questions/70505712
复制相似问题