我在Google Cloud控制台中创建了一个项目,并在此项目中启用了Google Speech API,并创建了凭据。也使用了谷歌推荐的transcribe.py,
https://cloud.google.com/speech/docs/samples
https://github.com/GoogleCloudPlatform/python-docs-samples/tree/master/speech
我可以使用由谷歌控制台生成的API密钥成功地将音频文件(30秒)转换为文本,但不完全,只有2-3秒。我的账号现在是免费试用,所以我怀疑是不是因为我的账号类型(免费试用)。
来自谷歌的回复是这样的:{"results":[{"alternatives":{"confidence":0.89569235,"transcript":“我在森林里野餐了,我要回家了,跟我来”}
音频文件为wav文件,格式为#0:0: Audio: pcm_s16le (1 / 0x0001),16000 Hz,1声道,s16,256kb/s
音频文件已经上传到谷歌硬盘,链接在这里https://drive.google.com/file/d/0B3koIsnLksOLQXhvQ1ljS0dDXzg/view?usp=sharing
有人知道上面的流程/步骤有什么问题吗?或者这是google语音识别api的bug?
发布于 2016-11-15 06:45:20
使用Google APIs Explorer和Cloud Speech API服务,可以通过分析音频文件的单独样本来隔离以下相关的语音识别结果:
这些结果是使用以下配置获得的:
“config”: {
“encoding”: “LINEAR16”,
“sampleRate”: 16000,
“maxAlternatives”: “30”,
}事实上,当前测试版的speech API存在已知问题,因此可能会阻止转录正常工作(无论该帐户是付费还是免费试用)。如以下best practices中所述,在您的情况下需要考虑两个问题:
考虑到这两个已知问题,重要的是去除任何噪声,只处理来自录音主角的统一语音。或者,您可以拆分录音,并尝试分别转录录音的每个单独部分,其中包含单个字符的声音。
发布于 2020-04-16 05:37:44
我也有类似的问题,但使用其中一个增强模型能够获得完整的转录
config = {
...
use_enhanced: true,
model: "phone_call"
}你可以在上面查看更多信息:https://cloud.google.com/speech-to-text/docs/phone-model
https://stackoverflow.com/questions/40179169
复制相似问题