首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >为什么Google Speech Recognition API只返回音频的前2-3秒转换文本

为什么Google Speech Recognition API只返回音频的前2-3秒转换文本
EN

Stack Overflow用户
提问于 2016-10-21 22:24:32
回答 2查看 2.3K关注 0票数 3

我在Google Cloud控制台中创建了一个项目,并在此项目中启用了Google Speech API,并创建了凭据。也使用了谷歌推荐的transcribe.py,

https://cloud.google.com/speech/docs/samples

https://github.com/GoogleCloudPlatform/python-docs-samples/tree/master/speech

https://github.com/GoogleCloudPlatform/python-docs-samples/blob/master/speech/api-client/transcribe.py

我可以使用由谷歌控制台生成的API密钥成功地将音频文件(30秒)转换为文本,但不完全,只有2-3秒。我的账号现在是免费试用,所以我怀疑是不是因为我的账号类型(免费试用)。

来自谷歌的回复是这样的:{"results":[{"alternatives":{"confidence":0.89569235,"transcript":“我在森林里野餐了,我要回家了,跟我来”}

音频文件为wav文件,格式为#0:0: Audio: pcm_s16le (1 / 0x0001),16000 Hz,1声道,s16,256kb/s

音频文件已经上传到谷歌硬盘,链接在这里https://drive.google.com/file/d/0B3koIsnLksOLQXhvQ1ljS0dDXzg/view?usp=sharing

有人知道上面的流程/步骤有什么问题吗?或者这是google语音识别api的bug?

EN

回答 2

Stack Overflow用户

发布于 2016-11-15 06:45:20

使用Google APIs Explorer和Cloud Speech API服务,可以通过分析音频文件的单独样本来隔离以下相关的语音识别结果:

  • Cut 1:0- 00'08"015,结果9:“我在森林里野餐了,要回家了,跟我来吧”
  • Cut 2: 00'08"732 - 00'11"184,结果2:听什么“
  • Cut 3:00‘13”500-直到结束,结果2:"what is it look"

这些结果是使用以下配置获得的:

代码语言:javascript
复制
“config”: {
    “encoding”: “LINEAR16”,
    “sampleRate”: 16000,
    “maxAlternatives”: “30”,
}

事实上,当前测试版的speech API存在已知问题,因此可能会阻止转录正常工作(无论该帐户是付费还是免费试用)。如以下best practices中所述,在您的情况下需要考虑两个问题:

  1. 在整个语音录音过程中播放背景音乐,这可能会产生足够的背景噪声,从而降低转录的准确性。(请注意,Speech API旨在转录用户口述到应用程序的microphone)
  2. As的文本。此外,建议在从多个人捕获音频时拆分音频。在你的例子中,青蛙的声音可能会被检测到是不同的人类声音,因此也会影响转录的准确性。

考虑到这两个已知问题,重要的是去除任何噪声,只处理来自录音主角的统一语音。或者,您可以拆分录音,并尝试分别转录录音的每个单独部分,其中包含单个字符的声音。

票数 2
EN

Stack Overflow用户

发布于 2020-04-16 05:37:44

我也有类似的问题,但使用其中一个增强模型能够获得完整的转录

代码语言:javascript
复制
config = {
  ...
  use_enhanced: true,
  model: "phone_call"
}

你可以在上面查看更多信息:https://cloud.google.com/speech-to-text/docs/phone-model

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/40179169

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档