文章/答案/技术大牛

发布

社区首页 >问答首页 >为什么Google Speech Recognition API只返回音频的前2-3秒转换文本

问为什么Google Speech Recognition API只返回音频的前2-3秒转换文本
EN

Stack Overflow用户

提问于 2016-10-21 22:24:32

回答 2查看 2.3K关注 0票数 3

我在Google Cloud控制台中创建了一个项目，并在此项目中启用了Google Speech API，并创建了凭据。也使用了谷歌推荐的transcribe.py，

https://cloud.google.com/speech/docs/samples

https://github.com/GoogleCloudPlatform/python-docs-samples/tree/master/speech

https://github.com/GoogleCloudPlatform/python-docs-samples/blob/master/speech/api-client/transcribe.py

我可以使用由谷歌控制台生成的API密钥成功地将音频文件(30秒)转换为文本，但不完全，只有2-3秒。我的账号现在是免费试用，所以我怀疑是不是因为我的账号类型(免费试用)。

来自谷歌的回复是这样的：{"results"：[{"alternatives"：{"confidence"：0.89569235，"transcript"：“我在森林里野餐了，我要回家了，跟我来”}

音频文件为wav文件，格式为#0:0: Audio: pcm_s16le (1 / 0x0001)，16000 Hz，1声道，s16,256kb/s

音频文件已经上传到谷歌硬盘，链接在这里https://drive.google.com/file/d/0B3koIsnLksOLQXhvQ1ljS0dDXzg/view?usp=sharing

有人知道上面的流程/步骤有什么问题吗？或者这是google语音识别api的bug？

python

google-cloud-platform

google-speech-api

回答 2

Stack Overflow用户

发布于 2016-11-15 06:45:20

使用Google APIs Explorer和Cloud Speech API服务，可以通过分析音频文件的单独样本来隔离以下相关的语音识别结果：

Cut 1:0- 00'08"015，结果9：“我在森林里野餐了，要回家了，跟我来吧”
Cut 2: 00'08"732 - 00'11"184，结果2:听什么“
Cut 3:00‘13”500-直到结束，结果2："what is it look"

这些结果是使用以下配置获得的：

“config”: {
    “encoding”: “LINEAR16”,
    “sampleRate”: 16000,
    “maxAlternatives”: “30”,
}

事实上，当前测试版的speech API存在已知问题，因此可能会阻止转录正常工作(无论该帐户是付费还是免费试用)。如以下best practices中所述，在您的情况下需要考虑两个问题：

在整个语音录音过程中播放背景音乐，这可能会产生足够的背景噪声，从而降低转录的准确性。(请注意，Speech API旨在转录用户口述到应用程序的microphone)
As的文本。此外，建议在从多个人捕获音频时拆分音频。在你的例子中，青蛙的声音可能会被检测到是不同的人类声音，因此也会影响转录的准确性。

考虑到这两个已知问题，重要的是去除任何噪声，只处理来自录音主角的统一语音。或者，您可以拆分录音，并尝试分别转录录音的每个单独部分，其中包含单个字符的声音。

票数 2

Stack Overflow用户

发布于 2020-04-16 05:37:44

我也有类似的问题，但使用其中一个增强模型能够获得完整的转录

config = {
  ...
  use_enhanced: true,
  model: "phone_call"
}

你可以在上面查看更多信息：https://cloud.google.com/speech-to-text/docs/phone-model

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/40179169

复制

相似问题

问为什么Google Speech Recognition API只返回音频的前2-3秒转换文本
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问为什么Google Speech Recognition API只返回音频的前2-3秒转换文本EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问为什么Google Speech Recognition API只返回音频的前2-3秒转换文本
EN