问如何提高Google对分隔数字的语音识别精度
EN

Stack Overflow用户

提问于 2018-07-17 16:32:36

回答 1查看 753关注 0票数 2

我们将此图像提供给我们的用户：

这张图片代表了不同的数字。我们所有的用户都在麦克风里读到了"11-0-9-5“。

我们使用Google语音引擎，它解释这个结果：

"1109 5“。

这使得我们不可能将所说的话与预期结果进行比较。我们被困在了这个阶段。

有没有一种方法可以让谷歌的语音识别系统从字面上理解语音数字，并将它们分开，而不是将它们连接在一起？

发布于 2018-07-17 17:02:22

您可以尝试使用语音上下文，以便将GoogleSpeechEngine约束为坚持使用预定义的数字。https://cloud.google.com/speech-to-text/docs/reference/rest/v1/RecognitionConfig#SpeechContext

因此，如果您指定0,1,2,3,4,5,6,7,8,9,10,11作为可能的短语，google不应该返回1109，因为它不在上下文中。

但是，使用此方法时，您必须列出所有可能的值，这可能会很繁琐。有些案子是不会解决的。例如，如果有人将11作为1-1。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/51376672

复制

相似问题

问如何提高Google对分隔数字的语音识别精度EN