我们将此图像提供给我们的用户:
这张图片代表了不同的数字。我们所有的用户都在麦克风里读到了"11-0-9-5“。
我们使用Google语音引擎,它解释这个结果:
"1109 5“。
这使得我们不可能将所说的话与预期结果进行比较。我们被困在了这个阶段。
有没有一种方法可以让谷歌的语音识别系统从字面上理解语音数字,并将它们分开,而不是将它们连接在一起?
发布于 2018-07-17 17:02:22
您可以尝试使用语音上下文,以便将GoogleSpeechEngine约束为坚持使用预定义的数字。https://cloud.google.com/speech-to-text/docs/reference/rest/v1/RecognitionConfig#SpeechContext
因此,如果您指定0,1,2,3,4,5,6,7,8,9,10,11作为可能的短语,google不应该返回1109,因为它不在上下文中。
但是,使用此方法时,您必须列出所有可能的值,这可能会很繁琐。有些案子是不会解决的。例如,如果有人将11作为1-1。
https://stackoverflow.com/questions/51376672
复制相似问题