我开始使用google speech api来转录音频。
正在转录的音频包含许多一个接一个地说出的数字。
例如:273298
但转录结果是270-3298
我的猜测是,它正在将其解释为某种电话号码。
我想要的是未解析的输出,例如“2732998”,我可以自己处理和解析。
这类东西有没有设置或支持?
谢谢
发布于 2018-08-09 09:04:59
所以我也遇到了同样的问题,我想我们找到了解决方案。如果您使用英语作为输入,则在处理数字时切换到en-PH。然后,谷歌将不会将结果格式化为美国电话号码,也不会试图在其中插入额外的数字。
发布于 2017-02-11 13:30:50
尝试传递带有一些短语提示的语音上下文。如何使用它在这里有文档:https://cloud.google.com/speech/docs/basics#phrase-hints
给出你想要识别的拼写数字。
"speech_context": {
"phrases":["zero", "one", "two", ... "nine", "ten", "eleven", ... "twenty", "thirty,..., "ninety"]
}这并不能保证有效,但它可能会有所帮助。
发布于 2018-05-14 23:35:21
根据记录,我尝试了上面的blambert的解决方案,不幸的是,它不起作用。我最近发布了另一个问题,看看是否有人找到了击败这种行为的方法,因为它阻止了我实现我计划的转录服务。
https://stackoverflow.com/questions/39893742
复制相似问题