我看到了一些奇怪的行为,语音识别API有时会返回单词,有时会返回数字。例如,给定音频输入“15美元7美分”,它有时会返回“15美元7美分”,而其他时候返回“15.07美元”。有没有办法确保返回一个或另一个?或者,我需要自己解析单词并将其转换为数字。
谢谢!
发布于 2017-02-08 02:27:42
我刚刚调查了类似的问题,发现BingSTT接口在不同的字段中返回两个版本。我刚刚使用这里的示例代码https://github.com/Microsoft/Cognitive-Speech-STT-JavaScript尝试了您的示例,并获得了以下响应:
[{
"lexical": "fifteen dollars and seven cents",
"display": "$15.07.",
"inverseNormalization": null,
"maskedInverseNormalization": null,
"transcript": "$15.07.",
"confidence": 0.9474185
}]所以我猜你可以选择使用哪个字段,lexical还是display。希望这能有所帮助。
https://stackoverflow.com/questions/39374890
复制相似问题