我计划建立一个平台,通过说和检查IBM语音到文本API返回的信心水平(如果低于85%的话,他们应该再试一次)来开发用户的语音。我可以在这个场景中使用'word_confidence‘,还是不应该以这种方式使用?
发布于 2019-03-15 10:02:31
这是值得一试的,但我可以看到一些障碍。
你将如何解释口音和方言?南方口音和中西部口音一样可以理解,也是正确的.
如果您只发出一个要处理的单词语音文件,那么STT服务将无法利用上下文来确定实际说了什么单词,而同音词将是特别棘手的。
你有两个选择:
1.word_alternatives作为替代选项的一部分,但是您将在所有替代响应中获得对所有单词的信心水平。
2.关键词匹配置信度。这很可能是你最好的选择。
发布于 2019-03-18 11:24:41
这是个很好的项目。值得一试。
@chughts的解释是正确的,我在IBM中遇到了带有口音的问题。
如果IBM不是您的约束,那么您可能需要使用Google的语音API。它给你带来了大量的口音。对于我来说,用例总是有更高的准确性(置信水平)。
但是,由于你的目标本身取决于“信心水平”,那么它(谷歌语音评论)可能会成为你的正反两面。
https://stackoverflow.com/questions/55175859
复制相似问题