我目前正在使用W3C Web Speech API的西班牙语和普通话。总体而言,识别是可以的,但有许多错误(特别是对于单个单词),有时转录的西班牙语单词会随意添加重音,例如lo siento ==> lo síento。
我正在考虑切换到更健壮、更准确的API,并找到了Google Speech API。虽然Web Speech API是免费的,但我更愿意花钱来提高准确性(更低的错误率)。一般来说,我不需要转录长音频文件(通常最多6-8个单词的句子,但最多1-4个单词的句子),并打算从浏览器进行这些调用。
我找不到关于这两个API性能的文档,因此任何帮助做出切换的决定都将是有帮助的。
发布于 2019-09-11 16:03:57
Google speech api也不是完美的,你可以从专业的解决方案中获得最大的准确性。
直接从浏览器调用并不是Google Speech API的真正选择,因为你必须在浏览器中公开你的API密钥,这不是一个好主意,无论如何你都必须维护一个服务器基础设施。
https://stackoverflow.com/questions/57876337
复制相似问题