首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >基于Microsoft认知的实时说话人识别

基于Microsoft认知的实时说话人识别
EN

Stack Overflow用户
提问于 2016-10-07 14:51:42
回答 2查看 1.6K关注 0票数 2

我正在尝试构建一个应用程序,通过使用Microsoft认知说话人识别API来解决说话人的数字化问题。

查看样本工程并阅读API文档,我知道识别应该完成,将一个wav文件发送到服务,这违背了我的实时目标。

有人对此做过研究吗?使用这些API可行吗?还是我应该另找一条路?

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2016-10-11 09:43:09

没有流的方法,就像Google在语音API上所做的那样。要注册新的配置文件,不需要30秒。在我最近的实践中,我取得了10秒的成功结果。MS的核心问题是对多个扬声器的限制。你必须找到自己的方法,如何把它们分割成不同的音轨。否则它就会认出第一个已知的声音。

票数 0
EN

Stack Overflow用户

发布于 2016-10-09 10:16:51

注册需要30秒的数据。一旦您有了用户配置文件,您就可以从1秒的示例中识别用户,这样您就可以在非常小的延迟范围内几乎实时地完成此操作。要使用它,您需要设置shortAudio参数。很难想象识别比这更快。

如果您需要一些不同的东西,就有一些开源的语音工具包,比如卡尔迪,它们可以做更灵活的事情。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/39920134

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档