文章/答案/技术大牛

发布

社区首页 >问答首页 >基于Microsoft认知的实时说话人识别

问基于Microsoft认知的实时说话人识别
EN

Stack Overflow用户

提问于 2016-10-07 14:51:42

回答 2查看 1.6K关注 0票数 2

我正在尝试构建一个应用程序，通过使用Microsoft认知说话人识别API来解决说话人的数字化问题。

查看样本工程并阅读API文档，我知道识别应该完成，将一个wav文件发送到服务，这违背了我的实时目标。

有人对此做过研究吗？使用这些API可行吗?还是我应该另找一条路？

.net

voice-recognition

microsoft-cognitive

回答 2

Stack Overflow用户

回答已采纳

发布于 2016-10-11 09:43:09

没有流的方法，就像Google在语音API上所做的那样。要注册新的配置文件，不需要30秒。在我最近的实践中，我取得了10秒的成功结果。MS的核心问题是对多个扬声器的限制。你必须找到自己的方法，如何把它们分割成不同的音轨。否则它就会认出第一个已知的声音。

票数 0

Stack Overflow用户

发布于 2016-10-09 10:16:51

注册需要30秒的数据。一旦您有了用户配置文件，您就可以从1秒的示例中识别用户，这样您就可以在非常小的延迟范围内几乎实时地完成此操作。要使用它，您需要设置shortAudio参数。很难想象识别比这更快。

如果您需要一些不同的东西，就有一些开源的语音工具包，比如卡尔迪，它们可以做更灵活的事情。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/39920134

复制

相似问题

问基于Microsoft认知的实时说话人识别
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问基于Microsoft认知的实时说话人识别EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问基于Microsoft认知的实时说话人识别
EN