首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何检测是谁在说话?

如何检测是谁在说话?
EN

Stack Overflow用户
提问于 2013-03-20 04:46:48
回答 3查看 3.4K关注 0票数 2

我正在为我们的工作场所开发一个项目,用来操纵我们的环境,比如灯光、咖啡机、打印机等等,我不想知道如何才能检测到谁在和我们的系统说话。

我正在使用Speech.Recognition库与C#一起构建项目。

到目前为止,我已经成功地捕获了命令并执行了一些简单的事情,但是我想进一步检测这个人,所以如果一个人(例如"John“)正在说话,那么当他说"Hi system”时,系统会记录正在说话的人并响应"Hi John!“在那之后,它只识别“John”的语音命令,而忽略不同的声音。

EN

回答 3

Stack Overflow用户

发布于 2013-03-20 06:04:39

你想做的是Voice Biometrics,这是一个难题,像Nuance (http://www.nuance.com/for-business/by-solution/customer-service-solutions/solutions-services/inbound-solutions/voice-authentication-biometrics/index.htm)这样的公司已经解决了。不过,我相信有开源/研究解决方案。

一个很好的项目(用Java语言),例如:http://sourceforge.net/projects/marf/

票数 4
EN

Stack Overflow用户

发布于 2013-06-09 15:55:42

您正在请求语音识别或语音验证,这是语音分析的众多用途之一。注意,语音识别远不是完美的

你首先需要训练数据和算法,你可以从这些数据和算法中推导出说话人的统计模型。稍后,在识别/验证阶段,您将尝试将输入数据与统计模型进行拟合,并确定阈值,该阈值决定说话人是否已知。如果你想自己实现或者只是寻找更多的技术信息,一些关键字是Mel频率倒谱系数,高斯混合模型和隐马尔可夫模型

一个有趣的工具可能是。它不能直接作为库使用,但是ICSI的人们已经编写了一个名为praatlib的包装器。它提取语音特征,如共振峰频率,基音等。ICSI使用它来区分录音中的说话人(这称为二分法)。

有相当多的免费工具可用,但所有这些都需要对统计数据、语音分析和大量时间的深入理解,以便理解通常文档不足的学术代码。您应该关注的一些有趣的项目是 (Java)和 (C++)。Sphinx有很好的文档,SHoUT有一篇论文,如果你发现自己对理论细节提出质疑,你可以阅读。

票数 2
EN

Stack Overflow用户

发布于 2013-03-20 04:51:20

您需要使每个用户都是唯一的。

你可以通过拥有一个用户池,并使用你的Recog库...将其独特的语音属性(音高、级别等)存储到所述池中,然后让您的软件识别这些属性,并相应地执行。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/15510109

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档