首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >个人语音识别/识别

个人语音识别/识别
EN

Stack Overflow用户
提问于 2012-03-05 18:28:31
回答 3查看 9.1K关注 0票数 3

我想要录制某人的声音,然后从我获得的关于他/她的声音的信息中,我可以识别出这个人是否还在说话!问题是,我没有关于什么统计数据(如频率)导致人类声音差异的信息,如果有人可以帮助我如何识别某人的声音?

当我在研究的时候,我发现了各种关于语音识别的库,但它们对我没有帮助,因为我的问题非常简单!我只想认出那个说话的人,而不是他在说什么。

EN

回答 3

Stack Overflow用户

回答已采纳

发布于 2012-03-05 18:45:25

这里可能会有一些帮助:基于开源快速傅立叶变换库( http://www.exocortex.org/dsp/ )的http://www.generation5.org/content/2004/noReco.asp,它提供了一些关于如何进行说话人验证的建议。

票数 2
EN

Stack Overflow用户

发布于 2012-03-05 19:15:08

你描述的问题并不简单,因为同一个人的声音可能听起来不同(例如,如果这个人患了伤风等)。和/或如果这个人说得更大/更快/更慢等等。

另一点是与其他声音(背景,其他声音等)的分离。

录音设备的质量非常重要-一些系统使用多个麦克风来实现良好的效果……

总而言之,这不是一件容易的事情。如果你想达到一个好的检测率。

基本上实现这一点的方法是:

根据理想的声音设置,使用您要识别的语音的指纹来实现稳健的声音/声音模式separation

  • implement a DB extraction

  • create a DB

  • 定义一种算法,用于比较您存储的指纹和提取/归一化的声音/声音模式(有一些“可能相等”的阈值等)

,直到您的算法达到可接受的检测率(也要考虑误报率!)

有关更好的概述,请参阅http://www.scholarpedia.org/article/Speaker_recognition

票数 3
EN

Stack Overflow用户

发布于 2012-11-20 06:44:00

请参阅VoiceID for Linux。它使用Sphinx和其他库,安装非常简单。

票数 3
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/9565082

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档