我想要录制某人的声音,然后从我获得的关于他/她的声音的信息中,我可以识别出这个人是否还在说话!问题是,我没有关于什么统计数据(如频率)导致人类声音差异的信息,如果有人可以帮助我如何识别某人的声音?
当我在研究的时候,我发现了各种关于语音识别的库,但它们对我没有帮助,因为我的问题非常简单!我只想认出那个说话的人,而不是他在说什么。
发布于 2012-03-05 18:45:25
这里可能会有一些帮助:基于开源快速傅立叶变换库( http://www.exocortex.org/dsp/ )的http://www.generation5.org/content/2004/noReco.asp,它提供了一些关于如何进行说话人验证的建议。
发布于 2012-03-05 19:15:08
你描述的问题并不简单,因为同一个人的声音可能听起来不同(例如,如果这个人患了伤风等)。和/或如果这个人说得更大/更快/更慢等等。
另一点是与其他声音(背景,其他声音等)的分离。
录音设备的质量非常重要-一些系统使用多个麦克风来实现良好的效果……
总而言之,这不是一件容易的事情。如果你想达到一个好的检测率。
基本上实现这一点的方法是:
根据理想的声音设置,使用您要识别的语音的指纹来实现稳健的声音/声音模式separation
,直到您的算法达到可接受的检测率(也要考虑误报率!)
有关更好的概述,请参阅http://www.scholarpedia.org/article/Speaker_recognition
发布于 2012-11-20 06:44:00
请参阅VoiceID for Linux。它使用Sphinx和其他库,安装非常简单。
https://stackoverflow.com/questions/9565082
复制相似问题