我怎么能区分两个说话的人呢?例如,如果有人说"hello“,然后另一个人说"hello”,我应该在音频数据中查找哪种签名?周期性?
非常感谢能回答这个问题的人!
发布于 2013-12-24 18:05:39
解决这一问题的关键在于数字信号处理(DSP)。说话人识别是一个复杂的问题,它将计算机和通信工程结合在一起。大多数说话人识别技术都需要使用机器学习进行信号处理(通过说话人数据库进行训练,然后使用训练数据进行识别)。可遵循的算法大纲-
对原始格式的音频进行
有两个开源实现可以实现说话人识别- ALIZE:http://mistral.univ-avignon.fr/index_en.html和MARF:http://marf.sourceforge.net/。
我知道现在回答这个问题有点晚了,但我希望有人能发现它是有用的。
发布于 2011-01-29 23:08:47
这是一个极其困难的问题,即使对于语音和信号处理专家来说也是如此。这个页面有更多的信息:http://en.wikipedia.org/wiki/Speaker_recognition
以及一些建议的技术起点:
用于处理和存储声纹的各种技术包括频率估计、隐马尔可夫模型、高斯混合模型、模式匹配算法、神经网络、矩阵表示、矢量量化和决策树。一些系统还使用“反扬声器”技术,例如队列模型和世界模型。
发布于 2011-01-30 00:53:50
只有两个人来区分,如果他们说的是相同的单词或短语,这将使这变得更容易。我建议从简单的东西开始,只在需要的时候增加复杂性。
首先,我会尝试数字波形的样本计数,按时间和幅度或(如果你手边有软件功能)整个话语的FFT。我也会首先考虑一个基本的建模过程,比如线性判别式(或者你已经有的任何东西)。
https://stackoverflow.com/questions/4837511
复制相似问题