我一直在到处寻找某种形式的性别检测,通过读取音频文件的频率数据。我一直没有找到一个可以做到这一点的程序,或者甚至是任何可以输出音频数据的程序,所以我可以编写一个基本的程序来读取它,并操纵它来确定说话者的性别。
你们谁知道我在哪里能找到帮助我的东西吗?
重申一下,我基本上希望有一个程序,当一个人对着麦克风说话时,它会准确地说出说话者的性别。我的完整计划是在上面也有语音到文本的功能,这样程序就会写出演讲者所说的话,并给出一些关于演讲者的非常基本的人口统计数据。
*最好使用跨平台或支持linux的通用脚本语言。
发布于 2013-02-04 14:24:22
你会想要研究共振峰检测和线性预测编码。Heres a paper,它有一些信号流图,可以移植到scipy/numpy上。
发布于 2017-06-14 19:46:25
虽然这是一个古老的问题,但如果有人对从音频中进行性别检测感兴趣,你可以很容易地通过提取MFCC (梅尔频率倒谱系数)特征并使用机器学习模型GMM (高斯混合模型)进行建模。
人们可以遵循本教程,该教程实现了相同的方法,并在从谷歌的AudioSet性别数据中提取的子集上进行了评估。
https://stackoverflow.com/questions/14680422
复制相似问题