我们在语音域中可以使用的最佳聚类方法是什么?
例如,如果我们有来自多个说话者的语音发声,并且我们需要将它们聚类到特定的篮子中,其中每个篮子对应一个speaker.For,那么我们可以使用的最佳聚类算法是什么?
发布于 2021-08-03 13:34:10
我建议使用RNN-LSTM。有一个很好的教程解释了如何使用这个神经网络来进行音乐流派分类。我看过了,很难理解:
首先,你必须理解你的音频数据(ahere)。在这个链接中,他解释了MFCC (Mel频率倒谱系数),它允许您将音频数据的特征提取到谱图中。在下图中,MFCC的每个振幅代表音频的一个特征(例如,扬声器语音的特征)。

然后,你必须对分类样本的数据进行预处理(practical example
希望你喜欢这些链接,它们对我真的很有帮助,而且肯定会解决你的问题。
https://stackoverflow.com/questions/60559163
复制相似问题