我正在Python中分析音频文件,特别是音乐音频,我已经应用了快速傅立叶变换(/local)来获得频域中的数据,但无论如何搜索或摆弄它,都显示出了一种识别频率中的“峰值”FFT最大值的好方法。我的数据非常嘈杂,下面是应用傅立叶变换后的图形示例。如果能帮上忙,我会很感激的。我也在考虑从这些数据中检索MFCC系数,但我也不确定如何去做,所以关于这个主题的知识也会很有用。

发布于 2016-12-08 23:15:34
首先,您需要通过运行低通滤波来平滑(fft)数据。在那之后,你可以在信号的梯度上找到零交叉。您可以使用-1,1过滤信号以找到梯度,并选取其前一个为正,后一个为负的元素。
https://stackoverflow.com/questions/40581591
复制相似问题