我计算了一首30秒的歌曲的MFCC,帧大小为25ms,跳跃大小为10ms,采样率为22050
spectro=librosa.feature.melspectrogram(track[1], sr=sampleRate, n_fft=int(sampleRate*0.025), hop_length=int(sampleRate*0.01))
frames_mfcc=librosa.feature.mfcc(track[1], S=spectro, sr=sampleRate, n_mfcc=13)然后,我对同一首歌的1秒片段做了同样的事情。但是,当我在带有滑动窗口的长歌中搜索短歌的系数时,我永远得不到完美或相当完美的匹配。
可能的问题是什么?我错过了什么吗?
发布于 2018-10-28 20:52:30
刚刚进入这个问题,所以试着回答。首先,你需要去频域。这是通过快速傅立叶变换完成的。在你的例子中有22050个点,如果你想要它们在频率方面,它们必须在时间方面定义。所以如果你错过了一个-因为整数舍入为二进制表示...结果可能有所不同。
https://stackoverflow.com/questions/49196184
复制相似问题