我正在使用python中的Librosa从GTZAN数据集中提取对数Mel谱图。我的代码是-
data, sampling_rate = librosa.load(os.path.join(dir, folder, file), )
mel = librosa.feature.melspectrogram(y=data, hop_length = 512//2, n_fft = 512, n_mels = 64)
mel = librosa.power_to_db(mel**2)嗯,它工作得很完美。但是,每个Mel谱图的大小是不同的。大多数对数Mel谱图的大小为2586,其中少数大小为2590到2620。
我在Mel光谱图上检查了日志的大小不同。当记录所有音频都是相同长度时,它们的大小是如何不同的…
有什么建议吗,谢谢
发布于 2019-12-07 19:05:57
可能音频文件在长度上有细微的变化。这种情况经常发生在数据集中。您可能应该将所有光谱图截断为最短的公共长度(2586)。
mel = mel[:,0:2586]https://stackoverflow.com/questions/58742096
复制相似问题