我正在尝试使用python库分析歌曲音频,输出是一个numpy数组,该数组的大小非常大,因为MFCC是为音频的每一帧计算的。当我将此输出写入文件时,每首歌曲的输出大小约为3-4MB。有没有一种方法可以将N帧信息减少到一行特征中?

)
发布于 2018-12-02 10:55:05
一种常见的做法是将连续的帧分组到序列窗口中,计算每个纹理窗口上的聚集统计信息,然后使用聚集统计信息再次进行汇总。
统计信息是按输入特征计算的(在您的示例中为MFCC频段)。示例统计函数可以是平均值、标准差、最小值、最大值。纹理大小可以在1-60秒之间。
请参阅Low-level features and timbre, Juan Pablo Bello, MPATE-GE 2623 Music Information Retrieval
https://stackoverflow.com/questions/53312411
复制相似问题