问减少MFCC输出
EN

Stack Overflow用户

提问于 2018-11-15 12:23:53

回答 1查看 138关注 0票数 0

我正在尝试使用python库分析歌曲音频，输出是一个numpy数组，该数组的大小非常大，因为MFCC是为音频的每一帧计算的。当我将此输出写入文件时，每首歌曲的输出大小约为3-4MB。有没有一种方法可以将N帧信息减少到一行特征中？

)

发布于 2018-12-02 10:55:05

一种常见的做法是将连续的帧分组到序列窗口中，计算每个纹理窗口上的聚集统计信息，然后使用聚集统计信息再次进行汇总。

统计信息是按输入特征计算的(在您的示例中为MFCC频段)。示例统计函数可以是平均值、标准差、最小值、最大值。纹理大小可以在1-60秒之间。

请参阅Low-level features and timbre, Juan Pablo Bello, MPATE-GE 2623 Music Information Retrieval

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/53312411

复制

相似问题

问减少MFCC输出EN