首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >减少MFCC输出

减少MFCC输出
EN

Stack Overflow用户
提问于 2018-11-15 12:23:53
回答 1查看 138关注 0票数 0

我正在尝试使用python库分析歌曲音频,输出是一个numpy数组,该数组的大小非常大,因为MFCC是为音频的每一帧计算的。当我将此输出写入文件时,每首歌曲的输出大小约为3-4MB。有没有一种方法可以将N帧信息减少到一行特征中?

)

EN

回答 1

Stack Overflow用户

发布于 2018-12-02 10:55:05

一种常见的做法是将连续的帧分组到序列窗口中,计算每个纹理窗口上的聚集统计信息,然后使用聚集统计信息再次进行汇总。

统计信息是按输入特征计算的(在您的示例中为MFCC频段)。示例统计函数可以是平均值、标准差、最小值、最大值。纹理大小可以在1-60秒之间。

请参阅Low-level features and timbre, Juan Pablo Bello, MPATE-GE 2623 Music Information Retrieval

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/53312411

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档