文章/答案/技术大牛

发布

问对MFCC处理感到困惑
EN

Stack Overflow用户

提问于 2021-08-21 01:46:04

回答 1查看 78关注 0票数 0

因此，我使用python中的Librosa库，通过MFCC提取了一个音频文件特征。代码如下所示：

signal, sample_rate = librosa.load('../audio_train/down/00176480_nohash_0.wav', sr=22050)
mfcc = librosa.feature.mfcc(signal, sr=sample_rate, n_mfcc=13)
np.mean(mfcc.T, axis=0)

我的问题是，为什么我们必须转置并获得MFCC的平均值？

mfcc

python

audio

feature-extraction

librosa

回答 1

Stack Overflow用户

回答已采纳

发布于 2021-09-02 07:19:45

取转置的MFCC的平均值显示随时间变化的mel系数的平均能量。这有时有助于更好地可视化特征能量差如何沿时间轴分布。

例如，下图的(a)显示了一些噪声的21阶mel谱，(b)显示了每个时间帧的平均能量。这种可视化有助于区分在1.25s和1.5s之间记录的人类声音。

正如评论中提到的，这不是强制性的，这完全是基于你的情况。

该数据摘自以下出版物。

毕崇光等。"Familylog:一种监控家庭用餐时间活动的移动系统“，2017 IEEE普及计算和通信国际会议(PerCom)。IEEE，2017。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/68869516

复制

相似问题

问对MFCC处理感到困惑
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问对MFCC处理感到困惑EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问对MFCC处理感到困惑
EN