因此,我使用python中的Librosa库,通过MFCC提取了一个音频文件特征。代码如下所示:
signal, sample_rate = librosa.load('../audio_train/down/00176480_nohash_0.wav', sr=22050)
mfcc = librosa.feature.mfcc(signal, sr=sample_rate, n_mfcc=13)
np.mean(mfcc.T, axis=0)我的问题是,为什么我们必须转置并获得MFCC的平均值?
发布于 2021-09-02 07:19:45
取转置的MFCC的平均值显示随时间变化的mel系数的平均能量。这有时有助于更好地可视化特征能量差如何沿时间轴分布。
例如,下图的(a)显示了一些噪声的21阶mel谱,(b)显示了每个时间帧的平均能量。这种可视化有助于区分在1.25s和1.5s之间记录的人类声音。

正如评论中提到的,这不是强制性的,这完全是基于你的情况。
该数据摘自以下出版物。
毕崇光等。"Familylog:一种监控家庭用餐时间活动的移动系统“,2017 IEEE普及计算和通信国际会议(PerCom)。IEEE,2017。
https://stackoverflow.com/questions/68869516
复制相似问题