给定22 mins (1320 secs)的音频文件,Librosa通过data = librosa.feature.mfcc(y=None, sr=22050, S=None, n_mfcc=20, **kwargs)提取MFCC特性。
data.shape ( 20 , 56829 )它返回56829帧20个MFCC特征的numpy数组。
我的问题是它是如何计算56829的。是否有任何计算来实现这一框架?每个框架的窗口大小是多少?
发布于 2016-11-02 15:51:26
您可以指定跳长。
mfcc = librosa.feature.mfcc(y=y, sr=sr, hop_length=hop_length, n_mfcc=13)librosa使用居中帧,因此kth帧以样例k* hop_length为中心。
我认为默认跳值为512,数据为(1320*22050)/56829 =512 16
https://stackoverflow.com/questions/38149210
复制相似问题