我是信号分析的初学者。我想提取声音的MFCC,因为我读到MFCC是自动语音识别的一个很好的参数。因此,我在RStudio中尝试了如下所示:
wl=512
ncep=13
mfcc.peewit <- melfcc(peewit,sr=peewit@samp.rate,wintime = wl/f,hoptime = wl/f,numcep = ncep,
nbands = ncep*2,fbtype = "htkmel",dcttype = "t3",htklifter = TRUE,
lifterexp = ncep-1,frames_in_rows = FALSE,spec_out = TRUE)它产生了一个13*30的数据帧,我对MFCC的输出感到困惑。我认为MFCC应该是13个实际数字,但这里我得到了一个数据帧,这个数据帧是MFCC吗?还是我做错了什么?或者,我在其他地方读到了这篇文章," 13 *30“中的13是13个系数的离散表示,对吗?
感谢您提前给我回复。
发布于 2020-05-05 16:13:44
音频信号是时间序列。每跳将有一组MFCC系数。语音的典型跳跃时间可能在20-50毫秒左右。13维是MFCC,30维是时间。
https://stackoverflow.com/questions/61344257
复制相似问题