首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >理解MFCC的输出

理解MFCC的输出
EN

Stack Overflow用户
提问于 2020-04-21 21:04:25
回答 1查看 124关注 0票数 0

我是信号分析的初学者。我想提取声音的MFCC,因为我读到MFCC是自动语音识别的一个很好的参数。因此,我在RStudio中尝试了如下所示:

代码语言:javascript
复制
wl=512
ncep=13
mfcc.peewit <- melfcc(peewit,sr=peewit@samp.rate,wintime = wl/f,hoptime = wl/f,numcep = ncep,
                      nbands = ncep*2,fbtype = "htkmel",dcttype = "t3",htklifter = TRUE,
                      lifterexp = ncep-1,frames_in_rows = FALSE,spec_out = TRUE)

它产生了一个13*30的数据帧,我对MFCC的输出感到困惑。我认为MFCC应该是13个实际数字,但这里我得到了一个数据帧,这个数据帧是MFCC吗?还是我做错了什么?或者,我在其他地方读到了这篇文章," 13 *30“中的13是13个系数的离散表示,对吗?

感谢您提前给我回复。

EN

回答 1

Stack Overflow用户

发布于 2020-05-05 16:13:44

音频信号是时间序列。每跳将有一组MFCC系数。语音的典型跳跃时间可能在20-50毫秒左右。13维是MFCC,30维是时间。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/61344257

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档