文章/答案/技术大牛

发布

社区首页 >问答首页 >基于CNN的长格式音频关键词识别特征提取

问基于CNN的长格式音频关键词识别特征提取
EN

Stack Overflow用户

提问于 2019-04-27 04:55:01

回答 1查看 466关注 0票数 1

我已经构建了一个简单的CNN单词检测器，当使用1秒的.wav作为输入时，它能够准确地预测给定的单词。按照标准，我使用音频文件的MFCC作为CNN的输入。

然而，我的目标是能够将其应用于具有多个单词的较长音频文件，并使模型能够预测是否以及何时说出给定的单词。我一直在网上搜索最好的方法，但似乎碰壁了，如果答案可以很容易地通过谷歌找到，我真的很抱歉。

我的第一个想法是将音频文件切成几个1秒长的窗口，这些窗口彼此相交-

然后将每个窗口转换为MFCC，并将其用作模型预测的输入。

我的第二个想法是在尝试隔离每个单词时使用声母检测，如果单词<1秒，则添加填充，然后将这些作为模型预测的输入。

我说得太离谱了吗？任何参考或建议都将不胜感激。谢谢。

speech-recognition

librosa

python

keras

回答 1

Stack Overflow用户

回答已采纳

发布于 2019-05-22 06:57:33

将音频分割成分析窗口是可行的。使用一些重叠是很常见的。可以首先计算MFCC特征，然后使用整数个帧进行分割，使您最接近所需的窗口长度(1s)。

有关示例代码，请参阅How to use a context window to segment a whole log Mel-spectrogram (ensuring the same number of segments for all the audios)?

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/55874826

复制

相似问题

问基于CNN的长格式音频关键词识别特征提取
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问基于CNN的长格式音频关键词识别特征提取EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问基于CNN的长格式音频关键词识别特征提取
EN