我已经构建了一个简单的CNN单词检测器,当使用1秒的.wav作为输入时,它能够准确地预测给定的单词。按照标准,我使用音频文件的MFCC作为CNN的输入。
然而,我的目标是能够将其应用于具有多个单词的较长音频文件,并使模型能够预测是否以及何时说出给定的单词。我一直在网上搜索最好的方法,但似乎碰壁了,如果答案可以很容易地通过谷歌找到,我真的很抱歉。
我的第一个想法是将音频文件切成几个1秒长的窗口,这些窗口彼此相交-

然后将每个窗口转换为MFCC,并将其用作模型预测的输入。
我的第二个想法是在尝试隔离每个单词时使用声母检测,如果单词<1秒,则添加填充,然后将这些作为模型预测的输入。
我说得太离谱了吗?任何参考或建议都将不胜感激。谢谢。
发布于 2019-05-22 06:57:33
将音频分割成分析窗口是可行的。使用一些重叠是很常见的。可以首先计算MFCC特征,然后使用整数个帧进行分割,使您最接近所需的窗口长度(1s)。
https://stackoverflow.com/questions/55874826
复制相似问题