我正在寻找一种从音频中提取特征的方法,其中我说了一个数字,用于使用神经网络的反向传播对数字1-10进行语音识别(每个数字10个样本,每个数字5个样本用于测试)。
我尝试使用原始音频数据,也尝试在fft之后输入数据,并仅使用前十个频率输入数据,但失败了。
你能建议一种方法来提取音频的特征,以帮助神经网络获得合理的结果吗?这是一个简单的项目,所以我的目标不是非常高的性能,而是一个合理的性能来证明这种网络的学习能力。
发布于 2015-05-18 16:07:47
你为什么不试试MFCC呢?MFCCs是ASR中事实上的标准。它们在设计时并没有考虑到DNN,但它们被证明可以与其他几个ASR实现一起工作(最值得注意的是,嗯)。
https://stackoverflow.com/questions/30267441
复制相似问题