问数字语音识别中的特征提取
EN

Stack Overflow用户

提问于 2015-05-16 03:35:05

回答 1查看 160关注 0票数 0

我正在寻找一种从音频中提取特征的方法，其中我说了一个数字，用于使用神经网络的反向传播对数字1-10进行语音识别(每个数字10个样本，每个数字5个样本用于测试)。

我尝试使用原始音频数据，也尝试在fft之后输入数据，并仅使用前十个频率输入数据，但失败了。

你能建议一种方法来提取音频的特征，以帮助神经网络获得合理的结果吗？这是一个简单的项目，所以我的目标不是非常高的性能，而是一个合理的性能来证明这种网络的学习能力。

发布于 2015-05-18 16:07:47

你为什么不试试MFCC呢？MFCCs是ASR中事实上的标准。它们在设计时并没有考虑到DNN，但它们被证明可以与其他几个ASR实现一起工作(最值得注意的是，嗯)。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/30267441

复制

相似问题

问数字语音识别中的特征提取EN