文章/答案/技术大牛

发布

社区首页 >问答首页 >用于音频的卷积神经网络

问用于音频的卷积神经网络
EN

Stack Overflow用户

提问于 2014-03-18 05:28:14

回答 2查看 20.8K关注 0票数 34

我一直在学习关于DeepLearning.net的教程，以学习如何实现从图像中提取特征的卷积神经网络。本教程解释得很好，易于理解和遵循。

我想扩展相同的CNN，同时从视频(图像+音频)中提取多模态特征。

我知道视频输入只不过是在一段时间内显示的一系列图像(像素强度)。30 FPS)与音频相关。然而，我并不真正理解什么是音频，它是如何工作的，或者它是如何分解成网络的。

我读过几篇关于这个主题的论文(多模特征提取/表示)，但是没有人解释过音频是如何输入到网络中的。

此外，我从我的研究中了解到，多模态表征是我们大脑真正运作的方式，因为我们没有刻意过滤掉我们的感官来实现理解。这一切都是在我们不知道的情况下同时发生的(联合代表)。一个简单的例子是，如果我们听到狮子的咆哮声，我们会立刻形成狮子的心理形象，感受危险，反之亦然。我们大脑中会激发多种神经模式，以全面了解狮子的长相、声音、感觉、气味等。

上面提到的是我的最终目标，但就目前而言，为了简单起见，我正在分解我的问题。

如果有人能了解音频是如何分解的，然后再用卷积神经网络来表示，我会非常感激。我也会感谢你的想法，关于多模式同步，联合申述，以及什么是正确的方式训练一个CNN与多模数据。

编辑：我发现音频可以用光谱图来表示。它是音频的通用格式，并表示为具有两个几何尺寸的图形，其中水平线代表时间，垂直表示频率。

是否可以在这些光谱图上使用同样的技术来处理图像？换句话说，我可以简单地使用这些光谱图作为我的卷积神经网络的输入图像吗？

deep-learning

neural-network

convolution

feature-extraction

supervised-learning

回答 2

Stack Overflow用户

回答已采纳

发布于 2015-10-11 12:04:33

我们在光谱图上使用深卷积网络来完成口语识别任务。我们在这次TopCoder比赛提供的数据集上的准确率约为95%。细节是这里。

普通卷积网络不能捕捉时间特性，因此，例如在这项工作中，卷积网络的输出被馈送给一个时滞神经网络。但是，我们的实验表明，即使没有额外的元素，卷积网络也能很好地执行某些任务，当输入具有相同的大小时。

票数 20

Stack Overflow用户

发布于 2014-05-24 01:54:15

为了训练分类器，从音频数据中提取特征向量有很多种方法。最常用的是MFCC (MEL-Frequency倒谱)，你可以把它看作是一个“改进的”谱图，保留更多的相关信息来区分类别。其他常用的技术是PLP (感知线性预测)，也取得了很好的效果。这些仍然是许多不太为人所知的。

最近，深层网络被用来自动提取特征向量，因此，我们在图像识别中所做的类似的事情也是如此。这是一个活跃的研究领域。不久前，我们还使用特征提取器来训练图像(SIFT、HOG等)的分类器，但这些方法被深度学习技术所取代，它们将原始图像作为输入，并自行提取特征向量(实际上，这就是深度学习的真正意义)。

注意音频数据是连续的也是非常重要的。在训练分类器之后，需要将序列模型训练为HMM或CRF，它选择最有可能的语音单元序列，使用分类器给出的概率作为输入。

学习语音识别的一个好起点是Jursky和Martins：言语和语言处理。它很好地解释了所有这些概念。

编辑：添加一些可能有用的信息

有很多语音识别工具包都有从音频文件中提取MFCC特征向量的模块，但使用起来并不总是那么简单。我目前正在使用CMU Sphinx4。它有一个名为FeatureFileDumper的类，它可以独立用于从音频文件生成MFCC矢量。

票数 9

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/22471072

复制

相似问题

问用于音频的卷积神经网络
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问用于音频的卷积神经网络EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问用于音频的卷积神经网络
EN