我正在做一个涉及机器学习和数据比较的项目。
为了这个项目的目的,我向一个神经元网络提供抽象的视频数据。
现在,抽象图像数据非常简单。我可以在视频中的某些点取静止帧,将它们缩小为5×5像素(或任何其他可管理的分辨率),并得到像素值以供分析。
由此产生的数据提供了一个独特的、小的、数据丰富的样本(即使是5x5px的5个样本也足以将戏剧与自然纪录片区分开来,等等)。
然而,我被卡在音频部分。由于音频由样本组成,每个样本本身没有固有的意义,所以我无法找到将音频抽象为可处理块的方法。
这一过程是否有共同的技术?如果没有,可以量化和抽象音频数据的指标是什么?
发布于 2014-05-22 20:36:43
您需要的过程是音频特征提取。有大量的特征检测算法,通常专门用于音乐或语音信号。对于音乐来说,色彩、节奏、和声分布都是你可以提取的特征--还有更多。通常情况下,音频特征提取算法在相当宏观的层次上工作-也就是说,一次有数千个样本。
一个很好的起点是声波视觉器,它是音频可视化算法的插件主机--其中许多都是特征提取器。
亚阿菲可能也有一些有用的东西。
https://stackoverflow.com/questions/23804298
复制相似问题