我处理的声音数据的采样频率很高的2兆赫,并希望建立一个分类器。
我想知道是否有任何经验法则来预处理声学数据。直接使用原始数据(时间信号)还是先构造光谱图,然后使用这些数据更好?
有纸,说生更好,也有文件说光谱更好。在我看来,作者似乎已经有了一种更好的方法,甚至在写论文之前。我认为真正的比较是很困难的。
我读了深度学习及其在机械健康监测中的应用的论文,其中对不同的方法进行了研究。我查阅了他的参考资料,但作者似乎只是挑选原始或光谱图而不作解释。例如,在论文中,音乐音频的端到端学习从Dieleman光谱图是首选。在raw /T 1497-1988音乐自动标注用原始波形的样本级深卷积神经网络中,他们声称他们的一维结构更好,或者至少可以与2D架构媲美。
就我个人而言,我对光谱图有更好的经验。
发布于 2017-09-13 12:36:45
关于“用原始波形进行音乐自动标注的样本级深层卷积神经网络”的论文,我可以给大家一些关于这个问题的直觉,因为我和我的同事进行了实验。
总之,我建议你在你的情况下使用基于谱图的方法。
我想指出两个原因,
首先,当采样率为16 the ~22 the时,基于原始波形的训练结构比基于谱图模型的训练时间长约4倍。在你的情况下,抽样率甚至是22兆赫。我认为这将花费更多的时间,比基于谱图的模型,具有类似的性能。
其次,为了获得经过良好训练的原始波形模型,我们需要50小时以上的音频,因为该模型具有更多的参数和更深的层次。在我看来,使用基于原始波形的模型的好处不是性能的提高,而是生成模型。如果使用性能良好的原始波形模型,则在生成模型的情况下,不需要从谱图中重构音频信号。这是我们进行报告实验的主要原因。
如果计算能力和内存随着当前趋势的发展而提高,我们预计基于波形的原始模型将在不久的将来成为主流。但是现在我认为基于谱图的模型更方便,尤其是在工业应用中。
发布于 2017-09-13 13:02:21
我认为这取决于您的数据样本的特性,以及您需要检测的内容。
如果需要找到某个事件的开始和持续时间,原始数据可能会更好。
如果您寻找重复模式(心跳),那么频谱/频率数据可能会更好。
https://datascience.stackexchange.com/questions/22731
复制相似问题