我将音频编码为Mel-谱图,并使用这些Mel-谱图作为我的深度学习模型(Inception-ResNet V2)的输入。输入图像大小为256×256,由128×64光谱图(128个波段)和零填充组成。样本输入:

我正在使用酸橙来可视化梅尔光谱图的重要区域.在一些梅尔-波谱图中,莱姆将填充物区域标记为重要区域,就像在这张图片中一样。

发布于 2019-01-23 14:14:28
提供75%的不相关数据(零填充)似乎不太理想,无论是在计算效率方面,还是因为它使得您的模型可能容易受到这些数据的影响。
我会考虑使用128x128输入格式(例如: MobileNet)的更小的模型。您可以升级现在从128 x64 -> 128x128获得的mel光谱图,也可以提取128个长的窗口(可能会调整FFT/hop的大小,使窗口及时覆盖相同的区域)。
https://datascience.stackexchange.com/questions/39602
复制相似问题