文章/答案/技术大牛

发布

社区首页 >问答首页 >石灰可视化输出填充区域是重要的-Mel-谱图(音频分析)

问石灰可视化输出填充区域是重要的-Mel-谱图(音频分析)
EN

Data Science用户

提问于 2018-10-12 19:26:30

回答 1查看 213关注 0票数 3

我将音频编码为Mel-谱图，并使用这些Mel-谱图作为我的深度学习模型(Inception-ResNet V2)的输入。输入图像大小为256×256，由128×64光谱图(128个波段)和零填充组成。样本输入：

我正在使用酸橙来可视化梅尔光谱图的重要区域.在一些梅尔-波谱图中，莱姆将填充物区域标记为重要区域，就像在这张图片中一样。

，那么，这是因为学习不好，还是当它遇到填充区域时，这是一个真正的问题呢？

发布于 2019-01-23 14:14:28

提供75%的不相关数据(零填充)似乎不太理想，无论是在计算效率方面，还是因为它使得您的模型可能容易受到这些数据的影响。

我会考虑使用128x128输入格式(例如: MobileNet)的更小的模型。您可以升级现在从128 x64 -> 128x128获得的mel光谱图，也可以提取128个长的窗口(可能会调整FFT/hop的大小，使窗口及时覆盖相同的区域)。

票数 1

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/39602

复制

相似问题