首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >石灰可视化输出填充区域是重要的-Mel-谱图(音频分析)

石灰可视化输出填充区域是重要的-Mel-谱图(音频分析)
EN

Data Science用户
提问于 2018-10-12 19:26:30
回答 1查看 213关注 0票数 3

我将音频编码为Mel-谱图,并使用这些Mel-谱图作为我的深度学习模型(Inception-ResNet V2)的输入。输入图像大小为256×256,由128×64光谱图(128个波段)和零填充组成。样本输入:

我正在使用酸橙来可视化梅尔光谱图的重要区域.在一些梅尔-波谱图中,莱姆将填充物区域标记为重要区域,就像在这张图片中一样。

,那么,这是因为学习不好,还是当它遇到填充区域时,这是一个真正的问题呢?

EN

回答 1

Data Science用户

发布于 2019-01-23 14:14:28

提供75%的不相关数据(零填充)似乎不太理想,无论是在计算效率方面,还是因为它使得您的模型可能容易受到这些数据的影响。

我会考虑使用128x128输入格式(例如: MobileNet)的更小的模型。您可以升级现在从128 x64 -> 128x128获得的mel光谱图,也可以提取128个长的窗口(可能会调整FFT/hop的大小,使窗口及时覆盖相同的区域)。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/39602

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档