首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >mel谱图尺寸

mel谱图尺寸
EN

Data Science用户
提问于 2023-04-16 02:48:37
回答 1查看 41关注 0票数 0

有人能解释一下ASR的尺寸吗?例如,如果我有一个音频,把它转换成mel谱图,现在我有一个维数一千一百二十八,850的张量。我是否理解128个频道的数目,如果我申请CNN输入,输入频道将等于128个?850是什么?例如,如果我要应用转换器输入mel谱图,我将传递给编码器的嵌入数是850?提前谢谢你

EN

回答 1

Data Science用户

回答已采纳

发布于 2023-04-16 09:08:13

在梅尔谱图中,只有一个通道(震级)和两个空间维度: n_mels mel波段和T帧(取决于音频的长度)。

mel谱图中维度的顺序可能会根据您用于生成它的具体实现而有所不同,而您没有指定这些实现。但是,由于n_mels=128是一个常见的设置,而(n_mels, time_frames)是librosa中的标准顺序,所以我假设850是示例中的时间帧数。

注意,卷积神经网络使用的顺序也可能不同。例如,在Conv2d (角化酶)中,默认的data_format='channels_last‘。这意味着您的向量应该是(batch_size, n_mels, time_frames, 1)而不是(batch_size, 1, n_mels, time_frames)

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/120948

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档