有人能解释一下ASR的尺寸吗?例如,如果我有一个音频,把它转换成mel谱图,现在我有一个维数一千一百二十八,850的张量。我是否理解128个频道的数目,如果我申请CNN输入,输入频道将等于128个?850是什么?例如,如果我要应用转换器输入mel谱图,我将传递给编码器的嵌入数是850?提前谢谢你
发布于 2023-04-16 09:08:13
在梅尔谱图中,只有一个通道(震级)和两个空间维度: n_mels mel波段和T帧(取决于音频的长度)。
mel谱图中维度的顺序可能会根据您用于生成它的具体实现而有所不同,而您没有指定这些实现。但是,由于n_mels=128是一个常见的设置,而(n_mels, time_frames)是librosa中的标准顺序,所以我假设850是示例中的时间帧数。
注意,卷积神经网络使用的顺序也可能不同。例如,在Conv2d (角化酶)中,默认的data_format='channels_last‘。这意味着您的向量应该是(batch_size, n_mels, time_frames, 1)而不是(batch_size, 1, n_mels, time_frames)。
https://datascience.stackexchange.com/questions/120948
复制相似问题