我开始使用谷歌的音像。虽然数据集是广泛的,但我发现有关音频特征提取的信息非常模糊。网站提到
128维音频特征提取在1Hz。音频特征提取使用VGG灵感的声学模型描述在好时特。艾尔,在YouTube的初步版本上接受训练--800万。这些特征经过PCA和量化,以与YouTube-8M提供的音频功能兼容。它们作为TensorFlow记录文件存储。
在纸中,作者讨论了在960毫秒块上使用mel谱图来获得96x64表示。然后,我不清楚他们是如何获得Audioset中使用的1x128格式表示的。有人知道这件事吗?
发布于 2018-08-13 06:34:09
他们使用96*64数据作为修改后的VGG network.The的输入,最后一层VGG是FC-128,所以它的输出将是1*128,这就是原因。
96*64
VGG
FC-128
1*128
VGG的体系结构可以在这里找到:slim.py
https://stackoverflow.com/questions/44080007
相似问题