问在google的音频集中，使用什么算法进行音频特征提取？
EN

Stack Overflow用户

提问于 2017-05-19 22:48:56

回答 1查看 732关注 0票数 1

我开始使用谷歌的音像。虽然数据集是广泛的，但我发现有关音频特征提取的信息非常模糊。网站提到

128维音频特征提取在1Hz。音频特征提取使用VGG灵感的声学模型描述在好时特。艾尔，在YouTube的初步版本上接受训练--800万。这些特征经过PCA和量化，以与YouTube-8M提供的音频功能兼容。它们作为TensorFlow记录文件存储。

在纸中，作者讨论了在960毫秒块上使用mel谱图来获得96x64表示。然后，我不清楚他们是如何获得Audioset中使用的1x128格式表示的。有人知道这件事吗？

回答已采纳

发布于 2018-08-13 06:34:09

他们使用96*64数据作为修改后的VGG network.The的输入，最后一层VGG是FC-128，所以它的输出将是1*128，这就是原因。

VGG的体系结构可以在这里找到：slim.py

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/44080007

复制

相似问题

问在google的音频集中，使用什么算法进行音频特征提取？EN