我试图分类一些音频剪辑,为了做到这一点,我必须分割这些音频剪辑,每30秒长,在1秒剪辑。然后,我想把这个1秒音频剪辑放在分类器中,平均所有30个一秒音频文件的输出,以得到我的最终响应。我要每30个输入输出一个输出。
我的问题是,我不知道如何在分类器中给它们喂食,我不能像建议的这里那样使用多个输入,因为我有30个输入,而不仅仅是2个,这会变得一团糟。
发布于 2020-10-03 15:35:57
您所提到的链接是关于有2个独立的输入管道而不是2个输入音频剪辑。您需要将30秒钟的音频数据封装在Tensor中(如果您使用的是Tensorflow,如果不使用,则使用与您使用的框架相当的音频数据)。
然后,可以将Tensor输入到DeepLearning模型的一个输入管道中。
查看使用Tensoflow:Tensorflow音频数据准备和增强教程处理音频数据的教程
https://stackoverflow.com/questions/64185816
复制相似问题