我有一个关于人类声音的小型声学数据集,我想对其进行扩充,然后将其传递给二进制分类器。
我熟悉图像的数据增强,但它是如何为声学数据集做的?
我找到了关于autoencoders和SpecAugment with Pytorch & TorchAudio的两个相关答案,但我想听听你对音频特定的“最佳方法”的看法。
发布于 2020-07-30 17:34:45
这真的取决于你想要实现什么,你的分类器是为什么而设计的,以及它是如何工作的。
根据上面的情况,例如,您可以以不同的方式剪切音频(如果您向分类器提供经过剪切的音频片段,这在您的特定情况下是有意义的)。你也可以用一些不同信噪比的背景噪声(如白噪声或录制的背景噪声)来增强它-这应该会使分类器对噪声更加健壮。
https://stackoverflow.com/questions/60828503
复制相似问题