我试过用Sox来消除音频文件中的静音和噪音。我想知道它的技术细节,以了解它。在专业软件可以依赖它之前理解它是很重要的(我知道它工作得很好,并且已经被很多人使用过了)
当使用Noise Profile对噪声进行采样,然后使用Noisered删除噪声时,Sox在此过程中到底做了什么?同样,当添加VAD效果时也是如此。有没有技术上的解释,或者发表了一些我可以读懂的论文。
发布于 2013-12-04 21:13:32
我有信号处理的背景,因为我的研究(语音和音乐的科学基础,通信科学),并刚刚研究了sox的降噪算法的代码。
在不进行深入分析的情况下,它似乎正在对噪声分布和原始信号进行FFT,然后从原始信号中减去第一个,然后再次执行FFT合成,以重新创建与原始信号相似的信号。
通过这个过程,它应该减少所有频率的数量,因为它们出现在噪声信号中。
整个过程似乎是逐个窗口完成的,这应该允许流式传输。
正如我所说的,这只是基于我的背景知识和我对代码的简短浏览,所以可能有一些方面我没有掌握。
编辑:
我还看了一眼VAD代码;该代码似乎监视频谱中出现在指定范围内的频率,如果是,则将其声明为"voice“。然后,所有未声明为“语音”的部分(窗口)将被静音(AFAICS)。这将有效地消除纯语音记录中的所有背景噪声。
https://stackoverflow.com/questions/20376047
复制相似问题