我可以使用Swift for iOS录制音频,并播放录制的音频文件。我想问的是,是否可以检查录制的音频文件的背景噪声&音量/分贝,这样我就可以确定它对于我的speech to text框架是否足够好。框架不是问题所在,我研究了所有可用的框架。
我很好奇是否可以使用AVFoundation或Accelerate框架或任何其他框架分析录制的音频文件,以检查音频文件是否足够好/足够清晰,可以使用speech to text框架进行处理。
我没有太多的音频知识,但我研究了一下,发现我可以在录音时获得峰值和平均分贝值,但背景噪音呢?
任何信息都有助于使用Swift分析录制的音频文件。
发布于 2016-07-06 18:28:43
信噪比估计是一个发展很好的领域。您需要实现一个语音活动检测器,它将从语音中分离出噪声,然后分别计算噪声能量和信号能量,然后计算比率。虽然这稍微超出了简单的数学,但你需要理解统计学来实现一个合理的算法,比如here实现的Wada SNR算法。
你无法在Swift中找到它的实现,这样的软件通常是用C或Matlab实现的,你必须移植实现。
与语音识别相比,噪声估计是一个小问题,它涉及更高级的算法。考虑一下Swift中现有的语音识别包,如TLsphinx或OpenEars,可能会更好。
https://stackoverflow.com/questions/38221459
复制相似问题