首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >使用Swift分析录制的音频文件以进行语音转文本

使用Swift分析录制的音频文件以进行语音转文本
EN

Stack Overflow用户
提问于 2016-07-06 18:11:30
回答 1查看 1.1K关注 0票数 3

我可以使用Swift for iOS录制音频,并播放录制的音频文件。我想问的是,是否可以检查录制的音频文件的背景噪声&音量/分贝,这样我就可以确定它对于我的speech to text框架是否足够好。框架不是问题所在,我研究了所有可用的框架。

我很好奇是否可以使用AVFoundation或Accelerate框架或任何其他框架分析录制的音频文件,以检查音频文件是否足够好/足够清晰,可以使用speech to text框架进行处理。

我没有太多的音频知识,但我研究了一下,发现我可以在录音时获得峰值和平均分贝值,但背景噪音呢?

任何信息都有助于使用Swift分析录制的音频文件。

EN

回答 1

Stack Overflow用户

发布于 2016-07-06 18:28:43

信噪比估计是一个发展很好的领域。您需要实现一个语音活动检测器,它将从语音中分离出噪声,然后分别计算噪声能量和信号能量,然后计算比率。虽然这稍微超出了简单的数学,但你需要理解统计学来实现一个合理的算法,比如here实现的Wada SNR算法。

你无法在Swift中找到它的实现,这样的软件通常是用C或Matlab实现的,你必须移植实现。

与语音识别相比,噪声估计是一个小问题,它涉及更高级的算法。考虑一下Swift中现有的语音识别包,如TLsphinxOpenEars,可能会更好。

票数 4
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/38221459

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档