给定一个音频,我想计算一下演讲的速度。也就是说,它有多快或多慢。
目前,我正在做以下工作:
pace = (number of words in transcript / duration of file)。然而,获得的速度的准确性完全取决于转录,我认为这是一个不必要的步骤。
有什么/sox/ffmpeg方式可以让我
我指的是:http://sox.sourceforge.net/sox.html和https://digitalcardboard.com/blog/2009/08/25/the-sox-of-silence/
发布于 2018-02-01 06:35:49
你的方法听起来很有趣,因为它是一阶近似,但受到文本分辨率的限制.你可以直接分析音频文件。
我对Sox并不熟悉,但从手册上看,似乎stat选项提供了“.关于音频的时间和频域统计信息”
索克斯自称是“瑞士军刀的音频操纵”,只要浏览一下他们的文档,似乎适合你找到一般的节奏。
如果您也想运行音调分析,那么您可以使用python开发自己的算法--我最近使用了librosa,发现它非常有用,并且有很好的文档。
https://stackoverflow.com/questions/48220514
复制相似问题