首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >使用python在音频中查找语音的速度和音调

使用python在音频中查找语音的速度和音调
EN

Stack Overflow用户
提问于 2018-01-12 06:09:49
回答 1查看 1.5K关注 0票数 1

给定一个音频,我想计算一下演讲的速度。也就是说,它有多快或多慢。

目前,我正在做以下工作:

  • 将语音转换为文本,并获得文字记录(使用免费工具)。
  • 在成绩单中计算单词数。
  • 计算文件的长度或持续时间。
  • 终于,pace = (number of words in transcript / duration of file)

然而,获得的速度的准确性完全取决于转录,我认为这是一个不必要的步骤。

有什么/sox/ffmpeg方式可以让我

  • 用一种简单的方法计算音频中的说话速度/速度
  • 那个声音的主要音高/音调?

我指的是:http://sox.sourceforge.net/sox.htmlhttps://digitalcardboard.com/blog/2009/08/25/the-sox-of-silence/

EN

回答 1

Stack Overflow用户

发布于 2018-02-01 06:35:49

你的方法听起来很有趣,因为它是一阶近似,但受到文本分辨率的限制.你可以直接分析音频文件。

我对Sox并不熟悉,但从手册上看,似乎stat选项提供了“.关于音频的时间和频域统计信息”

索克斯自称是“瑞士军刀的音频操纵”,只要浏览一下他们的文档,似乎适合你找到一般的节奏。

如果您也想运行音调分析,那么您可以使用python开发自己的算法--我最近使用了librosa,发现它非常有用,并且有很好的文档。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/48220514

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档