首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何开始理解音频和音乐分析

如何开始理解音频和音乐分析
EN

Data Science用户
提问于 2020-02-19 13:32:35
回答 1查看 170关注 0票数 2

最近我被指派使用python libROSA库做一些工作。我对音频和音乐分析没有丰富的经验,apis和docs似乎具有更高的理解水平。例如,hello world示例中的内容如下:

  • 该示例以OGG Vorbis格式编码,
  • 变量sr包含y的采样率,即音频每秒的采样数。
  • 默认情况下,所有音频混合为单声频,并在加载时重放至22050 Hz。

我是“你为什么要对音频进行编码?”和“为什么你甚至需要样品?(模拟v数字我猜)”和“为什么你需要混合到单一?”“这到底是什么意思,‘混合’”?

有没有一本好书(S)或者网站可以帮助我了解音频和音乐处理的基本情况?

提前感谢

EN

回答 1

Data Science用户

回答已采纳

发布于 2020-02-19 15:59:34

要了解基础知识和一系列高级主题,请参阅梅纳德·穆勒( Meinard Müller)的“音乐处理基础”(亚马逊/accompanying 网站)。还有一个有很多朱庇特笔记本展示了这本书的内容的网站非常好。FMP不使用librosa,而是教您理解librosa所需的所有概念。大多数演示的方法都是面向信号处理的。对于依赖机器学习的工作,您可能需要查阅最近的研究文献--伊斯米尔论文是一个很好的起点。

关于你提出的观点:

  • 就像图像(如JPEG、PNG等)音频以某种格式存储。OGG只是另一种格式,比如WAVE或MP3。
  • 在音频从OGG这样的格式解码后,您就可以得到原始的样本,就像位图中的图像点一样。通常使用PCM (librosa )。
  • 在大多数情况下,我们并不关心立体声,这就是为什么librosa只是简单地将立体声频道混合成一个默认的单一频道。而且,大多数情况下,我们不需要CD质量,即采样频率为44.1 kHz,因此librosa默认将音频降至22.05 kHz。在某种程度上,这类似于通过降低分辨率来缩小图像的大小。

祝好运!

票数 5
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/68339

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档