问如何开始理解音频和音乐分析
EN

Data Science用户

提问于 2020-02-19 13:32:35

回答 1查看 170关注 0票数 2

最近我被指派使用python libROSA库做一些工作。我对音频和音乐分析没有丰富的经验，apis和docs似乎具有更高的理解水平。例如，hello world示例中的内容如下：

该示例以OGG Vorbis格式编码，
变量sr包含y的采样率，即音频每秒的采样数。
默认情况下，所有音频混合为单声频，并在加载时重放至22050 Hz。

我是“你为什么要对音频进行编码？”和“为什么你甚至需要样品？(模拟v数字我猜)”和“为什么你需要混合到单一？”“这到底是什么意思，‘混合’”？

有没有一本好书(S)或者网站可以帮助我了解音频和音乐处理的基本情况？

提前感谢

audio-recognition

回答 1

Data Science用户

回答已采纳

发布于 2020-02-19 15:59:34

要了解基础知识和一系列高级主题，请参阅梅纳德·穆勒( Meinard Müller)的“音乐处理基础”(亚马逊/accompanying 网站)。还有一个有很多朱庇特笔记本展示了这本书的内容的网站非常好。FMP不使用librosa，而是教您理解librosa所需的所有概念。大多数演示的方法都是面向信号处理的。对于依赖机器学习的工作，您可能需要查阅最近的研究文献--伊斯米尔论文是一个很好的起点。

关于你提出的观点：

就像图像(如JPEG、PNG等)音频以某种格式存储。OGG只是另一种格式，比如WAVE或MP3。
在音频从OGG这样的格式解码后，您就可以得到原始的样本，就像位图中的图像点一样。通常使用PCM (librosa )。
在大多数情况下，我们并不关心立体声，这就是为什么librosa只是简单地将立体声频道混合成一个默认的单一频道。而且，大多数情况下，我们不需要CD质量，即采样频率为44.1 kHz，因此librosa默认将音频降至22.05 kHz。在某种程度上，这类似于通过降低分辨率来缩小图像的大小。

祝好运!

票数 5

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/68339

复制

相似问题

问如何开始理解音频和音乐分析
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何开始理解音频和音乐分析EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何开始理解音频和音乐分析
EN