关于音色,EchoNest Analyzer Documentation声明如下:
音色是区分不同类型乐器或声音的音符或声音的质量。它是一个复杂的概念,也被称为声音的颜色,纹理或音调质量,是从一个片段的频谱-时间表面的形状,独立于音高和响度。Echo Nest Analyzer的音色特性是一个向量,包含12个无界值,大致以0为中心。这些值是光谱表面的高级抽象,按重要程度排列。然而,为了完整起见,第一维表示片段的平均响度;第二维度强调亮度;第三维度与声音的平整度更密切相关;第四维度表示攻击更强的声音;等等。参见下面表示12个基函数(即模板段)的图像。段的实际音色最好描述为这12个基函数的线性组合,按系数值加权: timbre = c1 x b1 + c2 x b2 +.+ c12 x b12,其中c1 to c12表示12个系数,b1 to b12表示12个基函数,如下所示。音色向量最好是互相比较使用。

我的理解是,b向量({b1...b12})是API的getTimbre方法返回的内容。但是{c1...c12}系数是从哪里来的呢?我不明白如何从向量音色中获取标量音色(主要是因为您的分析API是封闭的源)。你能帮我解决这个问题吗?
发布于 2015-08-30 03:42:08
请注意,这个网站的答案来自志愿者。要获得对库的官方支持,您需要直接与发行者联系。
b1…b12不是音频分析的结果,它只是描述分析所做的事情。它们是图中所示的固定常数:

标量向量c1…c12是分析器产生的产物。当然,声音不能用12个数字来完美地描述。将标量乘以函数不会复制原始音乐,因为那里没有足够的数据;这只是一个近似。不过,你可能会从每一段中得到类似的“情绪”,所以试着倾听是很有趣的。
https://stackoverflow.com/questions/32292855
复制相似问题