音乐神经动力学 Musical neurodynamics
https://www.nature.com/articles/s41583-025-00915-4


摘要
大量关于音乐神经科学的研究表明,神经振荡会与音乐刺激同步。尽管神经同步作为一种支撑预期的机制已被广泛研究,但它对音乐的影响更为深远。在本篇观点文章中,我们综述了音乐神经科学领域的文献,涵盖音高、和声、旋律、调性、节奏、节拍、律动感(groove)以及情感等方面。我们阐述了如何基于已知神经机制的基本动力学原理(如神经共振理论所概括的)来解释音乐感知与演奏的基本方面。基于共振、稳定性、调谐(attunement)和强预期(strong anticipation)等原理,我们提出:人们之所以能够预期音乐事件,并非通过预测性神经模型,而是因为脑-体动力学在物理上具身化(embody)了音乐结构。特定类型的声响与持续进行的模式形成动力学相互作用,从而产生感知、动作与协调的模式,这些模式共同构成了我们所体验的音乐。音乐中具有统计普遍性的结构,可能正是源于它们对应于复杂模式形成动力系统中的稳定状态。从神经动力学原理的视角对实证研究发现进行分析,为音乐神经科学以及音乐何以具有强大感染力提供了新的洞见。
引言
“音调的连续即是运动……这种运动基于音调内部的力所构成的秩序……音乐中的音调彼此指向、相互吸引……正是音调的这种动力学特性,将一连串音调转化为旋律,并将声学现象转化为音乐。”——V. 朱克康德尔¹
音乐具有唤起强烈情感、激发敬畏感,并在跨越文化、国界与信仰体系的人群之间创造深刻联结的力量。此类观察激发了人们在全球范围内对音乐结构与行为中“普遍性”(universals)的系统性探索²,³。例如,许多音乐都包含一种脉冲(pulse),使听者和参与者能够在较慢的时间尺度上同步其节奏行为(如舞蹈);同时,在更快的时间尺度上,音高被组织成调性系统,并通过人声或乐器演奏出来(图1)。然而,尽管存在这些普遍可见的特征,民族志研究却揭示了不同文化之间在节奏与调性上的深刻差异,强调了学习与文化熏陶(enculturation)是塑造音乐体验的重要决定因素。这类看似矛盾的观察引出了一个更根本的问题:为何人类——无论身处何种文化——都能将音乐体验为超越孤立声音序列的存在?

认知神经科学对此问题已形成一种共识性取向,聚焦于听者对音乐模式的预期。具身化的音乐体验——包括对律动感(groove)的切身感受以及“战栗”(chills)等情感反应——都依赖于对“接下来会发生什么”以及“何时发生”的预期⁴⁻⁶。但这些预期究竟从何而来?本篇观点文章阐述了音乐预期与音乐结构如何依赖于基本神经机制的动力学特性,这一观点以神经共振理论(Neural Resonance Theory, NRT)为基础。在NRT中,预期是生理振荡与音乐同步(图1)并相互共振以形成稳定模式的结果。NRT主张,音乐认知正是这些共振关系的实际具身化(embodiment)——即大脑的物理状态,它们通过物理原理与外部事件(如声音)建立起规律性的关联。至关重要的是,这些物理原理能在神经和行为层面生成可经实证检验的预测。
以下各节将基于基本神经机制的动力学特性,对音乐进行概述。首先,本文将NRT模型的核心原理置于早期具身认知与动力系统理论的背景中加以阐释。随后,文章主体聚焦于音乐感知、动作与认知中的核心结构:先探讨节奏与时间结构等较慢时间尺度的现象,再分析音高与调性结构等较快时间尺度的现象。NRT分析表明,相似的机制在两种时间尺度上均发挥作用,这些机制对模式的可学习性施加了约束,而音乐结构的相对普遍性或许可用具身化动态模式的相对稳定性来解释。在若干关键节点上,我们特别指出了NRT与近期提出的“音乐预测编码”(Predictive Coding of Music, PCM)方法⁷之间的差异。最后,我们对未来研究方向进行了展望,旨在拓展动力学神经科学的研究路径,并直接将NRT与其他当前主流理论(如PCM和统计学习理论)进行比较。
NRT
对神经振荡的研究并非新近之事。然而,近年来它已成为神经科学中一个极具成果的研究领域,建立了细胞功能、网络动力学、感知–认知与外显行为之间的联系⁸,⁹。非线性动力学提供了一种理论语言,能够基于一组遵循普遍规律与约束的动力学基元(dynamical primitives),整合来自神经与行为层面的信息,从而提出新颖的预测和可检验的假设¹⁰。NRT(神经共振理论)聚焦于规范模型(canonical models),这些模型捕捉了一类神经模型共有的动力学特性¹¹⁻¹³。在某些假设下,即使神经回路的解剖结构与生理机制仅部分已知,也能严格推导出一个规范模型。因此,NRT仅凭关于神经生理学与行为的一般性信息,即可生成关于音乐神经科学的稳健、形式化的假设。
NRT建立在先前的具身认知与动力系统方法基础之上¹¹,¹⁴⁻¹⁷,整合了支配音乐认知的若干物理原理:神经振荡、非线性共振、稳定性与吸引性、调谐(attunement)以及强预期(strong anticipation)。下文将结合数学模型的最新进展¹²,¹⁸,¹⁹,对这些原理加以阐述。
在NRT中,“神经共振”广义上指神经振荡彼此之间以及与外部刺激之间的同步(或称“夹带”,entrainment)²⁰。“振荡”一词涵盖任何具有明确频率的动力学系统;因此包括呈现自维持振荡(稳定极限环)、阻尼振荡(稳定不动点)以及兼具两者特性的系统(双稳态系统)²¹。
神经共振的一个重要特性是其非线性。与线性系统不同(图2a),非线性使神经振荡器能够生成输入中原本不存在、但与输入频率相关的频率(图2b)。生物系统中已观察到非线性共振现象,例如耳蜗外毛细胞的关键振荡²²、听觉脑干神经元的振荡响应²³、对纯音的非线性反应²³,以及皮层听觉与运动神经群体对节奏序列的夹带²⁴,²⁵。

一种重要的非线性共振形式是锁模(mode-locking,即n:m同步)。当两个具有不同固有频率的神经振荡器的频率接近整数比时,它们可能发生锁模。频率比越简单、耦合强度越强,系统的稳定性就越高¹⁸(图3)。

锁模是解释音乐结构所依赖的稳定性与吸引关系的一个范例。处于较不稳定状态的动力学系统会被吸引并趋向更稳定的状态²⁶。NRT主张,神经共振的稳定性导致了对音乐结构的感知,而音乐预期正是系统从较不稳定状态被吸引至更稳定状态时所产生的感受。NRT还指出,稳定性也约束着音乐表演。例如,在鼓点演奏中,当左右手频率构成复杂节奏而非简单节奏时,双手协调会更加困难²⁷。
NRT中的调谐(attunement)是指共振神经回路通过与环境互动而自我调节、适应和学习的过程¹⁴。调谐在多个时间尺度上展开,使系统对更常经历的模式稳定性增强,从而反应更迅速、更灵活²⁸。调谐主要通过两种机制实现:一是通过突触可塑性实现的赫布型学习(Hebbian learning)¹⁹(图2c);二是单个振荡器参数(如固有频率)的适应性调整²⁹。调谐过程³⁰以无监督方式持续学习与适应,形成能够具身化(embody)习得音乐模式的神经回路。如下文所述,NRT模型利用调谐来解释音乐行为中的发展过程,以及文化熏陶(enculturation)和训练的影响。
强预期(strong anticipation)³¹解释了为何“反应”的产生可先于“刺激”³²⁻³⁴——这在音乐家合奏中自然发生³⁵。这种预期倾向常被解读为基于内部模型的时间预测的证据⁷,³⁶。但从动力系统视角看,时间延迟反映了系统对先前状态的记忆,而这种记忆可导致被驱动系统对其驱动者产生预期³⁷(图2d)。例如,一个具有时间延迟的被驱动振荡系统可能领先于驱动系统³⁵,³⁸,正如在与节拍器同步时,手指敲击往往略早于节拍器声音³⁹。因此,在NRT中,预期可源于系统固有的神经传导延迟。
基于基本神经机制的动力学特性,NRT提供了一个统一框架,既能解释音乐感知、认知与表演中的自然约束,也能容纳文化差异。与线性系统不同,非线性动力系统具有模式形成能力——这种特性广泛存在于多种振荡类型中,可用于解释节奏结构与调性结构这两种时间尺度相差甚远的音乐现象。动力系统理论的工具使我们能够识别并研究振荡动力学、赫布可塑性与神经时间延迟等普遍特性,而这些特性在皮层与皮层下回路中普遍存在。
下一节将回顾早期关于预期、协调与预期的研究,这些工作为NRT的形成提供了重要基础。
奠基性工作
动态注意理论(Dynamic Attending Theory)是早期将神经振荡与时间预期联系起来的一种方法,提供了概念框架和一系列动力学模型¹⁶,⁴⁰。该理论提出,神经振荡会与感觉环境的时间结构(如音乐、言语及其他时变事件)同步,从而将注意力引导至时间上高度可预期的时刻¹⁶(图4a)。已有证据表明,当听觉或视觉刺激出现在预期的节奏位置时,其感知效果更佳²⁵,⁴¹⁻⁴⁴;而位于预期时间点的目标会引发更强的、依赖注意的事件相关电位(ERP)反应⁴⁵。来自脑电图(EEG)和脑磁图(MEG)的研究进一步显示,神经振荡的相位可预测对节奏刺激的感知⁴⁶;稳态诱发电位(SS-EPs)也表明,δ波和θ波神经节律会与环境节律同步⁴⁷⁻⁵²。此外,由于较慢的δ和θ节律与β和γ节律之间存在相位–振幅耦合(phase–amplitude coupling),β和γ波段的振幅波动也会与节奏性环境刺激对齐²⁴,⁵³。广谱的相位–振幅耦合可能源于谐波整数比下的锁模现象⁵⁴。因此,振荡似乎是注意过程的基本构建单元。

听觉与运动同步现象已成功地用耦合振荡模型加以描述¹⁵,⁵⁵,⁵⁶,而运动系统尤其在具有强烈节拍的音乐中,有助于生成时间预期⁵⁷⁻⁵⁹。因此,对运动协调的研究也与时间预期密切相关⁶⁰,⁶¹。协调动力学(Coordination Dynamics)方法结合了理论、实验与动力学建模,用于描述运动协调、听觉–运动协调以及社会协调等现象。例如,研究已证明:当频率较低时,两根手指之间的同相(in-phase)与反相(antiphase)协调均稳定(即双稳态);但随着频率(作为控制参数)增加,系统会经历分岔(bifurcation),导致反相模式失去稳定性¹⁵。类似地,在较慢速度下可实现与节拍器的反相同步,但随着速度加快,即使受过训练的音乐家也会表现出反相同步稳定性下降,或自然转向同相协调⁶²。
协调动力学的工具也被用于研究多节奏(polyrhythmic)运动协调和听觉–运动同步。多节奏是指由两个部分构成的节奏,其节奏频率呈整数比关系⁶³,⁶⁴(图3)。在动力系统中,锁模理论预测:简单整数比(如1:1、2:1)的同步比复杂整数比(如4:3、5:4;图3)更稳定。这与实证结果一致:人们在双手节奏演奏和听觉–运动同步任务中,对低阶多节奏关系的协调更为稳定,而对高阶整数比则稳定性较差⁶³,⁶⁴。值得注意的是,尽管鼓手能通过训练稳定更复杂的多节奏(如4:3、3:5),但即使是技艺高超的音乐家,在演奏高阶比例时通常仍不如低阶稳定²⁷。
听觉–运动同步的一个显著特征是:运动反应往往早于刺激起始,这一现象被称为负平均异步性(Negative Mean Asynchrony, NMA)。尽管NMA难以用简单理论解释³⁹,⁶⁵,但结合动力学建模与实证实验的研究表明,预期可能仅仅源于动力系统内部延迟的自反馈³¹,³²。这种所谓的强预期(strong anticipation)源于系统运作中的内在规律性³⁷,并可导致被驱动系统提前预测驱动者的混沌动态或神经脉冲活动³¹,³³,³⁴。
总之,先前研究已表明,动力学原理能够解释预期、协调与预期的机制,并得到行为与神经数据的支持。具体而言:神经振荡与环境节律的同步解释了时间注意与预期;动力学原理阐明了不同频率比与相位下协调的相对稳定性;而具有延迟耦合的振荡器则能预测感觉运动协调中的预期现象。NRT采纳并拓展了这些工具与概念,提出神经振荡器网络与学习动力学机制,以处理音乐中复杂多样的结构。接下来的章节将更具体地聚焦于音乐,首先应用于较慢时间尺度的节奏,随后是较快时间尺度的音高。
节奏时间尺度
真实音乐的时间结构远比节拍器的周期性滴答声复杂得多(图4a)。音乐节奏展现出复杂的时序与重音模式⁶⁶(图4b),但当其音符起始间隔(inter-onset intervals)体现为简单整数比(例如2:1:3)时,人们最容易感知、记忆和再现这些节奏⁶⁷⁻⁶⁹。这可能是因为人们倾向于感知到这些节奏之下存在一个“脉冲”(pulse)。
“脉冲”是一种被感知到的——但未必实际发声的——周期性节律,其频率通常在1.5–2.5 Hz左右(参见文献47,59)。大多数成年人会自发地以这一频率随音乐敲击、拍手或律动。然而,对脉冲的同步能力具有漫长的发育轨迹⁷⁰,有些成年人即使能够准确复现复杂的节奏,也无法在其中感知到脉冲⁷¹。
脉冲
NRT假设,脉冲是一种δ频段的神经振荡,其频率虽可能不同于音乐节奏中的实际频率,但与之相关。这种振荡是事件预期的一种机制,类似于动态注意理论中的观点¹⁶(图4a)。当事件未在预期时刻出现,而是出现在脉冲之间时,这种现象称为切分(syncopation)。切分音为检验非线性共振假说提供了良好契机。某些切分极为强烈,例如巴西桑巴舞曲中的节奏⁷²,其物理声学能量在脉冲频率处可能微乎其微。甚至可以构造出所谓的“缺失脉冲”(missing pulse)节奏⁷³(图4b)——这类节奏在声学信号中完全不包含脉冲频率的能量。
在“缺失脉冲”节奏的情况下,大脑必须通过非线性共振自行生成脉冲频率。
在一个NRT模型中,听觉–运动网络受到音符起始信号的刺激后,运动规划网络中自发产生了脉冲频率的振荡,这表明非线性共振足以解释该现象⁷³。此外,针对缺失脉冲节奏的行为研究表明,人们所感知到的脉冲频率与非线性共振理论的预测一致⁵¹,⁷³。EEG和MEG的稳态诱发电位(SS-EPs)也检测到了这一预测的“缺失”频率,且其振幅与主观感知强度相关⁵⁰⁻⁵²。
相比之下,线性模型(如滤波器组⁷⁴,⁷⁵)仅能对输入中实际存在的频率作出响应(图2a),因此无法解释这种感知现象。此外,脉冲频率处的SS-EP不可能是一系列诱发的电位(即对事件的被动神经反应),因为对此类反应进行频谱分析不会包含这个缺失的频率⁵¹,⁷⁶。
尽管功能性磁共振成像(fMRI)研究已提出若干候选脑区⁵⁷,⁵⁸,但目前尚不清楚脉冲周期性究竟源于何处。经颅磁刺激(连续θ爆发刺激)尝试抑制这些候选区域的皮层活动,仅对脉冲感知产生中等程度的影响⁷⁷。由于NRT模型对听觉区与运动区中脉冲频率振幅作出了定量预测,未来利用缺失脉冲节奏开展的实验有望帮助识别脉冲感知的神经解剖基础,并进一步检验该模型。
律动感(Groove)
重复出现的切分节奏能引发一种想要移动的冲动,并产生一种积极的情感状态——即看似毫不费力的感知–动作耦合,这种体验被称为律动感(groove)⁷⁴。切分过少会导致律动感评分较低,而适度的切分则带来高评分。有趣的是,切分过多同样会导致低律动感评分⁷⁸,从而在切分程度与律动感之间形成一种倒U型关系⁷⁹。
音乐预测编码模型(PCM)从预测角度解释这一现象:参与者感知到一个脉冲,并将基于脉冲的时间预期与实际事件起始时间进行比较。在节奏复杂度极高的情况下,事件大幅偏离脉冲预测,且预测本身的精度较低,共同导致律动感评分下降⁷,⁸⁰(图4c)。然而,当上述脉冲感知的NRT模型⁷³被应用于一项MEG律动感实验时⁸¹,模型预测:人们在极高切分节奏中通常无法感知到脉冲(图4d)。
在该MEG研究中,NRT模型成功预测了律动感评分以及听觉和运动皮层中脉冲频率振荡的振幅,支持了“律动感源于振荡性运动激活”这一观点⁸¹。此外,神经共振理论将律动感感知解释为听觉与运动皮层中振荡活动振幅的函数。研究表明,在高节奏复杂度、低律动感的节奏中,神经共振(试次间相位一致性)更弱,瞳孔对节奏的夹带效果更差,敲击同步表现也更差⁸²,⁸³——尽管音乐家可能是例外⁸⁴。有趣的是,在典型的流行音乐中,鼓点的复杂度似乎并未达到导致低律动感评分的程度⁸⁵。因此,尽管部分研究支持NRT的预测,但仍需更多研究以明确区分NRT与PCM模型的预测差异。
节拍与调谐(Metre and Attunement)
除了脉冲,听者还能在复杂节奏中感知到节拍(metre)——即比脉冲更快或更慢的周期性结构,它们与脉冲之间以及彼此之间以简单整数比(如2:1、3:1)相关联⁶⁶,⁸⁶。节拍为全球各地音乐节奏的感知与生成提供了结构化框架³,⁸⁷。脉冲与节拍均具有漫长的发育轨迹,且会因音乐传统不同而有所差异⁸⁸,⁸⁹。因此,对脉冲与节拍的解释需要一个包含学习与文化熏陶(enculturation)的理论框架。
例如,某些非西方音乐⁸⁶,⁹⁰采用“不等长节拍”(unequal metres),其中脉冲表现为非周期性模式,如3–2–2(长–短–短)²⁸,⁸⁷,⁸⁸。近期的NRT研究开始探讨:振荡网络中的赫布型学习(Hebbian learning)是否能够实现对等长与不等长节拍的调谐,并解释听觉与运动网络之间连接的发展机制。
脉冲与节拍在发育过程中习得⁸⁸,建模研究表明,神经振荡与赫布学习足以解释婴儿对其文化中节奏结构的感知调谐¹⁹,³⁰,⁹¹。早在产前发育阶段⁹¹,⁹²,人类胎儿就已对环境中的节奏输入产生敏感性。这种初始敏感性在出生后发育过程中逐渐调谐(图2c)至特定文化的节奏结构,形成对节奏的感知–动作偏向,这一过程被称为感知窄化(perceptual narrowing)⁸⁸。
一项研究中,一个覆盖δ与θ频段的听觉网络分别接受西方与非西方节奏刺激。训练过程中,网络振荡器之间的连接逐渐形成,反映出所接受节奏(西方或非西方)的结构³⁰。重要的是,这种调谐无需误差信号,表明非线性共振与赫布可塑性足以启动学习过程。训练后,振荡网络对特定听觉节奏表现出偏向性,类似于婴儿晚期及儿童期对本文化节奏的感知偏好。成人中音乐训练越多,对节奏的神经追踪能力越强⁴⁸,⁹³,这也可通过调谐增强的耦合强度加以解释¹⁹。
人类感知系统还会对运动–前庭节律(motor–vestibular rhythms)进行调谐。伴随音乐的身体运动激活前庭系统,从而影响节奏感知⁹⁴。让婴儿弹跳或让成人随具有节拍双稳态(metrically bistable)的节奏运动,会使其偏好与弹跳或运动速率匹配的重音节奏⁹⁵,⁹⁶。振荡网络模型将这种运动–前庭效应解释为多稳态(multistability)与短期调谐的结果。在一个听觉–运动网络中,加入前庭输入后,面对节拍双稳态节奏,系统会稳定于两种节拍感知模式之一——二拍子或三拍子;且更简单的比例关系(2:1)学习得更快²⁸(图3和图4e)。
事实上,NRT的一个普遍预测是:小整数比的连接形成更快,在相同暴露量下也更强¹⁹。因此,在该网络中,简单节奏(如2:1)比复杂节奏(如3:1)学习得更迅速,这与NRT的另一预测一致:即当神经振荡器与外部节奏之间的节奏模式复杂度增加时,系统稳定性下降¹⁸,¹⁹。此外,振荡器网络中的赫布可塑性能够支持对复杂节奏模式的持续学习,无论是否存在教学信号。
演奏与专业技能
音乐演奏通常涉及多位演奏者对事件进行精确同步。研究常通过要求人们在没有外部节拍刺激的情况下,以自己的速度演奏音乐序列来进行考察。个体在自发演奏速率(spontaneous production rates)上存在显著差异⁹⁷,⁹⁸,而这些自发速率对其在合奏中的表现具有系统性影响(图4f,g)。关于自发速率的实证发现与NRT的预测一致:即固有频率(natural frequency)会影响协调的稳定性。
自发节拍(Spontaneous tempo)音乐演奏中的自发节拍效应与节拍适应现象,可通过具有可调频率且能回归固有频率的神经振荡器模型加以准确描述²⁹。在此NRT模型中,固有频率是一个吸引子(attractor),而与其耦合的另一个振荡器的频率同样构成一个吸引子。频率会经历短期调谐(short-term attunement),使其能够适应其他演奏者的节拍,但当振荡器在其固有频率附近工作时,同步效果更佳。
多项研究为该模型提供了支持:当音乐家以接近其自发速率演奏节奏模式时,同步性最佳;随着演奏速率偏离自发速率,同步性下降⁹⁹。自发演奏速率可优化演奏的时间一致性¹⁰⁰。此外,音乐家在演奏中会表现出向其自发速率漂移的现象⁹⁹,表明内在频率确实充当吸引子²⁹。未经音乐训练的个体比受过训练者受到更强的固有频率约束⁹⁹,这表明丰富的音乐经验(包括接触多样节奏)可增强神经系统的灵活性与稳定性。
固有频率对音乐合奏同样重要。无论是音乐家还是非音乐家,当合奏伙伴的自发速率相近时,其音乐同步表现更佳⁹⁷,⁹⁸。此外,在独奏时,二重奏伙伴在其特有的自发演奏频率上表现出增强的EEG功率(相较于其他频率)¹⁰¹;且随着二重奏异步程度降低,其功率谱密度随之增加¹⁰²。
强预期(Strong anticipation)预期性同步是音乐演奏的必要组成部分,因为音乐家必须不断适应并预判彼此的动作⁹⁹,¹⁰³。在受驱振荡器中引入延迟耦合反馈(delay-coupled feedback),可简洁地解释与周期性节拍器同步时的负平均异步性(NMA),以及音乐演奏中的异步现象。一个对反馈振幅敏感的延迟耦合受驱振荡器模型(图2d)能准确预测NMA的大小如何随节拍变化,以及为何音乐家的NMA通常小于非音乐家³⁸。
与NMA类似,延迟耦合系统也为音乐家在演奏中自然发生的相互预期提供了理解框架³⁸(图4g)。该机制已成功预测了钢琴二重奏中演奏伙伴的预期性同步行为³⁵:每位演奏者被建模为一个相位振荡器,将其在某一时间延迟下的相位与伙伴当前的相位进行比较。该模型成功预测了不同耦合条件下的行为表现——包括单向反馈(仅一方听到对方)、双向反馈(双方互听)或无反馈的情况³⁴。
因此,仅凭延迟耦合机制,即可解释预期现象,无需假设对伙伴动作的内部预测(如预测编码模型所主张的那样)。尽管预测编码强调外部与经验因素的影响,但时间延迟反馈本身固有的机制已足以使预期自然涌现。这使得“强预期”成为解释广泛预期行为的稳健机制,无需诉诸更复杂的自上而下与自下而上预测过程之间的交互¹⁰³。
音高时间尺度(Tonal timescales)
用于理解较慢皮层时间尺度的相同动力学原理,同样适用于理解更快的细胞时间尺度上的非线性共振现象¹¹,²¹,²²(图3)。数十年来,振荡与相位锁定(phase-locking)已在听觉外周及中枢听觉通路中得到广泛研究(图5a)。例如,耳蜗外毛细胞的关键振荡会与声音相位锁定¹⁰⁴;基于共振的模型能简洁地解释耳蜗主动处理所带来的生理与感知后果²²,¹⁰⁵⁻¹⁰⁷。

听觉神经与脑干中的动作电位可在高达数千赫兹的频率下实现相位锁定;而听觉核团中的“斩波细胞”(chopper cells)和“起始细胞”(onset cells)则会与声音发生锁模(mode-locking)²³,¹⁰⁸。在人类中,可通过脑电图(EEG)的频率跟随反应(Frequency-Following Response, FFR)从头皮无创记录到这种时间锁定的神经反应。
按音调拓扑组织(tonotopically organized)的非线性振荡器网络,能够捕捉FFR中观察到的非线性响应¹⁰⁹;这类网络是对传统线性谐振器(即带通滤波器)的推广——后者长期以来被用于耳蜗与脑干的建模¹¹⁰。
音高(Pitch)
中枢听觉系统的一项基本功能是确定声音的音高,使我们能够对音阶中的音符进行分类和排序。早期基于自相关(autocorrelation)的音高感知模型假设存在突触延迟,以执行所需的时间计算¹¹¹。然而,由于缺乏支持时间延迟存在的生理证据,这一理论路径的兴趣已有所减弱¹¹²。
另一种观点认为,音高感知及相关感知现象可被解释为动力系统中的非线性共振¹¹³。具体而言,非线性共振能够解释“缺失基频”(missing fundamental)的音高现象——即声波中并未实际包含最低频率,但听者仍能感知到该音高。它还能解释当谐波频率被等量偏移时所引起的音高偏移(pitch shift)现象¹¹⁴——这是音高感知的另一个关键方面。这种音高偏移与一个非线性振荡器的频率高度吻合,该振荡器对刺激中两个最低频成分产生共振(即所谓的“三频共振”)¹¹³。
此外,音高感知的生理模型也将非线性振荡器作为基本单元¹¹⁵,¹¹⁶。在其中一个模型中,利用腹侧耳蜗核中“斩波细胞”(chopper cells)之间放电同步性的强度来提取各频率通道中的周期性信息。这一机制在生理上是合理的,并且在许多方面类似于早期模型中使用的自相关运算¹¹⁶。
协和性(Consonance)
协和音程是指同时发声的两个音高构成的音程。人们对音程悦耳或刺耳的主观感受分别被称为协和(consonance)与不协和(dissonance)¹¹⁷。早期心理声学理论将不协和解释为复杂音在耳蜗上产生的干扰¹¹⁸。然而,更广泛的感知研究表明,协和感知与谐波性(harmonicity)及小整数比密切相关¹¹⁹,¹²⁰。
简单整数比对应协和音程(例如八度为2:1,纯五度为3:2),而复杂整数比则对应不协和音程(如大二度为9:8,小七度为7:4)(图3)。锁模稳定性(mode-locking stability)(图3)精确预测了西方调性音乐理论中标准的协和度排序¹²¹,并能准确拟合西方听者对协和度的评分数据¹¹⁹。
此外,当振荡器的固有频率略微偏离精确整数比时,它们仍可在整数比下实现同步——这意味着调音系统(如十二平均律)可以容忍对精确整数比的微小偏离(图3中部的彩色区域)。因此,锁模可能构成了协和与不协和现象的一种动力学机制。
调性融合(Tonal fusion)
调性融合指大脑如何将复杂音中的谐波特征绑定(bind)或融合(fuse)为一个统一的听觉对象。由简单整数比关联的声音之间的调性融合,可通过听觉系统中的非线性共振得到合理解释。谐波频率天然呈现整数比关系,而赫布可塑性能够将具有简单频率关系的振荡绑定在一起¹⁹。
此外,即使声学信号中并不存在某些频率成分,它们仍会在脑干的频率跟随反应(FFR)中显著出现¹²²(图5b),包括非线性差频音及其谐波,这与对谐波性的描述高度相似。FFR中非线性共振的存在表明,它们部分源于脑干神经元中的锁模现象¹⁰⁹。事实上,锁模能准确预测脑干FFR对协和与不协和音乐音程的响应¹⁰⁹,¹²²。
因此,神经共振的预测将协和性与谐波性联系起来,并最终与调性融合相贯通。换言之,锁模(n:m)可能承担了复杂音中特征绑定的功能,正如相位锁定(1:1)在视觉系统中实现特征绑定一样¹²³,¹²⁴。
调谐(Attunement)
近期关于协和感知的研究指出,文化和学习在其中起到重要作用,暗示中枢听觉系统中的可塑性可能参与其中。不同文化对音程协和度的评分存在差异¹²⁵,¹²⁶,证据表明,音乐训练可能通过突触可塑性和/或皮层-下行(cortico-fugal)连接,精细调节音乐音程的稳定性¹⁰⁹,¹²²,并且人们能够习得新的调音规则¹²⁷,¹²⁸。事实上,人们对音乐音程的主观判断同时受到内在因素与文化因素的影响。
例如,当被要求对悦耳程度评分时,玻利维亚的齐马内人(Tsimane)听众认为所有音程基本同等悦耳,而美国听众则明显偏好协和音程而非不协和音程¹²⁵。然而,当问题改为判断双音音程是“一个声音”还是“两个声音”(即调性融合)时,齐马内人与美国听众的结果均符合小整数比的预测¹²⁹。
文化熏陶(enculturation)和音乐训练的影响,可被理解为具身动力系统对其环境的调谐。因此,NRT认为,协和与不协和对应于共振模式的稳定性,而这种稳定性由两方面共同决定:一是内在的(神经动力学)稳定性,二是基于文化经验的调谐。神经动力学稳定性解释了为何小整数频率比(如2:1、3:2、4:3)在世界各地、贯穿历史的音乐调音系统中普遍存在,而其他较不稳定的比率则更具可变性¹²⁷。调谐机制则预测:即使内在稳定性较低的关系,也可通过反复暴露而得到强化,使人们能够学习基于高阶整数比的新音程或和弦¹²⁸。
旋律与调性结构(Melody and tonal structures)
旋律是一系列音高的序列,两个连续发声音高之间的距离称为旋律音程。当沿连续变化的旋律音程进行范畴化时,识别函数呈现出清晰且可靠的范畴边界,而音程辨别函数则呈非单调性,在相邻范畴边界处出现峰值¹³⁰⁻¹³²。这种现象称为范畴感知(categorical perception)¹²⁷,表明音阶中的音程充当了吸引子——连续变化的音程必须被差异化识别才能被有效辨别。
模拟研究表明,非线性振荡器的内在动力学可在物理声音结束后维持对单个音高的记忆,而振荡器之间的耦合若形成简单频率关系,则可支持并稳定整体的共振模式¹³³,¹³⁴。这解释了为何基于简单频率比的音程比复杂比率的音程产生更稳定的记忆痕迹:婴儿、儿童和成人均仅在协和旋律音程(如纯五度,3:2)先呈现时,才能将其与音高距离相近的不协和音程(如三全音,45:32)区分开来¹³³,¹³⁵。这一发现无法用谐波模板匹配(harmonic template matching)¹³⁶解释(因其依赖同时发声的频率),但可通过非线性振荡网络中的自稳定共振(self-stabilizing resonance)加以解释¹³⁴。
隐含和声(Implied harmony)旋律中的级进(steps)与跳进(leaps)的相互作用对确定旋律所隐含的和声至关重要¹³⁷。一个结合短期赫布可塑性的非线性振荡网络模型成功捕捉了由级进与跳进动态所产生的隐含和声¹³⁸。模拟显示:调谐至和弦音的振荡器在对应刺激音结束后仍以高振幅共振,而调谐至非和弦音(装饰音)的振荡器则被后续音符迅速抑制(图5c)。该模型在驱动莫扎特钢琴奏鸣曲无伴奏旋律时所形成的共振模式,比单纯依据音符时长的统计模型更准确地匹配了标注的和声结构。
调性(Tonality)调性是指音乐中各音高之间稳定性与吸引关系的感知。这种现象在世界各地有记载的音乐体系中普遍存在²,³,¹²⁷,而具体的关系则依赖于学习与文化熏陶¹²⁷。在西方音乐理论中,某一特定音高(称为主音,tonic)最为稳定,并作为其他音高的组织中心,形成一个稳定性层级¹³⁹。调性稳定性可通过实验测量:让听者评价音阶中的某一“探测音”(probe tone)在特定音乐语境后听起来是否合适¹⁴⁰。
调性旋律中各音高的出现频率与西方调性层级高度相关⁶,¹⁴⁰⁻¹⁴³,而心理声学协和度与调性层级的相关性则较弱¹⁴⁰。然而,统计方法将这些规律视为既定事实,无法解释其成因。另一种观点认为,稳定性与吸引性可能是听觉记忆的涌现属性(emergent properties)¹⁴⁴,¹⁴⁵。NRT采纳这一观点,假设这些关系源于受音乐音高刺激的振荡神经网络的内在动力学。因此,调性稳定性本质上是特定音乐语境中频率关系的动力学稳定性。稳定的音高会吸引邻近的不稳定音高,这种现象被体验为旋律预期。
事实上,已有研究证明:音阶音与主音之间共振的稳定性,能够预测通过探测音方法测得的西方音乐调性层级¹³⁴,¹⁴⁰,¹⁴⁶(图5d)。每个音阶音的相对稳定性可通过一个源自耦合振荡器动力学分析的简单公式进行预测。值得注意的是,这种动力学稳定性并不依赖于统计规律,却能预测已知与统计高度相关的调性层级。这暗示:动力学稳定性可能催生了音乐中的统计规律,或许通过约束哪些音乐结构能够被稳定地形成和习得。
文化熏陶(Enculturation)动力学预测同样适用于不同音乐文化。一项跨文化研究测量了北印度拉格(raga)中各音高的稳定性,对象包括熟悉该风格的印度听众和不熟悉的北美听众¹⁴⁷。结果发现,两组听众的稳定性评分相似,且均与音符在语境中的时长相关。统计解释会认为西方听众迅速内化了音符统计规律。然而后续研究显示,与音符时长统计相比,动力学预测与调性轮廓的相关性更高,并能更好地预测印度本土听众和西方陌生听众的评分¹⁴⁸(图5d)。这表明,非线性共振可预测调性感知中的跨文化共性。
同时,文化熏陶效应也被发现:对印度和西方评分数据分别进行分析时,在动力学稳定性和音符时长的基础上,加入文化特异性预测因子(对印度听众为持续音 drone 和音阶成员身份,对西方听众为大调/小调调性层级)可进一步提升模型拟合度。在NRT框架中,文化效应被归因于动力系统对其环境的调谐。未来研究可探讨振荡网络中的赫布学习是否能复现印度与西方评分数据中的共性与差异。此外,还需进一步研究NRT是否能预测新型调性系统中的稳定性与吸引关系¹²⁸,¹⁴⁹。
情感(Affect)NRT进一步提出,音乐所引发的情感体验可以用神经动力学的稳定性与吸引性来解释。在音高之间的动态关系中,简单整数比(或调性上的“协和”)更具吸引力,因此相较于由更不协和、更复杂的整数比所引发的紧张感,它们可能带来一种解决感或奖赏感。这类关系或许可以解释为何在西方音乐中,稳定性更高的大调被体验为“快乐”,而稳定性较低的小调则被体验为“悲伤”¹⁵⁰。
个体听者的吸引子景观(attractor landscape)还会受到其对特定音乐文化调谐程度的进一步影响。音乐文化熏陶过程中的调谐,或许可以解释为何成人和年长儿童能感知到特定的情感效价(valence associations),而年幼儿童则不能¹⁵¹。
在缺乏文化调谐的情况下,支撑和声稳定性的内在动力学机制本身也足以解释某些跨文化情感感知现象——例如,非洲马法族(Mafa)听众如何感知西方古典音乐中的情感¹⁵²,或西方听众如何感知印度拉格(raga)音乐中的情感¹⁵³,¹⁵⁴。
这些发现为“音乐情感仅源于任意文化惯例”这一观点⁴,⁶,⁷提供了另一种解释路径。
讨论
将动力系统作为工具应用于音乐认知神经科学仍处于起步阶段。事实上,NRT(神经共振理论)很可能尚未穷尽其当前模型所能推导出的所有相关预测。动力学模型之所以具有吸引力,部分原因在于它们能够从关于神经机制的一般性假设出发,做出具体、定量甚至反直觉的预测。即便是简单的模型,也可能表现出意想不到的行为,从而成为生成可检验的音乐认知假说的宝贵工具⁷³,¹⁰⁷,¹⁰⁹,¹⁴⁸(读者若想亲身体验NRT模型的预测能力,可尝试用于构建和运行多个NRT模型的工具箱¹⁵⁵)。
将动力系统建模纳入音乐结构的假设生成与概念化过程,有助于推动认知神经科学领域直接将音乐认知与可观测的神经动力学联系起来。下文我们将讨论NRT的启示与未来方向,并将其与其他理论路径进行对比。
NRT的一个核心特征是:节奏的较慢时间尺度机制与音高的较快时间尺度机制,都被预测为通过受驱与耦合动力系统的基本原理运作。尽管本文通过规范建模(canonical modelling)阐明了这一点(图3),但据我们所知,目前尚缺乏直接跨时间尺度比较行为或神经预测的实证证据。一项有趣的研究¹⁵⁶构建了包含两个不同速度脉冲的多节奏,其速度比参照了协和与不协和音程的频率比¹¹⁹。结果发现,跨时间尺度的协和/不协和评分高度相关——无论多节奏还是音程,更复杂的比率均被评定为更不协和,这与NRT的预测一致。另一项研究则发现,大脑对节奏与音高的皮层反应存在差异,暗示不同时间尺度可能涉及不同类型的规范振荡器¹⁵⁷。未来研究可在行为与神经生理层面进行直接跨尺度比较,以进一步指导动力学建模与分析。
基于赫布可塑性的调谐(attunement)机制已被用于解释发育中的某些关键结果³⁰。该机制也可能适用于建模节奏能力(如脉冲与节拍感知)的涌现过程——这些能力具有漫长的发育轨迹¹⁵⁸。相关地,一些成年人无法在复杂节奏中感知脉冲或节拍⁸⁹,¹⁵⁹,未来研究应更全面地探讨个体差异及其对耦合强度等简单关系的依赖。在音程的较快时间尺度上,更稳定的模式也应比不稳定的模式学得更快,并受已有可塑性连接的调节。例如,在学习基于波伦–皮尔斯音阶(Bohlen–Pierce scale)¹⁴⁹(一种以三倍频3:1而非八度2:1为基础的调性系统)的人工音乐语法时,NRT的预测将非常明确。此外,NRT关于“某些结构比其他结构需要更长时间学习”的预测,源于对赫布可塑性的分析¹⁹。这一预测符合直觉与经验,却与仅依赖统计规律内化的理论相悖。因此,未来研究应直接对比动力学预测与统计学习预测在音乐习得方面的差异。
NRT预测,稳定的音乐结构(如更小的整数比)会比不稳定的结构更频繁地出现。这些结构应跨越不同音乐文化普遍存在,或表现为“统计普遍性”³,因为产生音乐的认知与行为遵循本文所述的动力学原理。值得注意的是,节奏无需完全周期性,音程也无需完美调音。NRT模型能够解释音乐表层结构中的扰动(如音准偏差或相位偏移),因为吸引子盆地(attractor basins)内的稳定状态提供了灵活性。此外,共振神经回路的复杂相互作用可能产生偏离精确相位与频率关系的稳定状态。与此一致,比较研究已揭示:在较快²,¹²⁷,¹⁴⁷和较慢³,¹⁶⁰,¹⁶¹时间尺度上,完美协和音及其他简单整数比均被广泛使用。未来动力系统研究应依据动力学预测,对跨文化音乐语料库中的统计普遍性进行考察。
感知到的音乐结构的稳定性,以及扰动后向稳定状态的吸引,可能共同促成音乐的情感体验。例如,高唤醒度的音乐作品通常具有更快的速度和突然的响度变化¹⁶²。对这些时间要素的夹带涉及前庭系统⁹⁴,进而可能影响心率¹⁶³和边缘系统¹⁶⁴,即使在音乐的时频特性被降级的情况下,也能从身体层面影响情绪唤醒的体验¹⁶⁵,¹⁶⁶。在较快时间尺度上,和声音程的协和与不协和——与情绪的正/负效价及悦耳/刺耳感受相关¹¹⁷——可能同样影响具身化的音乐情感。在西方调性音乐中,音乐语法规则⁶⁶,¹³⁹通常与“简单整数比在结构突出位置‘锚定’调性”的观念一致,而复杂比率则用于在这些锚点之间制造不协和或紧张感,当紧张回归松弛时,便有效创造出终结感(closure)。未来对音乐情感中稳定性与吸引作用的研究,也应考虑节奏与调性系统在不同文化中的差异,因为对不同音乐系统的调谐会建立不同的共振模式。尽管如此,NRT的总体预测是:动力学稳定性的方向——即从较不稳定结构向更稳定结构的吸引——将影响所体验的音乐情感。
在本文余下部分,我们将NRT置于其他音乐认知理论的背景下加以审视。
预测加工理论(如PCM)提出,音乐预期是一种递归贝叶斯过程:特定脑网络将自下而上的感觉输入与自上而下的预测进行比较,并通过精度加权调整来最小化预测误差⁷。与PCM类似,NRT也解释了大脑如何生成音乐预测。某些PCM模型甚至纳入了振荡器模型,或建议将神经动力学视为预测编码的一种实现方式¹⁶⁷。然而,NRT依赖生理机制的内在动力学来解释结构与预期,而预测编码则完全基于先验学习,是一种截然不同的解释框架。前文已指出,一个成功的NRT律动感模型并不支持PCM的“精度加权预测误差”原则;其预测基于共振能否激活脉冲频率振荡的能力。尽管看似预期性动作需要显式的未来预测,但我们已证明,即使是预期也可能源于动力系统内部的延迟自反馈³⁵,³⁸。最后,根据NRT,跨快慢时间尺度的音乐行为均由动力学原理支配,使得动力学本身具身化(embody)了音乐结构。这与PCM根本不同——在PCM中,仅在较慢时间尺度上,特定神经回路通过自上而下过程对模型施加影响,从而计算并更新预测。
这些不同视角的细微差别尚未被充分对比,但未来研究有助于确定哪种路径能更稳健地预测实证数据。
依赖统计学习的理论(包括PCM)认为,大脑基于环境中的统计规律构建内部模型以进行预测。因此,音乐中一致的统计结构(即模式)可被大脑学习并预测。相比之下,NRT预测:音乐的统计规律本身源于神经系统内在的稳定动力学与模式。因此,NRT不仅能预测哪些模式更容易学习,还能解释为何某些模式在全球音乐中更为常见,而纯粹的统计学习理论则无法做到这一点。然而,有研究将脉冲感知描述为周期性框架中的贝叶斯推断,并展示了如何将此类模型系统性地转化为受迫阻尼振荡器¹⁶⁷,从而在统计学习与动力系统之间搭建数学桥梁。另一项近期模型表明,同步敲击等节奏行为可通过循环神经网络习得,动力学分析揭示该网络通过兴奋性与抑制性单元的相互作用学会了振荡与同步¹⁶⁸。该模型捕捉到了非人动物节奏学习的神经数据¹⁶⁸,¹⁶⁹,可能解释了为何非发声学习物种³⁶也能学会与音乐节拍同步¹⁷⁰,¹⁷¹。未来若能对动力学与其他学习路径进行比较、对比与整合,或将弥合重要的理论鸿沟,不仅深化我们对音乐感知与演奏中神经加工的理解,还可能将音乐认知与其他更广泛的认知过程(如决策)联系起来。
总之,在本篇观点文章中,我们探讨了如何基于已知神经机制的基本动力学原理,解释跨时间尺度的音乐基本特征。NRT不仅能为神经科学和人类行为提供洞见,还能阐明二者之间的联系。这些洞见有助于揭示脑与身体的相互关联、音乐传递情感与情绪的能力、音乐在人际联结中的作用,以及音乐在脑健康领域的应用潜力。

原文链接:https://www.nature.com/articles/s41583-025-00915-4