首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >连续思考机器 Continuous Thought Machines

连续思考机器 Continuous Thought Machines

作者头像
CreateAMind
发布2026-03-11 17:11:23
发布2026-03-11 17:11:23
340
举报
文章被收录于专栏:CreateAMindCreateAMind

连续思考机器 Continuous Thought Machines

生物大脑表现出复杂的神经活动,神经元之间的时间与相互作用对信息处理至关重要。大多数深度学习架构通过忽略时间动态来简化神经活动。本文挑战这一范式,提出通过引入神经元级处理与同步机制,将神经时间重新作为基础要素。我们提出“连续思维机”(Continuous Thought Machine, CTM),其核心是利用神经动力学作为表征。CTM有两个核心创新:(1)神经元级时间处理,每个神经元使用独特权重参数处理输入信号的历史;(2)将神经同步作为潜在表征。CTM在简化抽象与生物真实性之间取得平衡,既能有效捕捉关键时间动态,又保持深度学习的计算可行性。我们在多种复杂任务上验证了CTM的强性能与通用性,包括ImageNet-1K分类、求解2D迷宫、排序、奇偶计算、问答及强化学习任务。CTM不仅展现出丰富的内部表征和可解释性,还能执行需要复杂序列推理的任务。此外,CTM支持自适应计算:对简单任务可提前终止,对困难任务则持续计算。本研究旨在分享CTM及其创新,而非追求新的最先进性能。我们认为,CTM是迈向更贴近生物机制且更强大的人工智能系统的重要一步。随本文发布CTM代码库及模型检查点,同时建议读者访问项目页面查看交互式演示,以更好展示CTM能力。

1. 引言 神经网络(NN)最初受生物大脑启发,但与生物系统仍有显著差异。大脑表现出随时间演化的复杂神经动力学,而现代神经网络有意忽略这些时间动态,以促进大规模深度学习。例如,标准神经网络的激活函数可视为对神经元放电率的抽象,用单一静态值取代生物过程的时间动态。这类简化虽推动了大规模机器学习的发展(Goodfellow等,2016;LeCun等,2015;Wei等,2022),却偏离了生物神经计算的基本原理。

数亿年来,进化赋予生物大脑丰富的神经动力学机制,如脉冲时序依赖可塑性(STDP)(Caporale和Dan,2008)和神经元振荡。模拟这些机制,尤其是脉冲时序与同步中的时间编码,极具挑战性。因此,现代神经网络不依赖时间动态进行计算,而是优先考虑简洁性与计算效率。这种抽象虽提升了特定任务的性能,但也导致当前AI能力与人类认知的灵活性、通用性之间存在明显差距,暗示我们模型中可能缺失了与时间处理相关的关键要素(Chollet,2019;Lake等,2017;Marcus,2018)。

为何开展此项研究?现代AI在诸多实际领域表现出色,似乎表明模拟神经动力学是不必要的,或显式考虑智能的时间维度并不务实。然而,人类智能具有高度灵活性、数据效率高、能良好外推至未见情境,存在于一个学习与适应随时间推进的开放世界中。因此,人类智能包含常识、本体推理能力、透明性/可解释性以及强泛化能力。当前AI尚未令人信服地展现这些特性(Chollet,2019;Hohenecker和Lukasiewicz,2020;Marcus,2018;Thompson等,2020)。

基于此,我们认为时间应成为人工智能的核心组成部分,以期最终达到或超越人类大脑的智能水平(Cariani和Baker,2022;Maass,2001)。因此,本研究致力于解决忽视神经活动作为智能核心要素的重大局限。我们提出“连续思维机”(Continuous Thought Machine, CTM),一种新型神经网络架构,明确将神经时间作为基础要素。我们的贡献如下:

  1. 我们引入一个解耦的内部维度,用于建模神经活动的时间演化。我们将此维度视为人工神经系统中“思维”展开的过程,故采用此命名。尽管内部递归在神经网络中并非新概念,但我们的创新在于利用递归显式构建和操控神经活动模式。通过在离散内部“时钟”步长上推进(Kirsch和Schmidhuber,2021;Kirsch等,2022;Pedersen等,2024;Schwarzschild等,2021),该内部维度使CTM能够建立复杂、依赖时间的神经动力学,直接回应“神经事件的时序对神经计算至关重要”这一生物学原则。这与传统递归用途不同,后者主要处理序列数据,而非生成动态神经活动。
  2. 我们提出一种中等层级的神经元抽象,称为“神经元级模型”(NLMs),其中每个神经元拥有独立的内部权重,用于处理输入信号(即预激活)的历史,以计算其下一次激活(而非使用静态的ReLU等)。该方法实现简单,易于与现有深度学习架构扩展兼容,并产生比静态激活函数更具变异性与复杂性的神经激活动态(见第3.2和第5节)。
  3. 我们直接将神经同步作为潜在表征,供CTM进行观察(如通过注意力查询)和预测(如投影至logits)。这一受生物启发的设计强调神经活动是CTM展现任何智能表现的关键要素。

推理模型与递归。人工智能前沿正面临关键转折点:从简单的输入-输出映射转向真正的推理能力。尽管扩大现有模型规模取得了显著进展,但伴随的计算成本和数据需求不可持续,引发对这一路径长期可行性的质疑。对于序列数据,传统递归结构(Dey和Salem,2017;Hochreiter和Schmidhuber,1997;Medsker和Jain,1999)已大多被基于Transformer的方法取代(Vaswani等,2017)。然而,递归正重新成为扩展模型复杂性的自然途径。递归之所以有前景,是因为它支持迭代处理和信息随时间积累。现代文本生成模型在测试时利用中间生成结果作为递归形式,以增加计算量。近期其他研究也展示了潜层递归应用的优势(Geiping等,2025;Jaegle等,2021;Yang等,2023)。

尽管这些方法使我们更接近生物大脑的递归结构,但根本差距依然存在。我们认为,递归虽必不可少,却只是拼图的一部分。由递归解锁的时间动态——神经活动的精确时序与交互——同样至关重要。CTM在三方面区别于现有方法:(1)内部“思维”维度可在任意数据模态上实现顺序思考;(2)私有的神经元级模型支持精确神经时序的建模;(3)直接将神经同步作为任务求解的表征。

有益的副作用。CTM的内部递归类似于“思维”过程(因此得名):对简单任务可提前“停止思考”(如易识别图像;见图5),对复杂任务则深入计算(如长迷宫;见第4.3节),从而实现一种自适应计算。特别地,CTM无需额外难以调参的损失函数即可实现自适应计算(Graves,2016)。我们观察到可解释且直观的问题解决策略自然涌现,表明利用神经时序可带来更多涌现效益,可能构建更有效的AI系统。显式建模神经时序的另一积极效果是信息可编码于时序中,从而增强上下文建模能力——我们设计的2D迷宫求解任务即用于验证这一点(第4节)。

本文其余部分结构如下:第2节介绍CTM的技术细节;第3至10节将CTM应用于图像分类、2D迷宫、排序、奇偶计算、问答及简单强化学习任务,每个实验旨在探究特定特性,并在可能情况下与基线对比;第12节讨论研究发现并提出未来方向;第13节总结结论。通过CTM显式建模神经时序,我们旨在为更贴近生物机制且性能更强的人工智能系统铺平道路。

2.方法

连续思维机(CTM)是一种神经网络架构,提供了一种思考数据的全新方式。它不同于传统的前馈模型,明确将神经动力学概念作为其功能的核心组成部分。图1展示了CTM的总体结构,其中编号1到10表示数据流动顺序,清单1则提供了简化的流程概述以便理解。图1中的黄色数字将在本文后续部分被反复引用。

其他递归架构(如RNN)也可设置一个独立于输入数据的内部时间维度(Graves, 2016; Kirsch 和 Schmidhuber, 2021; Kirsch 等, 2022; Pedersen 等, 2024; Schwarzschild 等, 2021),但CTM在两个关键方面有所不同:(1)CTM不使用传统的激活函数,而是采用“神经元级模型”,每个神经元拥有独立权重,用于处理预激活值的历史,从而产生复杂的神经元级活动(见第3节示例);(2)CTM在调制数据和生成输出时,直接将神经同步作为潜在表征(见第2.4节),有效实现了一种新的能力深度,使其能够创建、维持并利用神经元之间精确的时序与交互。接下来的小节将详细描述CTM的结构与机制。

2.1 连续思维:内部序列维度 我们首先引入一个可用于认知的内部维度:𝑡 ∈ {1, ..., 𝑇},其中单个步骤的流程由图1中的1到10表示。该维度与输入数据解耦,即它在模型内部展开,并不依赖于任何数据本身的维度。沿内部维度进行递归并非新概念(Chahine等,2023;Geiping等,2025;Jaeger,2007),但由于当前对构建现代AI推理能力的迫切需求,这一思路正受到越来越多关注。与传统的序列模型(如RNN或Transformer)不同——后者按数据固有的顺序逐步处理输入(例如句子中的词或视频中的帧)——CTM沿着一个自生成的内部“思维步骤”时间线运行。这种内部展开机制使模型能够迭代地构建和优化其表征,即使在处理静态或非序列数据(如图像或迷宫)时也是如此。因此,CTM可以进行一种与外部时间解耦的思维过程,从而实现更灵活、更可解释、更贴近生物机制的计算。为了与相关研究中的术语保持一致(Kirsch和Schmidhuber,2021;Kirsch等,2022;Pedersen等,2024;Schwarzschild等,2021),我们此后将这些思维步骤称为“内部时钟步”(internal ticks)。CTM的内部维度是神经活动动力学得以展开的维度。我们认为,这类动力学很可能是智能思维的核心基础之一。清单1中的for循环即描述了图1所示的过程。

2.2 递归权重:突触

2.3 私有参数化的神经元级模型

𝑀 有效定义了每个神经元级模型所处理的预激活历史的长度。我们测试了多个 𝑀 的取值,发现取值范围在 10 到 100 之间效果较好。随后,每个神经元 {1, ..., 𝐷} 都被赋予一个独立的、私有参数化的模型,用于生成我们所认为的后激活值:

2.4 神经同步:调制数据与输出

CTM应如何与外部世界交互?具体来说,CTM应如何接收输入并产生输出?我们引入了一个类似“思维”展开的时间维度。我们还希望CTM与数据的关系(即其交互方式)不依赖于神经元状态的某一瞬时快照(在某个𝑡时刻),而是依赖于神经元活动持续进行的时间动态。为此,我们再次从自然大脑中寻求灵感,发现“神经同步”(Uhlhaas等,2009)这一概念既契合又强大。为了实现同步,我们首先将后激活值汇总为一个后激活“历史”:

2.5 损失函数:跨内部时刻优化

将时间作为CTM的基本功能要素,带来了诸多有益特性,其中之一便是:我们可以在不限制内部时钟步数量的情况下训练CTM。这种自由看似细微,实则意义深远,因为它使CTM能够根据不同数据点的需求分配不同量的计算资源。这种自适应/动态计算的思想(Graves, 2016)与现代测试时计算趋势一致,区别在于,这种理想建模特性是CTM自然衍生的结果,而非在训练后追加或学习过程中强行施加的限制。值得注意的是,损失函数中没有任何显式鼓励该行为的机制。在某种意义上,CTM实现了一种归纳偏置,即建模过程的复杂性(以所用内部时钟步数近似衡量)可根据输入数据进行调整。我们认为,这是一种更为自然的方式来应对难度各异的问题(例如易于与难以分类的图像)。这种特性随着生物合理性的提升而自然出现并不意外,但令人欣慰。我们将在第5节中将CTM的性能与特性与其他模型及人类基线进行对比。

实验评估 以下各节对连续思维机(CTM)在一系列多样化且具有挑战性的任务中进行了全面评估。这些实验的主要目标是探索CTM核心设计原则——神经元级时间处理以及将神经同步作为直接潜在表征——所涌现出的能力与特性。我们旨在理解:显式建模并利用内部神经活动的展开过程,如何使CTM应对需要不同智能层面的问题。

我们首先在ImageNet-1K等标准感知任务上考察CTM(第3节),重点关注其内部动力学的丰富性、涌现的推理过程、校准特性以及自适应计算能力。随后,我们补充了在CIFAR-10上与人类表现的对比研究(第5节),以及在CIFAR-100上的消融实验(第6节)。

接着,我们通过一项具有挑战性的2D迷宫导航任务,专门检验CTM在复杂序列推理、规划和空间理解方面的能力,该任务要求模型构建内部世界模型(第4节)。

进一步的实验探究了CTM在基于序列的算法任务上的学习与执行能力,例如对实数进行排序(第7节)和累积奇偶性计算(第8节),其中思维的时间展开至关重要。我们还通过基于MNIST数字的问答任务,测试其记忆、检索和符号操作能力(第9节)。

最后,我们将CTM扩展到强化学习环境中,以展示其在序列决策和与外部世界持续交互方面的适用性(第10节)。

总体而言,这些实验旨在揭示:将计算建立在神经动力学基础上,如何使CTM发展并利用内部思维过程,提供一种区别于传统模型的独特路径,并向更贴近生物机制的人工智能迈出一步。

3 ImageNet-1K分类

本节中,我们在ImageNet-1K分类任务上测试CTM。我们并不声称CTM在分类准确率方面达到最先进水平——这需要大量努力和调优以找到最优训练方案(Vryniotis和Cord,2021),而是强调CTM解决该任务的方式具有新颖性,值得深入考察。模型设置与超参数详见附录C.1。采用ResNet-152作为骨干网络时,CTM在未裁剪的ImageNet-1K验证数据上(短边缩放至256)取得了72.47%的top-1验证准确率和89.89%的top-5验证准确率。尽管该结果目前尚无法与最先进技术相比,但这也是首次尝试使用神经动力学作为表征来分类ImageNet-1K。我们预期,随着进一步改进、更多超参数调优以及为CTM量身定制的特征提取器,这一差距将逐步缩小。

3.1.预测分析:思维维度的力量

图2展示了当达到预设的最低置信度时,CTM的内部时钟步可被截断,以及对应的预期top-5准确率。例如,所有数据在少于20个内部时钟步内即可达到0.5的置信度;但若将阈值设为0.8,则并非所有样本总能达到该阈值。在后一种情况下,用户可根据需要截断计算。当达到可接受的内部置信阈值时停止内部时钟步,即可实现一种自适应计算。

预测机制:考虑置信度。图3a展示了不同预测机制对整体性能的影响。我们对比了“即时”预测(即每个内部时钟步的预测)与基于置信度的预测:截至某一步的最高置信度,以及按置信度加权logits的预测。有趣的是,大约经过15个内部时钟步后,显式考虑置信度变得更为有利。使用logits的未加权平均性能最差,表明CTM确实经历了一个逐步优化预测的过程,期间可能经过一些低置信度的错误预测。图5b提供了低置信度实例的具体例子,进一步佐证了这一点。

图3b显示了CTM置信度达到至少0.8时所需内部时钟步的分布,表明大多数样本所需步数少于10步,但存在长尾,最多达50步。图3c的校准曲线尤为引人注目,显示CTM具有非常好的校准性。这归因于CTM随着内部时钟步推进而逐渐增强置信度:我们将某样本的预测概率视为所选类别在各内部时钟步概率的平均值。图5的演示清楚展示了置信度随内部时钟步逐步上升。显然,这种内部思维过程使CTM能够生成更可信的类别概率——而这一特性通常需要训练后校准或特殊训练设置才能实现(Guo等,2017)。

3.2.神经动力学分析

图4可视化了该CTM的后激活神经动力学。这些动力学具有多样性且结构丰富,构成了CTM采取行动和做出决策所依赖的表征。本图的目的是展示CTM确实产生了多样化的神经活动,这些活动之间的动态关系(例如同步性)可以被测量,并作为下游任务的强大潜在表征。我们在第4节中将提供证据,表明这种表征在问题求解中具有高实用性。

重点信息:图4显示,CTM中的神经元表现出复杂的多尺度模式,但尚未解释这种特性为何具有实际用途。我们展示这一点的目的是为了证明:CTM构建并利用了真实的动力学过程,其中神经活动的模式是非平凡且多样化的。这些动力学及其内在复杂性构成了一种新型表征,我们认为它更接近生物神经计算中真实存在的机制。

3.3.示范:CTM遵循一个过程

图5展示了ImageNet-1K验证集中的若干样本,呈现了CTM“看到”的内容。更多示例见附录C.3。我们建议读者以视频形式观看这些可视化结果,因为共有50帧(每帧对应一个内部时钟步),可清晰展示注意力图谱如何随时间变化,在CTM的内部思维过程中逐步转移到图像的不同区域。注意力在图像各部分之间平滑转移的特性是在训练过程中自然涌现的。我们尝试用箭头示意这种过渡性的注意力,以展示其如何以直观的方式在显著区域间移动。本文无法详尽分析这些注意力图谱演变过程中的每一个有趣细节。因此,我们仅通过这些示例说明注意力模式所体现的复杂推理过程。图中还展示了置信度随时间的变化,反映出CTM在推理过程中逐渐增强确定性。

需要注意的是,由于CTM使用注意力机制来检索信息,因此它不受固定尺寸图像的限制(未来也可应用于任意长度的token序列),这也是我们能在未裁剪验证数据上进行评估的原因。理论上,可以通过多分辨率输入构建token的层级结构,使CTM在推理时(而非训练时)关注大量token,但这一探索留待后续工作。

CTM学会随时间观察。在实验过程中,我们持续监控了CTM在训练中的功能演化。尽管本文未直接展示,但神经动力学的复杂性,以及随之而来的CTM观察过程的复杂性,会随着学习逐步提升。初期,CTM并不会像图5所示那样“四处观察”,而是随着时间推移才逐渐学会这种行为。Xu等(2015)的早期工作曾展示如何用RNN对图像进行推理以生成文本描述;而CTM的推理过程不同之处在于,它沿着一个与输入和目标数据均解耦的内部维度展开,却仍能产生复杂的注意力模式,清晰揭示其决策时的关注区域。

迈向自然智能。在许多方面,生物智能仍优于人工智能(Chollet等,2024;Lake等,2017;Phan等,2025;Ren和Xia,2024)。生物大脑解决问题的方式与传统神经网络截然不同,这或许正是其优势所在。本研究旨在构建一种更贴近生物大脑问题解决方式的模型,强调神经动力学在实现这种相似性中的核心作用。我们的观察表明,CTM确实经历了一个逐步从图像中检索信息的过程。附录C.3中提供了更多示例,每个实例都展现出有趣或独特的模式与结果。

作为最后一点对比,我们考察了低频行波(low-frequency traveling waves)——这一现象在皮层动力学中被广泛记录,并被认为参与多种神经计算(Muller等,2018)。我们给出图6,其中使用UMAP(McInnes等,2018)将CTM的神经元映射到二维特征空间。每个神经元在此空间中的位置由其激活“特征谱”决定——即其在时间和多种刺激下的响应模式(见附录J)。将这一映射随内部时钟步可视化后,可观察到低频结构在特征空间中传播(以视频形式观看效果最佳)。重要的是,CTM以一种自然涌现的方式生成这一结构,并未引入任何显式的驱动信号。类似现象也出现在Kuramoto振荡器网络中(Miyato等,2024);而在我们的情况下,行波在一个全连接网络的习得特征图上进行传播。同期研究也探索了显式编码行波以实现长距离通信的方法(Jacobs等,2025)。我们并未为这些观察到的行波赋予具体功能意义,但强调它们在CTM思维过程中显著存在。

4. 2D迷宫:需要复杂序列推理的任务设置

本节中,我们使用2D迷宫来研究CTM在规划与导航任务中的行为。解决2D迷宫问题在具备合适归纳偏置的情况下可能很简单:例如,使输出空间与输入空间尺寸一致,要求模型在每个像素上执行二分类。这种设置对机器而言较为友好,因为模型可以学习迭代式算法解法(Bansal等,2022;Schwarzschild等,2021),但这也避免了以更自然的方式进行思考。即便如此,模型的可训练性仍存疑,相关技术往往依赖精心设计的模型结构或目标函数,以实现向更大迷宫的泛化(Bansal等,2022;Zhang等,2025)。这种泛化能力固然是智能的重要方面之一。

然而,直接找出迷宫的解法,与通过一个思维过程逐步形成该解法之间存在关键区别。尽管这些系统可能展现出令人印象深刻的涌现行为(例如泛化到远大于训练尺寸的迷宫(Bansal等,2022)),但很难判断它们是否真正体现了智能。我们如何使2D迷宫任务更具挑战性,从而要求类似人类的解题方式?我们提出以下两点改进:

  1. 将输出空间直接限制为从起点(红色像素)到终点(绿色像素)的一系列移动步骤。要求以固定大小数组(长度为100)的形式输出解,每一步包含5种移动类型之一(左、右、上、下或等待)。这避免了上述简单解法,要求模型对目标迷宫有更深入的理解。
  2. 在使用注意力机制时禁止使用位置编码(positional embeddings)。原因有二:(1)迫使模型构建内部“世界表征”,使其只能基于对数据的持续理解来生成注意力查询;(2)使模型能无缝扩展到更大的迷宫图像(见第4.3节)。

我们希望这种重新设计的2D迷宫任务能成为一个具有挑战性的基准,用于凸显那些能够进行思维过程的模型。我们使用maze-dataset代码库(Ivanitskiy等,2023)生成训练用39×39迷宫和泛化测试用99×99迷宫。我们训练了三种模型变体进行对比:

  1. 一个带有受限ResNet-34骨干网络的CTM,仅使用前两个超块。该CTM结构几乎与图像分类任务中使用的相同(第3节)。在每个内部时钟步,CTM输出一个矩阵,表示从起点开始的路径 y𝑡 ∈ ℝ¹⁰⁰×⁵(见公式6)。模型使用可变内部时钟步的损失函数(公式12)进行训练。我们还调整损失函数,采用课程学习(curriculum)策略,优先优化路径的早期步骤。超参数详见附录D.2,课程学习方法详见附录D.3。
  2. 使用与CTM相同模型宽度的1层、2层和3层LSTM基线模型(详见附录D.4)。LSTM基线也采用课程学习,但在迷宫路径的少数几步后便无法继续学习。
  3. 一个仅前馈(无递归)的模型(FF),其特征通过一个隐藏层(宽度与CTM相同)直接投影到预测输出(详见附录D.4)。由于CTM和LSTM模型不使用位置编码,必须学习构建输入数据的内部表征,而FF模型不具备此类机制。因此,我们将ResNet的最终特征展平后直接投影到 y𝑡,使FF模型能直接学习空间上下文。

在相同隐藏层宽度下,CTM所需的参数最少。更多细节见附录D.4。

4.1 结果 图7a展示了CTM与基线模型的准确率对比。FF模型和最佳LSTM模型均表现出过拟合迹象(损失曲线见附录D.5),表明其结构不适合该任务。只有CTM在本任务上实现了高准确率。在实验过程中,我们始终无法使LSTM达到相同性能,其中表现最好的是使用50个内部时钟步的单层LSTM。通过检查其解法,并结合图7b中的橙色曲线(“LSTM=1, 50 ticks”)可以看出,LSTM开始学习到某种解法,但无法进一步提升。

可训练性。本例中CTM与LSTM在性能上的巨大差距引发了对模型可训练性的思考,CTM明显更易于优化。解决迷宫任务十分复杂,因为它要求模型构建并维护一个复杂的表征,用于调节数据交互、生成路径预测,并持续记忆当前所处位置(详见第4.4节的进一步讨论)。而CTM仅需对预测形式做最小修改即可完成此任务,充分证明了其有效性。

图7b展示了在保留测试集上,不同路径长度下的准确率表现。CTM明显更具能力解决更长路径的迷宫,而基线方法在路径较短时就开始失效,表现最好的LSTM在迷宫路径约20步后便失去能力。这表明CTM更有能力学习解决困难问题。深度为1的LSTM在参数量上最接近CTM,但所有基线模型的参数量均更多。换言之,CTM性能更优并非因其参数更多,而是源于其核心设计理念:神经动力学与同步机制确实具有实际效用。

4.2 演示:CTM学会通用解题流程 图8展示了CTM的求解过程。通过可视化时间上各注意力头的平均注意力权重,我们可以看到CTM如何有条不紊地沿着一条合理路径逐步推进,直到抵达其预测的迷宫终点。这种问题求解过程与人类从上至下解决迷宫的方式颇为相似。我们提醒读者注意:该迷宫求解CTM并未使用任何位置编码,这意味着它若要沿路径前进,必须通过“想象”迷宫未来的状态来构建交叉注意力查询——这一过程在人类中被称为“情景未来思维”(episodic future thinking)(Atance和O’Neill,2001)。

4.3.推广到更长的路径和更大的迷宫

我们在前一节的观察表明,CTM可能具备超出训练数据的泛化能力。我们决定不使用任何位置编码的原因之一,正是希望该模型无需修改即可应用于任意尺寸的迷宫。为验证这一点,我们测试了CTM在更长路径和更大迷宫上的表现。具体设置如下:

  1. 为测试更长路径,我们使用与训练时相同尺寸的迷宫(39×39),但当遇到路径长度超过100步(即CTM训练时的最大输出长度)时,重新应用CTM。重新应用时,我们将起点(红色像素)移动到CTM在最终内部时钟步(第75步)输出路径中的最后一个有效位置,然后继续推理。
  2. 在泛化到更大迷宫时,我们采用与处理长路径相同的协议,但在99×99尺寸的迷宫上进行测试。

图9展示了在更长路径和更大迷宫上的泛化结果。对于39×39迷宫中的任意长度路径,CTM几乎完美求解;但在更大的99×99迷宫上,性能开始逐渐下降。这可能是由于更大迷宫中起点与终点之间的绝对距离更远所致。在未来工作中,我们计划探索一种连续训练机制:(1)考虑CTM预测的终点位置;(2)保持当前的神经动力学过程;(3)将起点“传送”至预测的终点;(4)从该位置继续下一个训练批次。这种设置将更契合CTM的序列特性。我们鼓励读者访问我们的项目页面,使用交互式演示与CTM互动,亲自体验其求解此类迷宫的过程。关于“开放世界”训练的进一步讨论,请参见第12节的未来工作展望。

4.4 讨论:世界模型与认知地图的必要性

世界内部模型和认知地图是智能系统的关键组成部分(Gornet 和 Thomson,2024;Ha 和 Schmidhuber,2018;LeCun,2022)。在此,我们将“世界模型”定义为对外部环境的内部表征,包含智能体对世界结构、动态变化及其可施加行为的理解。一个好的世界模型应能使智能体对环境进行推理、规划,并预测其行为的后果。而“认知地图”(Gornet 和 Thomson,2024)则更专注于空间关系与导航能力。构建并利用这类内部表征的能力,是高级智能的有力指标,甚至可视为必要前提。人类智能的一个标志性特征——“情景未来思维”(Atance 和 O’Neill,2001)——正是基于此类能力。缺乏世界模型的智能体只能局限于反应式行为;而没有认知地图,则会严重限制其在复杂空间环境中有效导航与交互的能力。因此,世界模型与认知地图的存在及其复杂程度,可作为评估智能水平的重要基准。

为此,我们设计的迷宫任务要求模型必须具备良好的内部世界模型才能求解。具体通过两点实现:(1)要求模型直接输出完整路径,而非使用局部算法逐步求解迷宫(如 Schwarzschild 等,2021);(2)在图像表征中不使用任何位置编码,这意味着模型必须自行构建空间认知地图才能完成任务(Gornet 和 Thomson,2024)。事实上,我们观察到CTM中的神经元级模型(NLMs)和神经同步机制使其能够成功解决该2D迷宫任务,性能远超我们训练的所有基线模型。这些结果表明,CTM具备更强的能力来构建并利用环境的内部模型。

5. CIFAR-10:CTM与人类及基线模型的对比 本节中,我们使用CIFAR-10测试CTM,并将其与人类表现、前馈(FF)基线模型和LSTM基线模型进行比较。对于基于模型的基线,我们采用了受限的特征提取骨干网络,以突出特征提取后模型结构本身(即CTM、LSTM与FF)带来的差异。此外,我们设置50个内部时钟步,使CTM和LSTM有“思考时间”。完整架构细节见附录E。人类与模型基线设置如下:

• 人类基线:我们使用了两个CIFAR-10的人类标注数据集;其中一个称为CIFAR-10D(Ho-Phuoc,2018),因其对样本难度进行了分级;另一个为CIFAR-10H(Peterson等,2019),最初用于量化人类的不确定性。我们使用CIFAR-10D来区分简单与困难样本,使用CIFAR-10H作为直接的人类表现基线。

• FF基线:仅前馈的基线模型(记为FF)。在ResNet特征经平均池化后,接入一个MLP,其隐藏层宽度设置为与本实验中CTM的参数量相匹配。

• LSTM基线:LSTM模型被设置为沿内部思维维度展开,其隐藏层宽度也与CTM参数量匹配。LSTM在每一步均可关注图像,并采用与CTM相同的损失函数,以确保有效对比。

图10展示了CTM、FF和LSTM模型的训练曲线,以及各自的校准图,其中包括基于CIFAR-10H对人类校准的估计。FF基线早期即达到高训练准确率,但泛化能力差,存在明显的泛化差距。LSTM在训练过程中稳定性较差(因此所有实验中学习率需设为0.0001),测试准确率仅有轻微提升。相比之下,CTM在训练中更稳定,性能更优。

对于人类校准,我们使用了CIFAR-10H提供的概率,这些概率由多名人类的猜测结果计算得出。我们采用与ImageNet-1K相同的方式计算校准性(见图3c):将预测概率定义为所选类别在所有内部时钟步上的平均概率。所有模型均未达到完美校准,但CTM的校准性最佳,甚至优于人类。令人惊讶的是,CTM的校准性比人类更好,而LSTM则表现出与人类相似的“信心不足”趋势。

图11a将各模型与CIFAR-10H的人类表现,根据CIFAR-10D确定的样本难度进行对比。各模型与人类在此任务上趋势相似,其中CTM最接近CIFAR-10H的表现。图11b和图11c将CTM与LSTM的不确定性与人类不确定性进行比较(使用CIFAR-10H中的反应时间作为不确定性的代理指标)。我们通过计算各内部时钟步归一化熵的平均值来衡量CTM和LSTM的不确定性(见第2.5节),以近似模型对观测数据的整体不确定性。CTM和LSTM的不确定性趋势均与人类反应时间趋势相似。

图12展示了CTM与LSTM基线的神经活动。CTM展现出丰富、多样且复杂的动力学特征,包括周期性行为(并无周期性驱动函数)。CTM与LSTM在神经活动上的显著差异表明,CTM的两个创新设计(神经元级模型NLMs和将同步作为表征)使神经动力学成为一种基本的计算工具。

6. CIFAR-100:消融分析 本节中,我们探讨CTM的两个方面:(1)宽度(即神经元数量);(2)内部时钟步数。以下实验使用CIFAR-100数据集,因其比CIFAR-10更具挑战性,同时计算开销相对较低。 6.1 改变神经元数量

图13a展示了在固定骨干网络(详见附录F.1)下,CIFAR-100准确率随模型宽度(即神经元数量)的变化情况,显示性能先提升后下降。性能下降可能与过拟合有关,也可能是因为更宽的模型需要更多训练(我们设定了固定的训练迭代次数)。

图13b和图13c展示了模型宽度与神经活动多样性的关系。直观上,神经元越多,神经活动应越丰富,这些分布结果正体现了这一点。图13b显示,在跨数据样本的神经元级别上计算余弦相似度(对所有神经元取平均)时,更宽的模型在零值附近的分布更集中。这意味着更宽模型中的神经元活动更不相似,表明当有更多神经元可用时,CTM能在其神经动力学中编码更多关于数据的信息。图13c展示了类似指标,即对相同数据样本在不同神经元间计算余弦相似度(对多个不同样本取平均),此时更宽模型仅使分布略微更集中。

6.2 更长“思考”时间的影响

图14探讨了内部时钟步数对CTM的影响,展示(a)准确率随内部时钟步数的变化,以及(b)CTM置信度最高的内部时钟步分布。图14a中各准确率接近,但使用50个内部时钟步的CTM表现最佳。这再次表明,更多内部时钟步可能需要更充分的训练。

图14b中出现两个高置信度区域值得留意,表明这些CTM确实受益于更多的“思考时间”,可能根据输入数据在内部执行了两种不同的处理过程。尽管尚难确定其确切原因,但这些分布明显非均匀,说明其过程比严格的前馈计算更为复杂;未来工作需进一步分析。

7. 排序 本节中,我们将CTM应用于对从正态分布中抽取的30个数字进行排序的任务。Graves(2016)在设计用于自适应计算的RNN时曾研究过对实数排序的任务,该任务为理解自适应计算系统(如CTM)中计算量的作用提供了一个测试平台。本实验中,CTM不使用注意力机制,而是直接接收随机打乱的输入数据(30个实数)。实现方式是将注意力机制替换为简单的拼接操作,即在图1中替换步骤10。

CTM能否生成序列输出?在本实验中,我们设置CTM在内部时钟步上逐步输出序列。这是一种更标准的序列建模方式,我们希望验证CTM是否能以这种方式进行训练。在每个内部时钟步,CTM输出一个长度为31的向量,包含30个用于排序的索引以及一个“空白”标记,后者用于著名的连接时序分类(CTC)损失函数(Graves等,2006)。然后,我们在CTM所有内部时钟步的完整输出上应用该CTC损失。

图15展示了CTM在排序任务上的结果。其处理过程呈现出明显模式,表现为等待时间与当前输出序列索引(a)以及当前输出值与前一输出值之间的差值(b)均存在相关性。Graves(2016)曾研究过类似任务,使用自适应计算RNN对15个数字进行排序。他们观察到在开始输出(类似于我们的第一个序列元素)和序列末尾附近存在类似的等待时间。我们对等待时间与当前值和前一值之间差值(即图15b中的“数据差值”)关系的分析表明,CTM正在使用一种依赖于数据分布的内部算法。我们还证明,该CTM能够泛化到训练数据之外的分布。

图16展示了一个实际应用场景中CTM的等待时间。红色条表示某索引处的等待时间长于平均水平,绿色条表示短于平均水平。较长的等待时间通常与数据点之间较大的间隔(即图15b中的“数据差值”)相关。

8.平价

二进制序列的奇偶性由其所有元素乘积的符号决定。当逐元素处理序列时,RNN可以通过维持内部状态,在遇到负数时翻转一个内部“开关”来计算奇偶性。然而,如果整个序列同时给出,由于输入中不同模式的数量增加,任务难度也随之上升。先前的研究(Graves,2016)使用递归模型应对这一挑战,这类模型能够学习对静态呈现的数据执行序列化算法。以这种方式提出的奇偶性计算任务非常适合测试CTM的能力。

我们将CTM应用于计算一个长度为64、包含随机位置的1和-1值序列的奇偶性任务。与Graves(2016)不同,我们设置任务要求模型在序列的每个索引处都计算累积奇偶性,而不仅仅是最终的奇偶性。示例如图17所示。数值-1和1被表示为可学习向量,并结合位置编码,通过注意力机制输入数据。我们使用第2.5节中描述的损失函数训练CTM。作为基线,我们也训练了一个LSTM,但将𝑡₂设为最后一次迭代,因为这能为LSTM训练带来最佳结果和稳定性。更多细节见附录G。

8.1.结果

准确率随“思考时间”增加而提高。图18a和图18b展示了CTM在不同配置下的训练曲线和最终准确率,其中我们改变了内部时钟步数(𝑇)和记忆长度(𝑀)。我们还绘制了参数量匹配的LSTM基线模型用于对比。总体而言,CTM的准确率随着内部时钟步数的增加而提升。表现最好的模型是具有75或100个内部时钟步的CTM,在某些随机种子运行下可达到100%准确率。相比之下,LSTM基线模型难以学习该任务,表现最好的LSTM(具有10个内部时钟步)准确率仅为67% ± 0.05%。具有超过10个内部时钟步的LSTM基线则表现出不稳定的训练行为;这与我们在第4.1节中的观察一致,即简单的循环模型未必适合展开内部思维过程。尽管CTM的训练过程稳定得多,但最终准确率仍因随机种子的选择而存在较大差异。这一点在附录G.4中有更详细的讨论。

CTM学会了序列化算法。为了分析CTM如何学习解决奇偶性任务,图19展示了在三种不同内部时钟步配置下,训练过程中输入序列64个元素各自的预测准确率。模型首先学会预测初始元素的奇偶性,随着训练进行,逐步学会预测更靠后的位置。内部时钟步越多,模型就能越准确地预测目标序列中更多的元素。

为了深入理解模型如何解决累积奇偶性任务,图20展示了两个不同模型在训练多个阶段对全部64个元素的注意力模式、准确率以及最高置信度的位置。注意力和置信度模式表明,这些CTM采用了不同的算法来解决该任务。当使用100个内部时钟步时,注意力从序列开头逐步移动到末尾,同时模型对每个位置预测的置信度也随之上升。而使用75个时钟步的CTM则学会以逆序关注序列,在最后几个时钟步中同时准确预测序列大部分位置的奇偶性。这种对数据的逆向搜索表明,CTM在做出累积奇偶性的最终判断前,会先逐步建立对观测数据的整体理解,体现出某种形式的规划能力。这些结果表明,尽管解决该任务存在多种策略,其中一些比另一些更易解释,但CTM明显展现出形成并执行策略的能力。

8.2 演示 图21展示了两个示例。第一个示例(上图)展示了一个典型的数据样本,其中1和−1在随机位置分布。在此情况下,CTM完美预测了累积奇偶性。注意力头的动态(a)显示,注意力按顺序遍历输入数据,与图20的结果一致。此外,我们可以看到,某些注意力头仅关注正值或负值,而其他头则同时关注两者。第二个示例(下图)展示了一个模型失败的情况。当输入序列中仅包含正奇偶性时,模型难以准确预测累积奇偶性,揭示了一种边缘情况下的局限性。

9. 问答MNIST 为了评估CTM在记忆、检索和算术计算方面的能力,我们设计了一项问答(Q&A)MNIST任务,类似于Manhaeve等(2018)或Schlag和Schmidhuber(2021)的工作。在该任务中,模型首先按顺序观察一系列MNIST数字(LeCun等,1998),随后接收一组交织的索引和操作符嵌入,用于确定应选择哪些已观察到的数字,并对它们执行何种模运算。这使我们能够检验CTM是否能够在没有图像中数字的先验知识、也未知其相互关系的情况下,同时实现手写数字识别、回忆先前观察结果,并对这些数字执行逻辑运算。此外,通过在推理时使用比训练时更多的操作,我们还可以测试CTM的泛化能力。

具体而言,模型首先依次观察 𝑁𝑑 个MNIST数字,每个数字持续 𝑡𝑑 个内部时钟步。接着,模型接收一段交织的序列,包含 𝑁idx 个索引嵌入(指示选择哪个数字)和 𝑁op 个操作符嵌入(指定模加或模减运算,每个中间结果对10取模,以确保答案范围在0–9之间),分别持续 𝑡idx 和 𝑡op 个内部时钟步。最后,模型接收一个零张量,持续 𝑡ans 个内部时钟步,作为信号提示模型输出答案。最终目标值在0到9之间,由所有指定的模运算组合得出。示例如图22所示。

我们训练了两种不同配置的CTM以及参数量匹配的LSTM,分别改变处理每个输入所用的内部时钟步数。数字和嵌入向量的观察时长分别为1个或10个内部时钟步,对应的回答阶段时长也为1或10个内部时钟步。数字数量和操作数量均在1到4之间均匀采样。对于每个输入使用1个和10个内部时钟步的CTM,其记忆长度分别设置为3步和30步。我们特别指出,在这些观察时长和记忆长度的配置下,数字的观察时刻在回答阶段始终超出记忆窗口的范围。因此,CTM必须组织其激活状态,以便在后续时间步中能够回忆起这些数字。CTM使用第2.5节中定义的损失函数进行训练,该损失仅在最后的𝑡ans个步骤上计算。与之前一样,为保证LSTM训练稳定,我们将其𝑡₂设为最后一次迭代。完整概述见附录H。

9.1.结果

通过同步实现记忆。图23展示了CTM和参数量匹配的LSTM在三次不同随机种子运行下的训练曲线。在仅使用一个内部时钟步时,LSTM初始性能优于CTM。但随着内部时钟步数增加,LSTM性能下降,学习过程也变得极不稳定。相比之下,CTM的性能随着“思考时间”增加而持续提升。具体而言,在最具挑战性的分布内任务上(观察四个数字后执行四个操作),所有三个使用10个内部时钟步/输入的CTM随机种子运行均达到了超过96%的准确率。而对应的10时钟步LSTM在所有种子运行中准确率均不超过21%。单一时钟步LSTM的良好表现凸显了其复杂门控更新机制的有效性,但该机制无法像CTM那样有效扩展到多个内部步骤。CTM则通过有效利用内部时钟步,逐步构建基于神经元同步的表征。

即使被观察的数字已超出记忆窗口范围,CTM仍表现良好,表明它已通过神经元活动的组织与同步,在一定程度上学会了记忆所观察的内容。CTM的优异表现说明,通过神经元激活的同步来处理时间信息,可能是一种强大的记忆与回忆机制。

CTM具备泛化能力。我们通过测量模型在输入数字或索引-操作符嵌入数量超过训练时所见数量时的准确率,来评估其泛化性能。图24展示了CTM与LSTM在不同输入数字数量和操作数量下的准确率,其中训练范围以红色标出。我们发现,CTM和LSTM基线模型均能泛化到更多操作数量的情况。为理解模型如何实现分布外泛化,我们在图25中展示了一个CTM的思维过程示例,呈现了输入序列和输出logits的快照。我们发现,CTM在观察到每个嵌入时便逐步执行模运算,而不是等到接收到最终回答信号后才一次性得出结果。类似行为也出现在单一时钟步的LSTM基线中。我们并非声称CTM能做到LSTM完全无法实现的事,而是强调CTM能够学会将“同步”作为一种工具来解决该任务,且该方法不仅有效,还能扩展到更长、更复杂的任务需求。

10.强化学习

我们此前已表明,CTM可通过其解耦的内部递归,在非序列任务中实现顺序式处理。在此,我们将CTM扩展至涉及与外部环境交互的序列决策任务。具体而言,我们使用强化学习(RL)训练CTM,使其基于环境观测和试错交互来学习动作选择策略。在此设定下,CTM在生成一个动作前会先进行一个或多个内部时钟步的计算,该动作将环境推进到下一状态。为实现这一点,我们在连续的环境步之间持续保持神经元动力学的连贯性,使得先前的环境观测可通过神经元级模型(NLMs)影响当前的内部状态。本节的核心目标是证明CTM可被设置为在连续环境中进行学习。

环境。我们在两个经典控制任务和一个导航任务上测试CTM,分别是CartPole、Acrobot和MiniGrid Four Rooms,均基于Gymnasium平台实现(Barto等,1983;Chevalier-Boisvert等,2023;Sutton,1995;Towers等,2024)。这些任务的示例如图26所示。由于CTM在环境转换之间持续维护激活历史,因此其功能等同于一个有状态的循环神经网络。因此,我们特别在部分可观测环境下评估CTM,这类场景中RNN通常表现良好(Hausknecht和Stone,2015)。我们在控制任务中屏蔽位置和角速度观测,在导航任务中限制视野,从而引入部分可观测性。这种屏蔽将任务转化为部分可观测马尔可夫决策过程(POMDP),要求CTM制定能够回忆过去观测的策略。例如,在Acrobot任务中,正确动作的选择依赖于回忆过去的位置并推断速度以提升手臂高度。

架构。对于RL任务,我们采用以下架构,并使用近端策略优化(PPO)进行训练(Schulman等,2017)。首先,输入观测通过一系列全连接层处理。在导航任务中,还包括对观测状态进行嵌入,并添加表示智能体视野内位置的位置编码。该表征随后由CTM处理(不使用注意力机制),经过若干内部时钟步后,输出同步向量,并由策略网络(actor)和价值网络(critic)进一步处理。我们将此方法与参数量匹配的LSTM基线进行对比,后者使用LSTM单元处理内部时钟步,并将其隐藏状态传递给actor和critic网络。此类对比的目的并非展示某一方架构的优越性,而是证明CTM能够利用激活历史的连续同步机制,在性能上达到与LSTM相当的水平。架构和优化超参数的完整描述见附录I。

10.1 结果 CTM能够持续与世界交互。图27展示了强化学习任务的训练曲线。在所有任务中,CTM的表现均与LSTM基线相当。

图28对比了CTM与LSTM基线在CartPole、Acrobot和MiniGrid Four Rooms任务中的神经元活动轨迹。在经典控制任务中,CTM和LSTM的激活均呈现振荡行为,对应小车和手臂的来回运动。在导航任务中,CTM展现出丰富而复杂的激活模式,而LSTM的激活则多样性较低。本节训练的LSTM比在CIFAR-10上训练时(图12)表现出更动态的神经活动,这可能源于RL任务的序列特性:由于模型与环境持续交互,输入随时间变化,形成反馈循环,导致其潜在表征也随时间不断演化。

11. 相关工作

现代神经网络在多个领域取得了显著成功,但通常依赖固定深度的前馈计算,在根据输入复杂性调整处理过程方面灵活性有限。相比之下,生物大脑表现出随时间展开的动态神经活动,能够根据任务需求调整计算。CTM基于这一理念,显式建模内部神经时序与同步机制。本节重点介绍与自适应计算、迭代推理以及受生物启发的架构相关的关键研究,这些工作共同构成了CTM的设计动机。

11.1 自适应计算与动态终止

已有多种方法探索自适应计算,即推理步数根据输入难度或置信度动态变化。早退网络(early-exit networks,例如Bolukbasi等,2017)允许模型在中间层产生高置信度预测时提前终止推理,从而在简单样本上节省计算。PonderNet(Banino等,2021)为循环模型引入了随机终止机制,通过端到端可微的损失函数学习每个输入的“思考时间”,在准确率与效率之间取得平衡。该方法在训练稳定性与算法推理任务的泛化能力上优于自适应计算时间(ACT)(Graves,2016)。最近,AdaTape(Xue等,2023)提出一种灵活的内存增强架构,通过动态添加“磁带标记”扩展输入,从而按需增加模型的计算预算。类似地,稀疏通用Transformer(SUT)(Tan等,2023)结合循环权重共享、动态终止和专家混合路由,使模型能对不同输入应用不同数量的循环Transformer层。这些方法展示了输入依赖型计算的优势,使计算成本与问题难度相匹配——这正是CTM通过其内部“思维”维度所追求的目标。

11.2 迭代与循环推理

CTM与专为迭代推理和内部递归设计的模型有共通之处。Perceiver(Jaegle等,2021)将迭代注意力瓶颈推广至多种模态,以更好地模拟生物系统感知世界的方式。Geiping等(2025)最近展示了将“循环深度”应用于潜在层可提升大语言模型性能,这与聚焦于标记级递归的其他方法形成对比。CTM的不同之处在于,其表征源自动态同步过程,从而脱离了对某一递归步骤的快照式表征。Quiet-STaR(Zelikman等,2024)通过在训练中插入隐藏的推理标记,教会语言模型“先思考再输出”,鼓励在生成前进行内部计算,从而提升在数学推理和常识问答等复杂任务上的表现。其他架构如循环独立机制(RIMs)(Goyal等,2019)将计算分布于稀疏激活的模块化子网络中,这些子网络随时间异步演化,提升了系统性泛化与多步推理能力。这些方法与CTM的目标一致:通过与输入序列无直接关联的内部计算模拟“思维”过程。视觉注意力循环模型(RAM)(Mnih等,2014)利用递归对视觉片段进行序列化处理。CTM的创新之处在于:在一个解耦的时间维度上,基于神经元历史生成内部神经动力学,并将神经同步的显式时间模式作为其核心表征。这与RAM专注于外部片段的感知决策,或仅依赖最终递归状态的模型形成鲜明对比。

11.3 受生物启发的神经动力学 人们对更贴近生物机制的神经计算日益关注(Schmidgall等,2024)。例如,液态时间常数网络(LTCNs)(Hasani等,2021)中的神经元由时变微分方程控制;各种脉冲神经网络(SNN)范式则天然使用离散的、有时序的事件进行计算,近期研究也开始探索同步机制(Gopalakrishnan等,2024;Stan和Rhodes,2024)。CTM受到时间编码和神经同步的启发,但采用了以下两种机制:(1)使用神经元级模型(NLMs)处理连续值预激活的历史,以生成复杂动力学;(2)将神经同步作为注意力与输出的主要潜在表征。尽管受到脉冲时序和同步等原理的启发,CTM对此进行了抽象——聚焦于局部时间整合与群体级同步——构建出一个可处理、可微分的框架,适用于基于梯度的深度学习,而非复制详细的生物物理过程。因此,CTM与液态状态机(Maass,2011)以及多种利用精确脉冲时序进行计算或采用特殊学习规则的SNN研究(Abbott等,2016;Bellec等,2020;Payeur等,2021;Sussillo和Abbott,2009;Zenke和Ganguli,2018)并列但有所区别。后者通常强调事件驱动的动力学、探索不可微计算,或专注于在线学习。CTM提供了一种互补的研究方向:在保留生物时序机制启发的同时,确保与现有深度学习训练范式的兼容性。

12. 讨论与未来工作 在本技术报告中,我们提出了连续思维机(CTM),作为一种将神经活动时间动力学作为其智能核心机制的模型。据我们所知,将随时间演化的神经同步作为模型的潜在表征,尤其是在如此规模上实现,尚属首次。CTM是这样一类模型的具体实现:它利用时间动力学之间精确的交互与时序——这被认为在自然认知中至关重要——成功完成多种多样任务,本文已为此提供了证据。

本工作的目标是引入这一新模型,并提出“神经动力学可作为神经计算的有力工具”这一观点。我们希望研究社区能够借鉴本工作的某些方面,构建出更贴近生物机制且性能更强的人工智能。以下各小节基于我们的观察,提供一些讨论与展望。

12.1 直观视角与生物合理性 CTM的输出 y𝑡 是通过对同步信号进行线性投影得到的。以物体分类为例,y𝑡 代表类别预测。在此场景中,CTM必须从输入数据中感知抽象特征,从而在其神经元中产生特定的激活动力学。这些激活动力学又必须以精确方式同步,才能生成准确预测。直观上,这意味着CTM学会根据输入数据在内部时钟步上形成持续的神经活动模式,通过时间过程逐步构建输出。这一概念与当前关于“推理”的认知一致,也是我们使用“思维”一词的关键动机。此外,这种动态且具时间性的表征与现有使用静态表征的方法形成鲜明对比。尽管本文实验仅初步探索了此类表征的潜力,但其更贴近生物过程的特性表明,其最终应用价值可能十分巨大。

12.2 随时间同步的优势 多分辨率。我们对同步的测量依赖于时间上的活动,但不依赖于具体时间点本身。这可能使部分同步信号缓慢变化,而我们设计的可学习衰减时间依赖机制(见第2.4节)又能支持短期依赖的涌现。结果是,同步表征能够捕捉任意分辨率的事件或视角。许多现实场景中,特征或概念天然具有多分辨率特性;我们将在未来工作中深入探索这一点。

记忆。进一步而言,特定的同步不仅捕捉了CTM在一段时间内的认知过程,还包含了其采取行动后的递归反馈结果。这种视角更接近于“经验”,而非快照式表征所能提供的。因此,将同步矩阵作为记忆载体,是未来研究的一个有趣方向。

可塑性与无梯度学习。如本报告所定义,同步衡量的是神经元“共同放电”的程度,这与赫布学习(Hebbian learning)高度相似(Hebb, 2005; Najarro 和 Risi, 2020)。利用这一特性探索终身学习(lifelong learning)(Kudithipudi 等, 2022; Wang 等, 2024)、可塑性,甚至无梯度优化,是令人兴奋的未来方向。

基数性。一个 𝐷 维CTM的完整同步空间维度为 (𝐷 × (𝐷 + 1))/2(即同步矩阵的上三角部分)。研究表明,大维度表征在多个方面具有优势(Allen-Zhu 等, 2019; Frankle 和 Carbin, 2018)。同步机制让我们无需额外成本即可获得一个大而有意义的表征空间。我们计划探索这种高基数表征空间的潜在用途,尤其是在多模态建模领域。

12.3 连续世界 我们从自然界获得灵感构建CTM,但在训练时仍使用了标准协议和数据集。然而,这些数据集和训练方式本身未必“自然”。例如,传统神经网络训练假设数据独立同分布,但现实世界并非如此——事件随时间发生并有序排列。因此,我们希望未来能以更贴近生物的方式训练CTM。将CTM应用于序列数据(如视频、文本),尤其是在训练中按顺序采样,是未来有前景的方向。

语言建模。我们尚未将CTM应用于语言建模任务,但因其使用注意力机制,适配文本输入与推理是直接可行的。此外,由于CTM能构建并导航世界模型(见第4节),它或许无需位置编码,而是自行构建所见内容的上下文化“世界模型”。我们鼓励读者探索将CTM应用于预训练语言模型的可能性。未来,我们将构建并训练专用于文本数据的CTM,以理解其在该领域的潜力。

12.4 什么失败了,我们如何走到这里? 我们认为有必要说明:我们最初尝试将什么作为CTM的核心表征(而非同步)。激活的潜在空间 z𝑡 是一个显而易见的候选。然而,我们发现Z的动力学复杂多变,需要引入平滑操作(例如累积某个“持有”潜变量或logits)。此外,由于该表征与时间𝑡强耦合,我们发现CTM会学习在“何时”输出(即损失函数应用的时刻),而非依赖内部自组织作为主要驱动力。

正是因为我们重新引入了神经元时序,才带来了这一挑战;幸运的是,同步机制因其时间无关性,成为克服这些难题的优雅解决方案。可学习的衰减时间依赖机制也提供了一个巧妙的补充:当需要时,CTM可基于短期神经行为与世界交互。

13. 结论

连续思维机(CTM)代表了在人工智能中弥合计算效率与生物合理性之间差距的一项新进展。通过摒弃传统的逐点激活函数,采用私有的神经元级模型,CTM培育出极为丰富的神经元动力学。关键在于,它将神经同步作为一种强大且根本新颖的表征形式——不同于自神经网络早期以来普遍使用的激活向量。这种将神经动力学直接作为一等表征的机制,使CTM展现出与当代模型定性不同的行为。

我们的研究证明了这一方法的实际优势。CTM能够随时间动态构建表征,用于图像分类等任务;能在无需位置编码的情况下形成丰富的内部地图以关注特定输入;并自然表现出自适应计算能力。此外,它学会通过同步神经动力学来存储和检索超出其即时激活历史的记忆。这种内部处理过程也增强了可解释性,例如在系统性解决迷宫和奇偶任务中的表现。

值得注意的是,CTM的核心架构在多种不同且具挑战性的任务中保持了高度一致性,仅需调整输入/输出模块。这种通用性与可训练性在迷宫导航等复杂场景中尤为突出。CTM在极少调优下即取得成功,而像LSTM这样的传统模型即使经过大量调优仍难以胜任。

本研究凸显了神经科学与机器学习之间一种重要却常被忽视的协同关系。尽管现代AI名义上受大脑启发,但这两个领域往往惊人地彼此孤立。CTM证明了从生物原理中汲取灵感的强大潜力。从这种灵感出发,持续追踪涌现的有趣行为,我们开发出具备意外能力的模型——例如在分类任务中表现出出人意料的强校准性,而这一特性并非预先设计。

必须强调的是,我们的方法主张借鉴生物学概念,而非追求严格、字面意义上的生物真实性;真实神经元可能并不像CTM所建模的那样访问其激活历史,但诸如行波等涌现现象依然出现。这种在实用性与生物启发之间的微妙平衡,开辟了全新的研究方向,可能成为解锁当前AI所缺失能力的关键,有望导向更类人、更具智能的系统。

当我们最初提出“为何开展此项研究?”时,我们希望CTM的探索之路能提供有力答案。通过采纳适度的生物启发并追随观察到的新颖行为,我们最终得到了一个能力超越初始设计的模型。我们致力于继续这一探索,进一步借鉴生物概念,发现更多令人振奋的涌现行为,不断拓展人工智能的能力边界。

局限性CTM的主要局限在于其需要无法并行化的序列化处理,导致训练时间比标准前馈模型更长,尤其考虑到当前主流AI模型已高度适配并行发展的硬件与软件(Hooker,2021)。

神经元级模型带来的额外参数开销也可被视为一种局限。尽管其收益是否超过成本仍有待验证,但我们相信其潜在效用可能很高。

https://arxiv.org/pdf/2505.05522

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-07-29,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 CreateAMind 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档