层次推理模型 Hierarchical Reasoning Model

CreateAMind

发布于 2026-03-11 17:13:59

270

文章被收录于专栏：CreateAMindCreateAMind

层次推理模型 Hierarchical Reasoning Model

https://arxiv.org/abs/2506.21734

论文: https://arxiv.org/abs/2506.21734

代码: https://github.com/sapientinc/HRM

摘要推理是设计和执行复杂目标导向行动序列的过程，仍然是人工智能中的一个关键挑战。当前的大型语言模型（LLMs）主要采用思维链（CoT）技术，这些技术存在任务分解脆弱、数据需求量大以及延迟高的问题。受人脑中分层和多时间尺度处理的启发，我们提出了分层推理模型（HRM），这是一种新颖的递归架构，能够在保持训练稳定性和效率的同时实现显著的计算深度。HRM通过两个相互依赖的递归模块在单次前向传递中执行顺序推理任务，而无需对中间过程进行显式监督：一个负责缓慢、抽象规划的高级模块，以及一个处理快速、详细计算的低级模块。HRM仅包含2700万个参数，在仅使用1000个训练样本的情况下，在复杂推理任务上实现了卓越的性能。该模型无需预训练或CoT数据，却在包括复杂数独谜题和大型迷宫中的最优路径寻找等具有挑战性的任务上实现了近乎完美的性能。此外，HRM在抽象与推理语料库（ARC）上超越了具有显著更长上下文窗口的更大模型，ARC是衡量人工通用智能能力的关键基准。这些结果突显了HRM作为迈向通用计算和通用推理系统变革性进步的潜力。

1 引言

深度学习，顾名思义，起源于通过堆叠更多层以获得更强的表征能力和更优性能的理念1,2。然而，尽管大语言模型取得了显著成功，其核心架构却出人意料地浅层化3。这对其最受期待的能力——推理——施加了根本性限制。标准Transformer的固定深度使其处于AC0或TC0等计算复杂性类别中，因而无法解决需要多项式时间的问题5,6。大语言模型不具备图灵完备性，因此至少在纯粹端到端的方式下，无法执行实现深思熟虑的规划或符号操作任务所必需的复杂算法推理7,8。例如，我们在数独任务上的结果表明，增加Transformer模型的深度可以提升性能，但即便使用非常深的模型，性能仍远未达到最优（见图2），这支持了当前大语言模型扩展范式存在局限性的推测9。

大语言模型领域的文献在推理方面主要依赖思维链（Chain-of-Thought, CoT）提示技术10。CoT通过将复杂任务分解为更简单的中间步骤，利用浅层模型逐个生成文本，将推理过程外化为词元（token）级别的语言表达11。然而，CoT用于推理只是一种权宜之计，并非令人满意的解决方案。它依赖于脆弱的人工定义的任务分解方式，其中任何一个步骤的错误或顺序错乱都可能导致整个推理过程失败12,13。这种对显式语言步骤的依赖，使推理被束缚在词元层面的模式上。因此，CoT推理通常需要大量训练数据，并在复杂推理任务中生成大量词元，导致响应速度缓慢。我们需要一种更高效的方法来最小化这些数据需求14。

为此，我们探索“潜在推理”（latent reasoning），即模型在其内部隐藏状态空间中进行计算15,16。这与一种认知观点一致：语言是人类交流的工具，而非思维本身的载体17；大脑在潜在空间中以惊人的效率维持着长而连贯的推理链条，而无需不断将其翻译回语言。然而，潜在推理的能力仍从根本上受限于模型的有效计算深度。简单地堆叠层由于梯度消失问题而极其困难，这严重影响了训练的稳定性与有效性1,18。循环架构作为处理序列任务的自然替代方案，常出现过早收敛的问题，导致后续计算步骤失效，且依赖于在生物学上不现实、计算成本高且内存消耗大的“时间反向传播”（Backpropagation Through Time, BPTT）进行训练19。

人类大脑为实现当前人工模型所缺乏的有效计算深度提供了极具启发性的蓝图。大脑在不同时间尺度运行的皮层区域之间以分层方式组织计算，从而实现深度的多阶段推理20,21,22。循环反馈回路不断优化内部表征，使得缓慢的高层区域能够指导快速的低层回路执行任务，在保持全局一致性的同时实现分层处理23,24,25。值得注意的是，大脑在实现这种深度的同时，避免了传统循环网络因时间反向传播而产生的高昂信用分配成本19,26。

受这种分层且多时间尺度的生物结构启发，我们提出了分层推理模型（Hierarchical Reasoning Model, HRM）。HRM旨在显著提升有效计算深度。该模型包含两个耦合的循环模块：一个高层（H）模块用于抽象、深思熟虑的推理，一个低层（L）模块用于快速、细致的计算。这种结构通过我们称之为“分层收敛”（hierarchical convergence）的过程，避免了标准循环模型的快速收敛问题。低层模块快速更新，执行多个计算步骤并达到局部平衡后，高层模块才向前推进一步，此时低层模块被重置，进入新的计算阶段。

此外，我们提出了一种单步梯度近似方法来训练HRM，该方法提高了训练效率，并消除了对BPTT的需求。该设计在整个反向传播过程中保持恒定的内存占用（O(1)，而BPTT为O(T)，T为时间步数），使其具有良好的可扩展性，并更符合生物学机制。

凭借增强的有效深度，HRM在需要广泛搜索和回溯的任务中表现出色。仅使用1000个输入-输出样本，无需预训练或思维链监督，HRM便学会了求解对最先进的大语言模型而言不可行的问题。例如，在复杂的数独谜题（Sudoku-Extreme Full）和30×30迷宫中的最优路径搜索任务中，HRM实现了近乎完美的准确率，而最先进的CoT方法则完全失败（准确率为0%）。在“抽象与推理语料库”（Abstraction and Reasoning Corpus, ARC）AGI挑战赛27,28,29——一个归纳推理的基准测试中，HRM仅使用官方数据集（约1000个样本）从零开始训练，参数量仅为2700万，上下文为30×30网格（900个词元），取得了40.3%的成绩，显著超越了领先的基于CoT的模型，如o3-mini-high（34.5%）和Claude 3.7（8K上下文，21.2%），尽管后者参数规模和上下文长度大得多（见图1）。这一成果为开发具备通用计算能力的下一代人工智能推理系统指明了一个极具前景的方向。

2 分层推理模型

我们提出分层推理模型（HRM），其设计灵感来源于大脑中观察到的神经计算的三个基本原理：

• 分层处理：大脑在皮层区域的层级结构中处理信息。高层区域在更长的时间尺度上整合信息，并形成抽象表征，而低层区域则负责更即时、更细致的感官和运动处理20,22,21。

• 时间分离：大脑中的这些层级以不同的内在时间尺度运行，体现在神经节律中（例如，慢速的θ波为4–8 Hz，快速的γ波为30–100 Hz）30,31。这种时间上的分离使得高层能够稳定地指导低层的快速计算32,33。

• 循环连接：大脑具有广泛的循环连接。这些反馈回路支持对内部表征进行迭代优化，从而获得更准确、更具上下文敏感性的结果，代价是需要额外的处理时间。此外，大脑在很大程度上避免了与时间反向传播（BPTT）相关联的棘手的深层信用分配问题19。

HRM 显式地设计用于通过我们称之为“分层收敛”（hierarchical convergence）的过程来对抗这种过早收敛。在每个周期中，低层模块（L模块，一个循环神经网络RNN）会稳定地收敛到一个局部平衡状态。然而，该平衡状态依赖于该周期中高层模块提供的高层状态 zH。在完成 T 个时间步后，高层模块（H模块）整合此次子计算的结果（即低层模块的最终状态 zL），并执行自身的状态更新。这一 zH 的更新为低层模块建立了一个全新的上下文环境，实质上“重启”了其计算路径，从而开启向另一个局部平衡状态的新一轮收敛阶段。

这一过程使得 HRM 能够执行一系列不同但稳定的嵌套式计算：高层模块指导整体问题求解策略，而低层模块则执行每一步所需的密集搜索或精细优化。尽管一个标准RNN可能在 T 次迭代内接近收敛，但分层收敛机制的有效计算深度达到了 N×T 步。正如图3的实验结果所示，该机制使HRM能够在多个时间步中保持较高的计算活跃度（前向残差），而标准RNN的活跃度则迅速衰减；同时仍能实现稳定的收敛。这使得HRM在任意计算深度下均表现出更优的性能，如图2所示。

梯度近似：循环模型通常使用时间反向传播（BPTT）来计算梯度。然而，BPTT需要存储前向传播过程中的所有隐藏状态，并在反向传播时将它们与梯度结合，这需要 O(T) 的内存（T 为时间步数）。这种巨大的内存开销迫使使用更小的批量大小，导致GPU利用率低下，尤其对于大规模网络而言更为严重。此外，由于在时间上保留完整历史轨迹在生物学上是不可行的，因此大脑很可能并未实现BPTT19。

幸运的是，如果一个循环神经网络收敛到一个固定点，我们可以通过在该平衡点进行单步反向传播，从而避免展开其状态序列。此外，这种机制有可能仅通过局部学习规则在大脑中实现34,35。基于这一发现，我们提出一种HRM梯度的单步近似方法——仅使用每个模块最后状态的梯度，并将其他状态视为常量。因此，梯度的传播路径为：

上述方法仅需 O(1) 的内存，无需进行时间上的展开，且可轻松通过 PyTorch 等自动微分框架实现，如图4所示。由于每个模块只需通过其最近的局部突触活动进行误差反向传播，该方法与大脑皮层信用分配依赖于短距离、时间上局部的机制（而非全局活动模式回放）的观点高度一致。

我们现在可以定义学习过程的损失函数。每次监督段的总体损失结合了Q-head损失和序列到序列损失：

最小化上述损失函数能够实现准确的预测以及近乎最优的停止决策。“停止”（halt）动作的选择将结束监督循环。在实际操作中，序列是以批处理方式处理的，可以通过用数据加载器中的新样本替换批次中任何已停止的样本来轻松处理。

图5展示了两种HRM变体之间的性能对比：一种采用了ACT机制，另一种则使用与ACT的Mmax参数相当的固定计算步数。结果表明，ACT能够根据任务复杂度自适应地调整其计算资源，在对性能影响极小的情况下实现了显著的计算节省。

推理时扩展性一个有效的神经网络模型应当能够在推理阶段利用额外的计算资源来提升性能。如图5-(c)所示，HRM只需简单地增加计算限制参数Mmax，即可无缝实现推理时的扩展，而无需进一步训练或修改网络结构。

额外的计算资源对于需要深入推理的任务尤其有效。在数独问题上——这类问题通常需要长期规划——HRM表现出强烈的推理和扩展能力。另一方面，我们发现，在ARC-AGI挑战任务中，额外的计算资源带来的性能提升非常有限，因为这些问题的解决方案通常只需要少数几次变换即可完成。

ACT中Q学习的稳定性支撑我们ACT机制的深度Q学习已知容易出现不稳定情况，通常需要采用诸如重放缓冲区和目标网络等稳定化技术，而这些在我们的设计中是缺失的。然而，我们的方法通过模型本身及其训练过程的内在属性实现了稳定性。Gallici等人的最新理论工作表明，如果网络参数有界、在训练中引入权重衰减以及实现后归一化层，Q学习可以实现收敛。我们的模型通过其采用RMSNorm（一种层归一化变体）和AdamW优化器的Post-Norm架构满足了这些条件。AdamW已被证明可以解决一个L∞约束优化问题，确保模型参数保持在1/λ的范围内。

低级和高级递归模块fL和fH均使用具有相同架构和维度的仅编码器Transformer块实现。这些模块接受多个输入，我们通过简单的逐元素加法将它们合并，尽管更复杂的合并技术（如门控机制）可能会提高性能，这将留待未来研究。在本工作中，包括基线模型中的所有Transformer块，我们都引入了基于Llama架构的现代大型语言模型中发现的增强功能。这些改进包括旋转位置编码、门控线性单元、RMSNorm以及从线性层中移除偏置项。

此外，HRM和循环Transformer模型都实现了Post-Norm架构，其权重通过截断的LeCun正态初始化进行初始化，同时在RMSNorm中排除了缩放和偏置参数。所有参数都使用Adam-atan2优化器进行优化，这是一种Adam的尺度不变变体，结合了包含线性预热的恒定学习率。

3 结果 本节首先介绍ARC-AGI、数独和迷宫三个基准任务，随后概述基线模型及其结果。图6-(a,b,c)以可视化方式展示了这三个基准任务，这些任务被精心选择以评估AI模型在不同方面的推理能力。

3.1 基准任务

ARC-AGI挑战任务 ARC-AGI基准通过类似智商测试的谜题来评估通用流体智力，这些谜题需要归纳推理能力27。最初的版本ARC-AGI-1将挑战以输入-输出网格对的形式呈现，迫使AI系统仅从少量示例中提取并泛化出抽象规则。每个任务提供几个输入-输出示例对（通常为2–3对）以及一个测试输入。AI模型有两次机会生成正确的输出网格。尽管有人认为掌握ARC-AGI标志着实现了真正的人工通用智能，但其主要目的实际上是揭示当前人工通用智能发展过程中的关键瓶颈。事实上，传统的深度学习方法和思维链（CoT）技术在ARC-AGI-1上都面临重大挑战，主要原因在于该任务要求模型具备在全新任务上进行泛化的能力28。

针对ARC-AGI-1中发现的局限性，ARC-AGI-2大幅扩展了该基准，提供了更全面且经过精心优化的任务集合。这些新任务更加强调深层次的组合推理、多步逻辑、上下文相关的规则应用以及符号抽象能力。人类校准研究表明，这些任务对人类而言具有挑战性但可以完成，而对当前的AI系统则要困难得多，从而为衡量通用推理能力提供了更清晰的标准。

数独-极致（Sudoku-Extreme） 数独是一个9×9的逻辑谜题，要求每一行、每一列以及每一个3×3宫格都恰好包含数字1到9各一次。如果模型的预测结果与该谜题的唯一解完全一致，则视为正确。由于数独具有复杂的逻辑结构，因此常被用作评估机器学习模型逻辑推理能力的流行基准任务62,63,64。

当前研究中最常用的数独数据集是Kaggle数据集65，该数据集中的所有谜题均可通过基础的单数位技巧完全解决66。另一个广泛使用的数据集是最小线索数为17的17-clue谜题集62，由于其线索数量极少，表面上看似更具挑战性。然而，这种看法具有误导性——因为17是保证数独有唯一解所需的最小线索数，这些线索必须彼此高度正交。这种正交排列反而导致了许多直接且易于解决的推理路径67。

我们提出了“数独-极致”（Sudoku-Extreme），这是一个更具挑战性的新数据集，它整合了上述较简单的数据集，以及被数独社区公认为对人类玩家来说极其困难的谜题：

• 简单谜题：来自Kaggle数据集、17-clue数据集，以及从数独谜题分布中无偏采样的样本67，共计1,149,158个谜题。 • 困难谜题：来自Magictour 1465、Forum-Hard和Forum-Extreme子集，共计3,104,157个谜题。

整合后的数据经过严格的90/10训练-测试集划分，确保测试集中的谜题无法通过训练集中任何样本的等价变换得到。“数独-极致”（Sudoku-Extreme）是该数据的一个下采样子集，包含1000个训练样本。我们在主要实验（图1）中使用Sudoku-Extreme，重点关注小样本学习场景。为了在分析实验（图2、图3和图5）中保证收敛性并控制过拟合，我们使用完整的训练数据“Sudoku-Extreme-Full”，包含3,831,994个样本。

我们通过一个智能数独求解程序tdoku所需的搜索回溯次数（即“猜测”次数）来衡量谜题难度。该程序使用命题逻辑来减少猜测次数67。我们的Sudoku-Extreme数据集平均每个谜题需要22次回溯，显著高于现有数据集；例如，近期手工设计的Sudoku-Bench68数据集平均每个谜题仅需0.45次回溯。这些子集的复杂度水平如图6-(d)所示。

迷宫-困难（Maze-Hard） 该任务要求在30×30的迷宫中找到最优路径，因其可解释性强，常被用于训练大语言模型执行搜索任务69,70,71。我们采用Lehnert等人71提出的实例生成方法，但额外增加一个筛选条件：仅保留难度超过110的实例。这里的“难度”定义为最短路径的长度，这与在GPU上运行的波前广度优先搜索算法的线性时间复杂度相一致72。一条路径只有在有效且最优（即从起点到终点的最短路径）时才被视为正确。训练集和测试集各包含1000个样本。

3.2 评估细节 对于所有基准任务，HRM模型均从随机权重初始化开始，使用输入-输出样本对在序列到序列的框架下进行训练。二维的输入和输出网格被展平后，填充至最大序列长度。最终性能结果如图1所示。值得注意的是，HRM仅使用每个任务约1000个训练样本，且无需预训练或思维链（CoT）标签，便达到了这些性能表现。

对于ARC-AGI挑战任务，我们使用训练集和评估集中的所有输入-输出示例对。通过对谜题施加平移、旋转、翻转和颜色置换等方式进行数据增强。每个任务示例前会添加一个可学习的特殊标记，用于表示其所属的谜题类型。在测试阶段，对评估集中的每个测试输入，我们按以下步骤进行：（1）生成并求解1000个增强后的变体，对每个变体的预测结果应用逆增强变换以还原原始形式；（2）选择出现频率最高的两个预测结果作为最终输出。所有结果均在评估集上报告。

对于数独谜题，我们通过行带（band）和数字置换进行数据增强；而迷宫任务则不启用数据增强。这两个任务均仅进行一次推理过程。

ARC-AGI任务中，CoT模型的得分来自官方排行榜29；而对于数独和迷宫任务，得分则是通过相应的API评估获得。

在图1中，基线模型根据是否经过预训练以及是否使用CoT被分为不同组别。“直接预测”（Direct pred）基线指“不使用CoT且无预训练的直接预测”，其训练设置与HRM完全相同，仅将模型替换为Transformer架构。有趣的是，在ARC-AGI-1任务上，“直接预测”基线的表现与Liao和Gu73相当——后者构建了一个精心设计的、针对该任务的领域特定等变网络，从零开始训练且未使用预训练。通过将Transformer架构替换为HRM的分层框架并引入ACT机制，我们的性能提升了两倍以上。

在Sudoku-Extreme和Maze-Hard基准任务上，HRM与基线方法之间的性能差距极为显著，因为基线方法几乎无法解决这些任务。这些需要长推理链的任务对基于CoT的方法尤其困难。在仅使用1000个训练样本的情况下，采用与HRM相同规模的8层Transformer的“直接预测”基线在这些复杂推理问题上完全失败。然而，当在更大的Sudoku-Extreme-Full数据集上训练时，“直接预测”基线能够解决部分简单数独谜题，准确率达到16.9%（见图2）。Lehnert等人71的研究表明，一个拥有1.75亿参数的普通Transformer模型，在多个训练轮次中使用100万个样本训练后，在30×30迷宫任务上的表现仍极为有限，使用pass@64评估指标时准确率仍低于20%。

3.3 中间时间步的可视化

尽管HRM在复杂推理任务上表现出色，但它引发了一个有趣的问题：HRM神经网络实际上实现了哪些底层推理算法？回答这个问题对于增强模型的可解释性和深入理解HRM的解空间至关重要。

在迷宫任务中，HRM似乎最初同时探索几条潜在路径，随后消除被阻塞或低效的路线，然后构建一个初步的解的轮廓，接着进行多次细化迭代。在数独任务中，其策略类似于深度优先搜索方法，模型似乎在探索潜在解，并在遇到死胡同时回溯。对于ARC任务，HRM采用不同的方法，对棋盘进行增量调整，并迭代改进，直到找到解。与数独（涉及频繁回溯）不同，ARC的解路径遵循一种更连贯的进展，类似于爬山优化。

重要的是，模型表明它可以适应不同的推理方法，很可能是为每个特定任务选择了一种有效的策略。需要进一步的研究来获得对这些解策略更全面的见解。

4 大脑对应关系

系统神经科学中的一个关键原则是，大脑区域的功能多样性——即其处理多种且复杂任务的能力——与其神经表征的维度密切相关75,76。负责复杂推理和决策的高级皮层区域必须应对各种不同的任务，因而需要更灵活、更依赖上下文的处理机制77。在动力系统中，这种灵活性通常通过更高维的状态空间轨迹来实现，从而支持更丰富的潜在计算模式78。这一原则形成了一种可观测的维度层级结构，即大脑区域在信息处理层级中的位置与其有效维度呈正相关。为了量化这一现象，我们可以考察“参与比”（Participation Ratio, PR），它是衡量高维表征有效维度的标准指标79。PR的计算公式如下：

其中 {λi} 是神经活动轨迹协方差矩阵的特征值。直观上，较高的PR值表示方差在更多维度上均匀分布，对应于更高维的表征；相反，较低的PR值表示方差集中在少数几个主成分上，反映出更紧凑、更低维的结构。

这种维度层级结构可以在例如小鼠皮层中观察到：群体神经活动的PR值从低级感觉区域到高级联合区域呈现单调递增趋势，支持了表征维度与功能复杂性之间的关联74（见图8(a,b)）。

我们通过在Sudoku-Extreme-Full数据集上训练后，计算HRM中两个循环模块的PR值，来检验该模型是否再现了这一神经科学原理。PR的计算基于在多个解数独的神经活动轨迹中收集到的神经状态所构建的协方差矩阵。结果显示出与生物学发现惊人的一致性：低层模块的状态（zL）占据一个相对较小的子空间，参与比为30.22；而高层模块的状态（zH）则在一个大得多的子空间中运行，参与比达到89.95，如图8(c)所示。此外，图8(d)显示，当独立任务（轨迹）数量从10增加到100时，zH 的维度随之显著上升，而 zL 的维度则保持稳定。这些结果表明，两个模块在表征能力上出现了与各自功能角色相对应的自发性分离。

为了验证这种层级结构是训练过程中涌现出的特性，而非网络架构本身带来的假象，我们进行了一项对照分析：使用一个结构相同但未经训练、权重随机的网络。

我们初始化了一个完全相同的HRM架构，赋予其随机权重，在不进行任何训练的情况下，让该网络处理与训练模型相同的任务特定输入，并测量其各模块的PR值。

结果如图8(e,f)所示，呈现出鲜明对比：未经训练的网络中，高层与低层模块并未表现出层级分离，它们的PR值均较低，且彼此几乎无法区分。这一对照分析验证了维度层级结构是模型在学习复杂推理过程中涌现出的特性。

HRM中高层与低层的PR比值（zH / zL ≈ 2.98）与小鼠皮层中测得的比值（≈ 2.25）非常接近。相比之下，传统深度网络常常表现出“神经塌缩”（neural collapse）现象，即最后一层特征收敛到一个低维子空间80,81,82。HRM则打破了这种塌缩模式，反而在其高层模块中发展出高维表征。这一点意义重大，因为此类高维表征被认为对认知灵活性至关重要，也是前额叶皮层（PFC）等高级脑区的典型特征，而PFC正是复杂推理的核心所在。

这种结构上的相似性表明，该模型自主发现了某种基本的组织原则。通过将表征划分为一个高容量、高维度的子空间（zH）和一个更专业化、低维度的子空间（zL），HRM自发地演化出一种被认为在生物系统中实现鲁棒且灵活推理所必需的基本组织方式。这为该模型为何能在那些缺乏此类差异化内部结构的模型难以应对的复杂、长程任务上取得成功，提供了一种潜在的机制性解释。

然而，我们强调，目前的证据仅为相关性。尽管可以通过干预手段（例如限制高层模块的维度）来检验其因果关系，但由于此类操作可能对训练过程本身产生复杂的干扰效应，因此在深度学习中难以准确解读。因此，这种涌现层级结构的因果必要性仍是未来研究的重要课题。

5 相关工作

推理与算法学习鉴于推理问题在人工智能中的核心地位及其与算法的紧密联系，研究人员长期以来一直在探索能够从训练实例中实现算法学习的神经网络架构。这一研究方向包括神经图灵机（Neural Turing Machines, NTM）83、可微神经计算机（Differentiable Neural Computer, DNC）84 和神经GPU（Neural GPUs）85——这些模型均构建了迭代式神经架构，模拟计算硬件以执行算法，并通过数据训练来学习算法。该领域另一项重要工作是循环关系网络（Recurrent Relational Networks, RRN）62，它通过图神经网络在图结构表征上执行算法。

近年来，研究者将算法学习方法与基于Transformer的架构相结合。通用Transformer通过在标准Transformer模型中引入层间的循环机制和自适应停止机制，扩展了其能力。Geiping等人86 表明，带有循环结构的Transformer在推理阶段可以泛化到比训练时更多的循环步数。Shen等人16 提出在Transformer中加入连续的循环推理标记（recurrent reasoning tokens）。此外，TransNAR8 将循环图神经网络与语言模型相结合。

在基于思维链（CoT）的推理取得成功的基础上，一系列研究提出了微调方法，使用搜索算法（如A*）生成的推理路径作为监督微调（SFT）的目标87,71,70。

我们还提及旨在为更复杂问题分配额外计算资源的自适应停止机制，例如用于循环神经网络的自适应计算时间（Adaptive Computation Time, ACT）88，以及后续研究如PonderNet89，旨在提升该资源分配过程的稳定性。

HRM通过一种受大脑启发的计算架构，进一步拓展了算法学习的边界，实现了卓越的数据效率和模型表达能力，仅用1000个训练样本便成功发现了复杂且多样的算法。

受脑启发的推理架构构建具备大脑般推理能力的模型，一直是类脑计算领域长期追求的目标。Spaun90 是一个典型例子，它使用脉冲神经网络构建了对应于视觉皮层、前额叶皮层等脑区的不同模块。这种设计使模型能够执行一系列认知任务，从记忆回忆到简单的推理谜题。然而，其推理依赖于人工设计的算法，可能限制了其学习新任务的能力。

另一个重要模型是Tolman-Eichenbaum机器（Tolman-Eichenbaum Machine, TEM）91，其灵感来自海马-内嗅皮层系统在空间与关系记忆任务中的作用。TEM提出，内侧内嗅皮层细胞构建了结构化知识的基础，而海马细胞则将该基础与感官信息关联起来。这一机制使TEM具备泛化能力，并解释了网格细胞、边界细胞和位置细胞等多种神经元类型的出现。

另一类方法是神经采样模型（neural sampling models）92，它将神经信号过程视为在概率分布上的推断，其工作机制类似于玻尔兹曼机。这类模型通常需要为特定推理任务手动设定规则。

本质上，尽管先前的模型在简单推理问题上取得进展，HRM则被设计用于解决即使是先进大语言模型也难以应对的复杂任务，且无需预训练或任务特定的人工设计。

分层记忆分层的多时间尺度结构在大脑处理记忆的过程中也起着重要作用。诸如分层序列模型（Hierarchical Sequential Models）93 和时钟式RNN（Clockwork RNN）94 等模型，使用多个在不同时间尺度上运行的循环模块，以更有效地捕捉序列中的长距离依赖关系，从而缓解RNN中的遗忘问题。

类似机制也被应用于线性注意力方法中，以记忆长上下文（参见讨论部分）。由于HRM聚焦于推理任务，为简化设计采用了全注意力机制。将分层记忆机制引入HRM，可能是未来一个有前景的研究方向。

6 讨论

HRM的图灵完备性与早期的神经推理算法（如通用Transformer95）类似，HRM在具备足够内存和时间限制的条件下具有计算通用性。换言之，它属于能够模拟任意图灵机的模型类别，从而克服了引言中提到的标准Transformer所存在的计算能力局限。由于早期的神经算法推理器通常以循环神经网络的形式训练，它们容易出现过早收敛问题，且依赖计算和内存开销巨大的BPTT（随时间反向传播）。因此，尽管其有效计算深度仍超过标准Transformer，但在实践中仍受到限制。HRM通过解决上述两个挑战，并具备自适应计算能力，得以在长推理过程上进行训练，解决需要深度优先搜索和回溯的复杂谜题，从而更接近实际意义上的图灵完备。

基于思维链的强化学习除了使用人工标注的思维链（CoT）进行微调外，强化学习（RL）是另一种广泛采用的训练方法。然而，近期研究表明，强化学习主要作用是激发模型中已有的、类似CoT的推理能力，而非发现全新的推理机制96,97,98,99。此外，结合CoT的强化学习以训练不稳定和数据效率低下著称，通常需要大量探索和精心设计的奖励函数。相比之下，HRM依赖于密集的基于梯度的监督信号，而非稀疏的奖励信号。此外，HRM自然地在连续空间中运行，这在生物学上更合理，且能根据各个标记在推理和规划中的复杂程度差异，动态分配不同的计算资源，避免对所有标记一视同仁16。

线性注意力机制循环结构不仅因其在通用计算中的潜力而被研究，也被探索作为替代Transformer中注意力机制的手段，因为标准注意力机制存在时间和内存复杂度的平方级增长问题100。循环型替代方案通过逐个顺序处理输入标记，并在每个时间步预测下一个标记，实现更高效的架构设计，类似于早期基于RNN的语言模型。

一些线性注意力变体（如对数线性注意力Log-linear Attention101）采用类似RNN的状态更新机制，可被解释为传播多时间尺度的汇总统计信息，从而在不产生标准自注意力的二次内存增长的前提下，保留长距离上下文信息。然而，仅替换注意力机制并不能改变Transformer仍是固定深度模型的事实，仍需依赖思维链作为补偿机制。值得注意的是，线性注意力可通过压缩的键值缓存处理更长上下文，使其更适合在资源受限的边缘设备上部署。

7 结论

本研究提出了分层推理模型（Hierarchical Reasoning Model, HRM），这是一种受大脑启发的架构，通过分层结构和多时间尺度处理，在不牺牲训练稳定性与效率的前提下，实现了显著的计算深度。仅使用2700万参数并在1000个样本上训练，HRM便能有效解决ARC、数独和复杂迷宫导航等具有挑战性的推理任务——这些任务通常对当前的大语言模型和思维链方法构成重大挑战。

尽管大脑在实现大多数认知功能时高度依赖分层结构，但这些理念在很大程度上仍停留在学术研究中，尚未广泛转化为实际应用。当前主流人工智能方法仍倾向于非分层模型。我们的研究结果挑战了这一既定范式，表明分层推理模型可作为当前主流的思维链推理方法的一种可行替代方案，朝着具备图灵完备通用计算能力的基础性框架迈出了重要一步。

原文链接：https://arxiv.org/abs/2506.21734

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2025-07-28，如有侵权请联系 cloudcommunity@tencent.com 删除

架构