A Survey of Reinforcement Learning for Large Reasoning Models
大型推理模型的强化学习综述
https://arxiv.org/pdf/2509.08827



摘要
本文综述了近年来强化学习(RL)在大语言模型(LLMs)推理能力方面的最新进展。RL 在推动 LLM 能力前沿方面取得了显著成功,尤其在解决复杂数理逻辑任务(如数学和编程)方面表现突出。因此,RL 已成为将 LLM 转化为推理大模型(LRMs)的基础方法。随着该领域的快速发展,进一步扩展 RL 以应用于 LRMs 现在不仅面临计算资源方面的基础性挑战,也面临算法设计、训练数据和基础设施等方面的挑战。在此背景下,及时回顾该领域的发展历程、重新评估其演进路径,并探索提升 RL 可扩展性以迈向人工超级智能(ASI)的策略显得尤为必要。本文特别考察了自 DeepSeek-R1 发布以来,将 RL 应用于 LLM 和 LRM 以增强其推理能力的相关研究,涵盖基础组件、核心问题、训练资源及下游应用,旨在识别这一快速演进领域未来的机遇与发展方向。我们希望本综述能促进未来关于 RL 在更广泛推理模型中应用的研究。
最近,一种新趋势正在兴起:面向大推理模型(LRMs)的强化学习 [Xu 等,2025a],其目标不仅是对齐行为,更是激励推理本身。两个近期里程碑(即 OpenAI o1 [Jaech 等,2024] 和 DeepSeek-R1 [Guo 等,2025a])表明,使用可验证奖励的强化学习(RLVR)——如数学题的答案正确性或编程题的单元测试通过率——训练 LLM,可使模型具备长程推理能力,包括规划、反思和自我修正。OpenAI 报告 [Jaech 等,2024] 指出,o1 的性能随着额外 RL 训练(增加训练时计算量)和推理时“思考”时间(测试时计算量)[Brown 等,2024;Liu 等,2025m;Snell 等,2024] 的增加而平稳提升,揭示了一条超越单纯预训练的新扩展维度 [Aghajanyan 等,2023;Kaplan 等,2020]。DeepSeek-R1 [Guo 等,2025a] 为数学任务采用显式的、基于规则的准确性奖励,为编程任务则采用编译器或测试驱动的奖励。该方法表明,大规模强化学习——特别是组相对策略优化(GRPO)——即使在后续对齐阶段之前,也能在基础模型中诱导出复杂的推理行为。
这一转变将“推理”重新定义为一种可被显式训练并可扩展的能力 [OpenAI, 2025a,b]:LRMs 在测试时分配大量计算资源用于生成、评估和修订中间思维链 [Wei 等,2022],其性能随计算预算的增加而提升。这一动态机制为能力提升开辟了一条与预训练期间的数据和参数扩展正交的补充路径 [Aghajanyan 等,2023;Kaplan 等,2020],同时利用奖励最大化目标 [Silver 等,2021],并在存在可靠验证器的场景下(如竞赛数学 [Guo 等,2025a;Jaech 等,2024]、竞赛编程 [El-Kishky 等,2025] 及部分科学领域 [Bai 等,2025])自动应用可验证奖励。此外,RL 还能通过自我生成训练数据 [Silver 等,2018;Zhao 等,2025a] 克服数据限制 [Shumailov 等,2024;Villalobos 等,2022]。因此,RL 越来越被视为通过持续扩展在更广泛任务上实现人工超级智能(ASI)的一项有前景的技术。
与此同时,进一步扩展面向 LRMs 的 RL 也带来了新的约束,不仅体现在计算资源方面,也涉及算法设计、训练数据和基础设施。RL 在 LRMs 中应如何以及在何处扩展以实现高级智能并创造现实世界价值,仍是悬而未决的问题。因此,我们认为现在正是回顾该领域发展历程、探索提升 RL 可扩展性以迈向人工超级智能之策略的恰当时机。综上,本综述从以下几个方面回顾了近期关于 LRMs 强化学习的研究:
2.1. 背景
在本小节中,我们介绍强化学习(RL)的基本组成部分,并描述语言模型如何被配置为 RL 框架中的智能体。如图 3 所示,强化学习为序列决策提供了一个通用框架,其中智能体通过采取行动与环境交互,以最大化累积奖励。在经典的强化学习中,问题通常被形式化为一个马尔可夫决策过程(MDP)[Sutton 等,1998],其由一个元组 (S, A, P, R, γ) 定义。主要组件包括状态空间 S、动作空间 A、转移动态 P: S × A → S、奖励函数 R: S × A → ℝ,以及折扣因子 γ ∈ [0,1]。在每一步中,智能体观察到一个状态 st,根据由参数 θ 表征的策略 πθ 选择一个动作 at,获得一个奖励 rt,并转换到下一个状态 st+1。当将强化学习应用于语言模型时,这些概念可以经过最小程度的调整自然映射到语言领域。该映射总结如下:



在实践中,通常会对学习到的策略进行正则化,使其趋向于一个参考策略 𝜋ref,通常通过 KL 散度约束实现,以稳定训练并保持语言质量。在接下来的章节中,我们将介绍多种建立在这一基础公式之上的算法。
2.2 前沿模型
在本小节中,我们概述了当前最先进的、采用类强化学习方法训练的大规模推理模型,大致按时间顺序沿三个主要方向组织:LRMs(大推理模型)、智能体型 LRMs 和多模态 LRMs。
在过去一年中,RL 逐步拓展了推理模型及其应用的前沿边界。首批大规模推理模型——OpenAI 的 o1 系列 [Jaech 等,2024]——确立了在训练时扩展 RL 与在推理时增加计算资源对提升推理能力的有效性,在数学、编程和科学基准测试中取得了领先成果。DeepSeek 的旗舰模型 R1 [Guo 等,2025a] 紧随其后,成为首个在各项基准上性能媲美 o1 的开源模型。它采用多阶段训练流程,确保模型能力全面均衡,并探索了无需监督微调的纯 RL 路径(即“零 RL”)。
随后,其他闭源模型迅速跟进:Claude-3.7-Sonnet [Anthropic, 2025a] 引入了混合推理能力;Gemini 2.0 和 2.5 [Comanici 等,2025] 延长了上下文长度;Seed-Thinking 1.5 [Seed 等,2025b] 强调跨领域泛化能力;o3 系列 [OpenAI, 2025b] 则展现出日益增强的推理能力。近期,OpenAI 推出了其首个开源推理模型 gpt-oss-120b [Agarwal 等,2025a],随后发布了迄今为止最强大的 AI 系统 GPT-5 [OpenAI, 2025a],该系统可在高效模型与深度推理模型 GPT-5 thinking 之间灵活切换。与此同时,开源社区持续拓展这一领域:在 Qwen 家族中,QwQ-32B [Team, 2025g] 性能与 R1 相当,随后推出的 Qwen3 系列 [Yang 等,2025a] 中,代表性模型 Qwen3-235B 进一步提升了基准分数。Skywork-OR1 系列模型 [He 等,2025d] 基于 R1 蒸馏模型构建,通过有效的数据混合与算法创新实现了可扩展的 RL 训练。Minimax-M1 [Chen 等,2025a] 是首个引入混合注意力机制以高效扩展 RL 的模型。其他工作包括旨在平衡精度与效率的 Llama-Nemotron-Ultra [Bercovich 等,2025];完全从零开始通过 RL 训练(无先前模型蒸馏)的 Magistral 24B [Rastogi 等,2025];以及强调长上下文推理能力的 Seed-OSS [Team, 2025a]。
模型推理能力的提升反过来也扩展了其在编程和智能体场景中的应用。Claude 系列一直以在智能体编程任务上的领先表现著称,其最新代表 Claude-4.1-Opus [Anthropic, 2025b] 进一步刷新了 SWE-bench 基准 [Jimenez 等,2023] 的最先进成绩。Kimi K2 [Team, 2025d] 是近期专为智能体任务优化的代表性智能体模型,构建了大规模智能体训练数据合成方法,并设计了一种支持不可验证奖励的通用 RL 流程。紧随其后,GLM4.5 [Zeng 等,2025a] 和 DeepSeek-V3.1 均强调工具使用与智能体任务,在相关基准上实现了显著提升。
多模态能力是推理模型得以广泛应用的关键组成部分。大多数前沿闭源模型,包括 GPT-5、o3、Claude 和 Gemini 系列,均原生支持多模态。其中,Gemini-2.5 [Comanici 等,2025] 特别强调在文本、图像、视频和音频等多个模态上的强大性能。在开源方面,Kimi 1.5 [Team, 2025d] 是迈向多模态推理的早期尝试,突出了长上下文扩展能力以及文本与视觉领域的联合推理。QVQ [Qwen Team, 2025] 在视觉推理与分析思维方面表现卓越;Skywork R1V2 [Wang 等,2025k] 通过混合 RL(同时使用 MPO 和 GRPO)平衡推理与通用能力。作为 InternVL 系列的重要补充,InternVL3 [Zhu 等,2025c] 采用了统一的原生多模态预训练阶段,随后的 InternVL3.5 [Wang 等,2025o] 采用两阶段级联 RL 框架,提升了效率与通用性。更近期的 Intern-S1 [Bai 等,2025] 模型专注于跨领域的多模态科学推理,得益于在线 RL 中的混合奖励设计,可同时在广泛任务上进行训练。其他近期模型包括专为高效训练和最小化解码成本设计的 Step3 [Wang 等,2025a],以及在大多数视觉多模态基准上达到最先进性能的 GLM-4.5V [Team 等,2025a]。
除上述模型外,我们在图 4 中提供了推理模型的完整列表,并在表 1 中详列了开源模型的具体信息。


2.3 相关综述
在本小节中,我们比较了近期与强化学习(RL)和大语言模型(LLMs)相关的综述文献。部分综述主要聚焦于 RL 本身,涵盖经典 RL 及其最新扩展。Ghasemi 等人 [2024] 提供了一项涵盖 RL 算法与现实挑战的通用综述;Huh 和 Mohapatra [2023] 聚焦于多智能体 RL;Zhang 等人 [2024b] 回顾了自我博弈技术;Wu 等人 [2025h] 综述了 RL 在计算机视觉任务中的应用。尽管这些工作为 RL 提供了广泛的视角,但并未明确探讨其在 LLMs 中的应用。
相比之下,其他综述则以 LLMs 及其新兴能力为核心,例如长程思维链推理 [Chen 等,2025m;Li 等,2025w;Xia 等,2024] 和自适应行为 [Feng 等,2025c;Sui 等,2025],其中 RL 常被作为支持这些进展的关键方法引入。Zhao 等人 [2023a] 对 LLM 的架构与应用进行了广泛概述,而近期研究则更集中于推理能力:Zhang 等人 [2025a] 综述了 DeepSeek-R1 发布后推理型 LLM 的复现研究;Chen 等人 [2025m] 探讨了长思维链推理;Li 等人 [2025w] 分析了从系统1到系统2推理的转变。这些研究将基于 RL 的方法(如 RLHF 和 RLVR)视为有用工具,但仅将其作为众多推理策略中的一项。
Sun 等人 [2025b] 从更广泛、结构化的视角探讨了通过基础模型实现的推理能力,重点介绍了专门为推理提出或适配的关键基础模型,以及在多样化推理任务、方法和基准上的最新进展。Zhang 等人 [2025b] 研究了 RL 如何赋予 LLM 自主决策与自适应智能体能力。Xu 等人 [2025a] 的研究更贴近我们的关注点,讨论了 LLM 的强化推理,强调试错优化如何提升复杂推理能力。Wu [2025] 则通过综述奖励模型与从反馈中学习的策略,补充了这一视角。然而,这些工作仍主要聚焦于推理性能或奖励设计,而非对 LLM 整体 RL 方法进行系统性梳理。
Srivastava 和 Aggarwal [2025] 是近期尝试弥合这两个领域的研究,综述了用于 LLM 对齐与增强的 RL 算法,主要方法包括 RLHF [Christiano 等,2017]、RLAIF [Lee 等,2024b] 和 DPO [Rafailov 等,2023]。但其重点仍主要放在“对齐”上,而非“推理能力”。
与以往综述或侧重通用 RL、或侧重 LLM 推理不同,我们以 RL 为核心,系统性地综合其在整个 LLM 训练生命周期中的作用,包括奖励设计、策略优化和采样策略。我们的目标是识别在 LRM 中扩展强化学习以迈向人工超级智能(ASI)的新方向,重点关注长期交互与演化过程。
在本节中,我们回顾面向大推理模型(LRMs)的强化学习(RL)的基础组件,包括奖励设计(§3.1)、策略优化算法(§3.2)和采样策略(§3.3)。基础组件的分类结构如图5所示。
3.1 奖励设计
在本小节中,我们对面向 LRMs 的 RL 中的奖励设计进行系统性考察。我们首先在 §3.1.1 中讨论“可验证奖励”,这是最自然的起点。该方向已取得显著进展,典型代表是 DeepSeek-R1 的成功,其通过可验证的奖励机制证明了 RL 的可扩展性。与之相对,§3.1.2 探讨“生成式奖励”,即让模型自身参与验证或直接生成奖励信号。然而,无论是可验证奖励还是生成式奖励,通常都表现为稀疏的数值反馈。奖励信号的一个重要补充维度是其“密度”。因此,§3.1.3 考察了引入“稠密奖励”的方法。另一个分类维度在于奖励是基于外部真实标签计算,还是由模型直接估计得出。这一区别促使我们在 §3.1.4 中讨论“无监督奖励”。在上述四类奖励的基础上,我们在 §3.1.5 进一步探讨“奖励塑形”,分析如何组合或转换多样化的奖励信号以促进学习。
3.1.1.可证实的奖励
要点总结:
基于规则的奖励。奖励作为强化学习(RL)的训练信号,决定了优化方向 [Guo 等,2025a]。近期,在大规模 RL 训练大推理模型(LRMs)时,主要采用基于规则的可验证奖励。这类奖励通过鼓励更长、更具反思性的思维链(chain-of-thought),可靠地提升数学与编程推理能力 [Guo 等,2025a;Team,2025c;Yu 等,2025d]。这一范式在 Tülu 3 [Lambert 等,2024] 中被正式命名为 RLVR(基于可验证奖励的强化学习),其核心是用程序化验证器(如答案检查器或单元测试)替代学习得到的奖励模型。这类验证器在具有客观可验证结果的领域中提供二元、可检查的信号。随后,类似基于规则的可验证奖励设计被整合进 DeepSeek 的训练流程。例如,DeepSeek-V3 [Liu 等,2024] 明确引入了专为确定性任务定制的基于规则的奖励系统,而 DeepSeek-R1 [Guo 等,2025a] 进一步采用了基于准确性和基于格式的奖励。基于规则的奖励与基于结果或基于过程的奖励模型(RMs)形成对比,例如标准 RLHF 中使用基于人类偏好排序训练的学习型奖励模型 [Ouyang 等,2022],以及基于步骤级标注训练的过程奖励模型(PRMs)[Setlur 等,2024;Sun 等,2025c;Yuan 等,2025d]。DeepSeek-V3 和 DeepSeek-R1 表明,当奖励模型被扩展至大规模 RL 场景时,可能出现“奖励作弊”(reward hacking)问题;而通过尽可能采用基于规则的奖励,我们能确保系统更具可靠性,使其对操纵和利用更具抵抗力 [Guo 等,2025a;Liu 等,2024]。
在实践中,两类基于规则的可验证奖励被广泛使用:
基于规则的验证器。基于规则的奖励通常源自基于规则的验证器。这些验证器依赖大量人工编写的等价规则,以判断预测答案是否与真实答案匹配。目前广泛使用的数学验证器主要基于 Python 库 Math-Verify¹ 和 SymPy²。此外,如 DAPO [Yu 等,2025d] 和 DeepScaleR [Luo 等,2025c] 等工作也提供了开源且成熟的验证器。近期,Huang 等人 [2025e] 指出了基于规则和基于模型的验证器各自存在的独特局限性,以指导设计更可靠的奖励系统。
在实践中,诸如数学解题和代码生成等任务虽然求解困难,但相对容易验证,因此满足高效 RL 优化的主要标准 [Guo 等,2025a;He 等,2025d]:存在明确的真实答案、具备快速的自动化验证手段、可规模化评估大量候选解,且奖励信号与正确性高度一致。相比之下,缺乏快速或客观验证手段的任务(如开放式问答或自由写作)对基于结果的 RL 仍具挑战性,因为它们依赖噪声较大的学习型奖励模型或主观的人类反馈 [Yu 等,2025e;Zhou 等,2025e]。
验证器定律(Verifier’s Law)指出:训练 AI 系统完成某项任务的难易程度,与该任务的可验证程度成正比³。该定律强调,一旦某项任务能配备稳健的自动化反馈机制,便可通过 RL 快速取得进步。第6节所讨论的成功应用印证了这一原则,其核心挑战正是设计可靠的可验证反馈。相反,第7节中强调的许多开放性问题,恰恰源于缺乏可靠的自动化奖励机制。
3.1.2.生成奖励
要点总结:
尽管如前所述(§3.1.1),基于规则的奖励能为可验证任务提供可靠的信号,但其适用范围有限。许多复杂的推理任务,尤其是在开放式或创造性领域,缺乏客观的真实答案,使得简单的验证器难以处理。为弥合这一鸿沟,生成式奖励模型(GenRMs)作为一种强有力的替代方案应运而生。与输出单一标量分数不同,GenRMs 利用大推理模型(LRMs)的生成能力,产生结构化的批评、理由和偏好,从而提供更具可解释性和细致入微的奖励信号 [Mahan 等,2024;Zhang 等,2024a]。该方法解决了两个关键挑战:第一,它提升了对难以解析的可验证任务的验证鲁棒性;第二,更重要的是,它使强化学习能够应用于主观性强、不可验证的领域。
面向可验证任务的模型化验证器。基于规则系统的一个主要问题是其脆弱性:当模型以非预期格式生成正确答案时,系统常产生假阴性。为缓解这一问题,部分研究采用“基于规范的 GenRMs”作为灵活的模型化验证器。这些模型经过训练,能够语义上评估模型自由形式输出与参考答案之间的等价性。该方法已被用于开发轻量级验证器,以增强现有基于规则的系统 [Xu 等,2025g],也用于构建更全面、多领域的验证器,能够处理多样化的数据类型和推理任务 [Chen 等,2025b;Liu 等,2025n;Ma 等,2025c;Seed 等,2025a]。通过用学习得到的语义判断替代或补充僵化的字符串匹配,这些验证器在可验证领域为强化学习提供了更精确的奖励信号。
面向不可验证任务的生成式奖励。GenRMs 的另一核心应用是“基于评估的 GenRMs”,它使得在“验证器定律”不成立的任务上也能应用强化学习。该范式已从使用强大 LLM 作为零样本评估器,演进为复杂的、协同演化的系统。我们可以根据其核心设计理念对这些方法进行分类:
从静态评判者到动态协同演化系统的演进,通常由混合奖励方案支持——即结合基于规则与生成式信号 [Li 等,2025c;Seed 等,2025a]。此外,GenRMs 正被调整为提供更细粒度的过程级反馈,以解决复杂推理链中的信用分配问题 [He 等,2025f;Khalifa 等,2025;Xie 等,2025b;Zhao 等,2025b]。本质上,生成式奖励正被证明对于将强化学习扩展至通用型 LRMs 所瞄准的全任务谱系不可或缺。
3.1.3 稠密奖励
要点总结:
在经典强化学习中,例如游戏和机器人操作任务 [Liu 等,2022;Schrittwieser 等,2020;Sun 等,2025d],稠密奖励在(几乎)每个决策步骤提供频繁反馈。这种奖励塑形缩短了信用分配的时间跨度,通常能提升样本效率和优化稳定性,但如果信号设计不当,也可能导致奖励误设或奖励作弊 [Hadfield-Menell 等,2017]。至于大语言模型的推理任务,稠密奖励通常是基于过程的信号,监督中间步骤而非仅关注最终结果,并已被证明有效,常常优于基于结果的奖励 [Lightman 等,2024;Uesato 等,2022]。根据 §2.1 中的定义,我们进一步依据动作和奖励的粒度,在 LLM 强化学习背景下形式化稀疏/结果奖励与稠密奖励,如表 2 所示。
Token 级奖励。DPO [Rafailov 等,2023] 及其后续工作 [Rafailov 等,2024] 表明,token 级奖励可计算为策略模型与参考模型之间的对数似然比值。Implicit PRM [Yuan 等,2025d] 进一步表明,可通过训练结果奖励模型(ORM)并使用 Rafailov 等人 [2024] 的参数化方法获得 token 级奖励。PRIME [Cui 等,2025a] 将 ORM 学习整合进 RL 训练中,并使用隐式 token 级奖励训练策略。SRPO [Fei 等,2025a] 在 PRIME 中移除了 ORM 并改进了优势估计。另一类工作则聚焦于使用内部反馈作为 token 级奖励,例如 token 熵 [Cheng 等,2025a;Tan 和 Pan,2025] 和策略性 n-gram [Wang 等,2025g]。
步骤级奖励。步骤级奖励的方法可分为两类:基于模型的方法和基于采样的方法。早期工作依赖人类专家标注步骤级稠密奖励 [Lightman 等,2024;Uesato 等,2022],成本高昂且难以规模化。
轮次级奖励(Turn-Level Rewards)。轮次级奖励评估每一次完整的智能体-环境交互(例如一次工具调用及其结果),在多轮任务中以单轮为粒度提供反馈。关于轮次级奖励的研究大致可分为两类:直接每轮监督,以及从结果级奖励中推导轮次级信号。
总体而言,无论是直接在每次交互中分配,还是从结果分解中推导,轮次级奖励都充当了过程监督与结果监督之间的桥梁,在多轮智能体强化学习中对稳定和提升优化起着核心作用,更多细节见 §6.2。
3.1.4 无监督奖励
要点总结:
前沿语言模型在广泛任务中表现出色,包括许多极具挑战性的任务 [Glazer 等,2024;Jimenez 等,2023;Li 等,2024b;Phan 等,2025]。然而,推动这些模型发展的关键限制在于强化学习(RL)对人工生成奖励信号的依赖(§3.1.1–3.1.3)。对于需要超人类专业知识的任务,人工反馈往往缓慢、昂贵且不切实际 [Burns 等,2023]。为解决这一问题,一种有前景的方法是“无监督强化学习”,即使用自动生成、可验证的奖励信号替代真实标签。该方法是实现 LLM 可扩展 RL 的基础。本节综述这些无监督奖励机制,并根据其来源将其分为两类:源自模型自身的奖励(模型专属型),以及源自外部、非人工来源的奖励(模型无关型)。
模型专属型奖励。该范式仅利用大语言模型内部知识作为监督来源。其基本假设是:高性能模型将生成具有一致性、高置信度或评估上合理的输出。该方法具有高度可扩展性,仅需模型与计算资源即可生成近乎无限量的“标注”数据。然而,其闭环特性易导致奖励作弊与模型崩溃。
模型无关型奖励。与模型专属方法不同,该范式从外部自动化来源获取奖励。该方法将学习过程锚定于外部信息,无需人工标注。其核心原则是:这些外部信号易于获取,无需人工干预。然而,由于精确反馈通常不可得,代理奖励的质量至关重要,奖励作弊的风险依然存在。
总之,无监督奖励设计对于构建面向 LLM 的可扩展 RL 系统至关重要。模型专属范式通过利用模型内部知识促进自我改进,而模型无关范式则将学习锚定于外部自动化反馈。尽管两种方法均有效绕过了人工标注瓶颈,但仍易受奖励作弊影响 [Zhang 等,2025q]。未来可扩展 RL 很可能涉及混合系统,战略性结合这些方法——例如,使用数据驱动奖励进行预训练,使用模型专属自我奖励微调复杂推理任务,并辅以最小化人工监督以确保安全与对齐。
3.1.5 奖励塑形
要点总结:
如前所述,在强化学习中,智能体的主要学习目标是最大化累积奖励,因此奖励函数的设计尤为关键 [Sutton 等,1998]。在前几小节中,我们介绍了多种奖励函数,包括可验证奖励(§3.1.1)、生成式奖励(§3.1.2)、稠密奖励(§3.1.3),甚至无监督奖励(§3.1.4)。除了奖励工程本身,同样重要的是考虑如何修改或增强奖励函数,以鼓励有助于达成目标解的行为。这一过程被称为“奖励塑形”[Goyal 等,2019;Gupta 等,2022;Hu 等,2020;Xie 等,2023],可分为基于规则的奖励塑形和基于结构的奖励塑形。
基于规则的奖励塑形。在基于 LLM 的 RL 中,最简单且最常用的方法是将基于规则的验证器奖励与奖励模型的奖励相结合,以生成总体奖励信号,如 Qwen2.5 Math [Yang 等,2024a] 所示。通常,使用一个常数系数平衡奖励模型与基于规则组件的贡献。该方法不仅对所有正确响应赋予相同奖励,还可根据奖励模型的评分进一步对响应排序。这一方法对更具挑战性的样本尤为有用,可避免所有奖励值均为 0 或 1 的情况,从而防止学习梯度失效 [Yu 等,2025d]。这种启发式组合策略广泛应用于开放域任务,通过整合基于规则的奖励与奖励模型 [Guo 等,2025b;Liao 等,2025a;Liu 等,2025x],为 LLM 的强化学习生成更具信息量和更有效的奖励信号 [Su 等,2025c;Zeng 等,2025c;Zhang 等,2024a]。另一种方法是组合多种基于规则的奖励,如结果级奖励和格式奖励,如 DeepSeek-R1 [Guo 等,2025a] 所采用,使 LLM 能够学习长程思维链推理。这些奖励包括基于格式的 [Xin 等,2025] 和基于长度的组件 [Liu 等,2025p],用于应对 LLM 输出中的各种异常情况。与使用固定奖励权重 [Team,2025d;Yao 等,2025b] 或启发式规则进行奖励插值 [Aggarwal 和 Welleck,2025;Zhang 和 Zuo,2025] 不同,Lu 等人 [2025f] 提出了动态奖励加权方法,结合超体积引导的权重自适应与基于梯度的权重优化,在多目标对齐任务上实现了更优性能 [Li 等,2025a;Liu 和 Vicente,2024]。近期研究还探索了多角色 RL 训练,为不同角色(如求解器与评论家)分配不同奖励函数 [Li 等,2025i]。这些奖励通常通过人工设定的常数进行组合。最新工作进一步探索多角色 RL 训练 [Li 等,2025i,j],为不同角色分配不同奖励函数,以鼓励多样化行为与目标 [Li 等,2025i],例如求解器与评论家角色。
基于结构的奖励塑形。与仅依赖单个样本的基于规则方法不同,基于结构的奖励塑形利用列表级或集合级基线,在一组候选样本上计算奖励。一个有影响力的方法是 GRPO [Shao 等,2024],它使用对同一问题 G 的响应组均值作为基线(或其变体,如留一法 [Ahmadian 等,2024] 或排序),并据此构建优势值用于 PPO 式更新 [Schulman 等,2017b]。近期研究进一步修改优化目标或信用分配策略,以促进更强探索并更紧密对齐评估指标,如 Pass@K [Yue 等,2025b]。例如,Walder 和 Karkhanis [2025] 对最终奖励进行联合变换,使优化直接等价于 Pass@K 等集合级目标,并提供低方差、无偏的梯度估计。Chen 等人 [2025x] 在推导和分析优势值及高效近似时直接以 Pass@K 为目标,将集合级目标分解回单个样本的信用分配。此类奖励塑形方法旨在稳定训练,鼓励策略进行更广泛探索,从而降低过早收敛到次优局部解的风险。
3.2 策略优化
在本小节中,我们首先提供策略梯度目标的数学形式化技术概述(§3.2.1)。接着,根据梯度计算过程中奖励的生成方式,我们将 RL 中的在线策略优化算法分为两类:基于评论家的方法(§3.2.2)与无评论家方法(§3.2.3)。此外,我们讨论了近期将在线策略 RL 与离线数据集结合以实现更复杂后训练(即离策略优化)的研究(§3.2.4),以及包括熵正则化与 KL 正则化在内的多种正则化技术(§3.2.5)。
3.2.1 策略梯度目标
如第 2.1 节所述,在 LLM 的强化学习(RL)中,上下文被视为环境,而下一层预测的概率分布则被视为策略。对于一个 RL 系统,其目标是找到一个最优策略,使得系统生成的期望累积奖励最大化。由于 LLM 拥有大量参数,针对 LLM 的 RL 策略优化算法大多为基于一阶梯度的方法。通常,RL 算法的目标是优化网络参数,以使期望奖励最大化。下文我们给出适用于 LLM 的 RL 算法梯度计算的一般性公式。





PPO 算法 [Schulman et al., 2017b] 最初被提出作为 TRPO 算法 [Schulman et al., 2015a] 的一种计算效率更高的近似方法。当标准策略梯度方法因数据效率低和鲁棒性差而表现不佳时,PPO 表现尤为出色。此外,与 TRPO 相比,PPO 实现更简单、通用性更强,且具有更好的样本复杂度。
然而,由于 LLM 具有复杂且较长的思维链(CoT)特性,其精确的目标函数、梯度估计和更新技术可以呈现多种不同形式,如表 3 所示。

3.2.2 基于评论家的算法
要点总结:
强化学习中最早与大语言模型(LLM)相关的工作,聚焦于如何有效将 LLM 策略与外部监督对齐,以增强模型的指令遵循能力,同时确保模型具备有用性、诚实性和无害性。LLM 对齐最常用的方法是基于人类反馈的强化学习(RLHF)[Bai 等,2022a;Christiano 等,2017;Ouyang 等,2022;Stiennon 等,2020]。该技术将人类作为学习算法中的“评论家”,其具体步骤如下:首先,由 LLM 生成一组模型输出,并由人类标注以构建数据集;随后,利用该数据集训练一个奖励模型,以预测人类更偏好的响应;最后,该奖励模型与一个价值函数(即系统中的“评论家”)共同用于训练 LLM。训练通常采用 PPO 算法 [Schulman 等,2017b]。PPO 算法将目标函数形式化如下:


近期研究指出,对于需要长思维链(CoT)的复杂推理任务,衰减因子的扩展性不佳,并提出了价值校准 PPO [Yuan 等,2025f] 和 VAPO [Yue 等,2025c]、VRPO [Zhu 等,2025a] 等新机制,以增强评论家模型在噪声奖励信号下的鲁棒性。
此外,基于评论家的算法 [Hu 等,2025b] 还展示了在使用基于规则的奖励时,蒙特卡洛估计具有稳定的可扩展性。类似方法也通过实现过程奖励模型(PRMs)被应用于固定外部模型 [Lu 等,2024;Wang 等,2024b]。
引入评论家模型的另一种方法是引入隐式 PRM [Yuan 等,2025d]。该方法同样能够为可扩展的 RL 训练提供 token 级监督。不同于 GAE 方法,隐式 PRM [Yuan 等,2025d] 和 PRIME [Cui 等,2025a] 等方法采用特定的奖励模型形式,直接生成 token 级奖励。
3.2.3 无评论家算法
要点总结:
除了提供 token 级反馈信号用于模型训练的基于评论家的方法外,许多近期研究指出,对于使用强化学习的可扩展推理任务而言,响应级(即序列级)奖励已足够。这些无评论家算法对响应中所有 token 应用相同的基于规则或模型生成的响应级奖励,并在多种任务中展现出有效性。
与基于评论家的算法相比,无评论家方法无需单独的评论家模型,从而显著降低计算需求并简化训练过程。此外,当在基于规则的环境中训练大语言模型(LLM)时——即任何响应的奖励均可明确定义——无评论家算法可避免因评论家模型训练不佳而引发的奖励作弊问题。这一特性使得在上述场景中,无评论家算法比基于评论家的方法更具可扩展性。
经典的 REINFORCE 算法 [Williams, 1992] 是最早为强化学习开发的算法之一,已被应用于 LLM 问题 [Ahmadian 等,2024]。REINFORCE 的具体公式如下:

其中,𝑅(𝑥, 𝑦) 在 RLVR 任务中通常取值为 ±1。这种朴素的公式将整个序列视为单一动作,并将响应任务视为一个赌博机(bandit)问题。然而,原始算法通常因高方差而面临严重的不稳定性问题。ReMax [Li 等,2023c] 为 REINFORCE 引入了一种方差降低机制,采用贪心基线估计。Ahmadian 等人 [2024] 进一步提出了 RLOO,提供了一个无偏基线,获得更稳定的结果。REINFORCE++ [Hu, 2025] 借鉴了 PPO 和 GRPO 类算法中的技术(如裁剪和全局优势归一化),以提供更精确的优势估计和梯度估计。
目前最流行的无评论家 RL 方法之一是 GRPO [Shao 等,2024]。GRPO 的目标函数公式如下:

GRPO 是对 PPO 的一种无评论家改进,它不再使用由评论家提供的 GAE,而是对整个序列采用相同的优势估计值,该估计值通过组相对归一化计算,相比二元的基于规则奖励能提供更优的估计。与 PPO 和 REINFORCE 类方法相比,GRPO 的组基优势计算有效降低了训练信号的方差,并被证明可加速训练过程。其他近期方法,包括 DAPO [Yu 等,2025d]、CISPO [Chen 等,2025a]、Dr. GRPO [Liu 等,2025u]、LitePPO [Liu 等,2025w],通过对采样策略、裁剪阈值和损失归一化进行精细调优,进一步改进了 GRPO,以增强 RL 训练过程的稳定性。另一项近期工作 GSPO [Zheng 等,2025a] 将 token 级裁剪的重要性采样比率替换为序列级裁剪。
除了 REINFORCE 和 GRPO 相关算法外,还存在其他无评论家方法。VinePPO 通过用蒙特卡洛优势估计替代学习得到的评论家,对 PPO 进行了修改。CPGD [Liu 等,2025z] 提出了一种新颖的策略梯度目标函数,并结合漂移正则化机制。K1.5 [Team,2025d] 在基础模型训练中采用镜像下降的适配形式进行强化学习,成功增强了 LLM 的长上下文推理能力。Lv 等人 [2025] 最近提出了一种统一的策略梯度估计器,结合混合后训练算法,为 LLM 中的强化学习提供统一的策略梯度估计框架。SPO [Xu 和 Ding,2025] 引入了一种无组、单流策略优化方法,用持久的 KL 自适应值追踪器和全局优势归一化替代每组基线,在保持高效扩展于长视野和工具集成场景的同时,实现比 GRPO 更平滑的收敛和更高精度。HeteroRL [Zhang 等,2025c] 将 rollout 采样与参数学习解耦,支持去中心化异步训练,并通过 GEPO 在由延迟引起的 KL 漂移(理论上呈指数级)下降低重要性权重方差,即使在严重延迟情况下(例如 1800 秒时性能下降 <3%)仍能保持稳定。
策略优化中的重要性采样。由于强化学习中存在 rollout-奖励-训练循环,通常在计算上难以保证 rollout 数据严格遵循当前模型的策略分布。因此,引入了重要性采样以减少训练偏差。重要性采样在 RL 中的最初版本出现在 TRPO 中,其在目标函数中引入了 token 级重要性比率 𝑤𝑖,𝑡。该方法被近期许多工作广泛采用,如 GRPO。然而,该方法受限于 token 级重要性比率,因为对于长程思维链(CoT)上下文,实际分布比率难以有效计算。但 token 级重要性采样又给 RL 算法引入了另一种偏差,因为给定策略的实际采样分布应基于状态-动作对定义,而 token 级方法仅考虑当前动作。GMPO [Zhao 等,2025f] 试图通过引入几何平均来缓解这一问题,以提高对具有极端重要性采样比率的 token 的训练鲁棒性。在近期工作 GSPO [Zheng 等,2025a] 中,计算了序列级重要性采样因子。GSPO 增加了一个独特的归一化因子以确保概率比率可计算,但该方法仍是对真实重要性采样因子的一种有偏估计。
一个有前景的新方向是:超越标准在线策略梯度方法的理论框架,转而直接从监督学习理论推导出本质上的离策略算法 [Chen 等,2025c]。我们将在下一节详细介绍离策略优化方法。
3.2.4 离策略优化
要点总结:
在强化学习中,离策略方法处理的是学习中的策略(目标策略)与生成数据的策略(行为策略)不一致的情况。这一核心区别允许智能体在数据收集过程中无需遵循最优行为,即可学习最优行动方案。这种灵活性是一项关键优势,通常比在线策略方法更具备样本效率——因为在线策略方法每次更新都需要从当前策略中直接采样新数据。这类方法的核心挑战在于校正行为策略与目标策略之间的分布偏移,通常通过重要性采样并结合加权目标函数来解决:

在大规模模型训练的实际应用中,离策略学习常以不同形式体现。近期研究大致可分为三个方面:1)训练与推理精度差异,即模型以高精度训练但以低精度部署,导致目标策略与行为策略之间出现差距;2)异步经验回放机制,通过在学习过程中重用历史轨迹,提升效率与稳定性;3)更广泛的离策略优化方法,包括优化器层面的改进、数据层面的离线学习,以及结合监督微调(SFT)与强化学习(RL)的混合方法。
训练-推理精度差异。一个显著的离策略场景源于训练模型与推理模型在参数精度上的差异,例如训练与推理采用不同框架 [Yao 等,2025a](如 vLLM 与 FSDP),或为加速推理而对模型进行量化 [Lin 等,2016],这体现了 LLM 推理中的非确定性 [He 和 Lab,2025]。通常做法是使用高精度参数(如 32 位浮点数)训练模型,然后部署低精度参数(如 8 位整数)的量化版本 [Liu 等,2025i]。这导致已部署的低精度模型作为行为策略生成真实世界交互数据,而高精度模型则作为训练过程中持续更新的目标策略。尽管这种不匹配构成了一个离策略学习问题,但研究表明,由量化引起的策略差异通常较小。因此,可通过简单的校正技术(如截断重要性采样,TIS [Ionides,2008;Yao 等,2025a])有效管理该差异,在保持加速推理优势的同时实现稳定训练。
异步离策略训练。异步训练天然与 LLM 的离策略强化学习相契合。多个“执行者”并行生成轨迹并将其追加到共享经验回放缓冲区,而一个中心化“学习者”从该缓冲区中采样小批次数据以更新目标策略。基于这一视角,近期多项方法有意重用历史轨迹,以提升效率与稳定性。例如,“回溯回放”(Retrospective Replay)[Dou 等,2025] 通过选择性回放早期推理轨迹,引导当前策略更新,从而增强 LLM 推理的探索能力。类似地,EFRame [Wang 等,2025b] 采用“探索-过滤-回放”机制,将过滤后的响应与新生成的 rollout 交错使用,以鼓励更深入的推理。在代码生成领域,“可能性与通过率优先经验回放”(PPER)[Chen 等,2024c] 进一步优先选择缓冲区中高价值代码样本,实现更稳定的优化。将这些思想扩展至多模态交互,ARPO [Lu 等,2025b] 将回放应用于 GUI 智能体,在稀疏奖励条件下通过重用成功轨迹提供可靠的学习信号。最后,RLEP [Zhang 等,2025d] 以早期运行中已验证的成功轨迹构建经验缓冲区,并将其与新 rollout 混合,以平衡可靠性与探索发现。这些方法共同表明,经验回放缓冲区已成为现代基于 LLM 的智能体进行异步离策略训练的基石。
离策略优化。近期在微调 LLM 方面的进展探索了超越传统在线策略 RL 的复杂优化策略。这些方法被广泛归类为离策略和混合策略优化,旨在通过创造性地利用多种来源的数据,提升样本效率、训练稳定性与整体性能。我们从以下方面介绍:
3.2.5 正则化目标
要点总结:
如前文所述,确保训练稳定性并防止灾难性策略漂移至关重要。特别是对于长时域训练,KL 正则化和熵正则化等技术被广泛采用。


熵正则化。在强化学习文献中,保持策略熵通常被认为是许多算法的关键方面 [Eysenbach 和 Levine,2021;Williams,1992;Williams 和 Peng,1991]。为此,策略熵通过正则化技术主动控制 [Haarnoja 等,2018;Schulman 等,2017b;Ziebart 等,2008]。

然而,在面向大语言模型(LLMs)的强化学习中,直接应用熵正则化既不常见,也往往无效 [Cui 等,2025b;He 等,2025d]。在损失函数中显式引入熵正则化项仍存在争议。部分研究者认为其有益,或采用标准系数 [Shrivastava 等,2025],或设计针对性损失函数 [Wu 等,2025e];而另一些研究者则持反对意见,认为它可能导致训练不稳定,甚至崩溃,尤其在稀疏奖励场景下 [An 等,2025;Liao 等,2025b]。许多研究表明,若不加干预,训练过程中常出现“熵崩溃”现象 [Cheng 等,2025a;Cui 等,2025b;Yu 等,2025d],从而阻碍策略在训练期间的有效探索。为解决这一问题,He 等人 [2025d] 动态调整熵损失项的系数;Yu 等人 [2025d] 采用“clip-higher”技术,使更多低概率 token 参与策略更新;Wang 等人 [2025m] 直接在 20% 高熵 token 上进行训练;Cheng 等人 [2025a] 和 Chen 等人 [2025j] 则通过将熵纳入优势计算来强调其作用。除上述显式最大化熵的技术外,Cui 等人 [2025b] 还从理论上解释了熵动态变化的底层机制,指出动作输出概率与其优势值之间的协方差是驱动熵变化的“引擎”。基于这一洞察,他们提出了 Clip-Cov 和 KL-Cov 方法,通过选择性约束协方差异常高的少量 token 来调控熵。
长度惩罚。近期大推理模型(LRMs)在复杂任务上的成功,验证了长思维链(long-CoT)推理的有效性。然而,更长的推理轨迹会带来更高的推理成本。为在推理预算与性能之间取得平衡 [Agarwal 等,2025a;He 等,2025e],许多研究致力于在保持模型性能的同时降低推理成本 [Aggarwal 和 Welleck,2025;Liu 等,2025p;Luo 等,2025a;Su 等,2025b;Xiang 等,2025]。例如,Aggarwal 和 Welleck [2025] 通过确保模型遵守用户指定的长度约束来控制推理长度;Yuan 等人 [2025a] 和 Luo 等人 [2025a] 在优化目标中设计了相对长度正则化项和准确性保持约束;Xiang 等人 [2025] 和 Liu 等人 [2025p] 则提出根据问题难度施加自适应长度惩罚,以保留模型能力。
3.3 采样策略
与静态数据集不同,强化学习依赖于主动构建的 rollout(轨迹采样),其中关于“采样什么”和“如何采样”的决策直接影响学习效率、稳定性以及所习得推理行为的质量。有效的采样策略不仅能确保训练信号的多样性和信息量,还能使学习过程与预期的奖励结构和策略目标保持一致。在本小节中,我们将综述动态与结构化采样方面的最新进展(§3.3.1),以及进一步优化采样和策略改进的超参数调整技术(§3.3.2)。
3.3.1 动态与结构化采样
要点总结:
采样已成为推理型大语言模型(LLM)强化学习微调中的一等公民(first-class lever),作为一种高效且自适应的机制,它能最大化数据利用率、减少无效计算、增强训练效果,或作为控制与引导手段,使 LLM 以结构化格式进行采样。
动态采样。动态采样根据在线学习信号(如成功率、优势值、不确定性或估计难度),动态调整用于 rollout 的提示选择及每个提示分配的计算预算。其主要目标是将计算资源集中于信息量丰富的样本,同时避免已饱和或无效样本。现有方法大致分为两类:
结构化采样。结构化采样不仅控制采样内容,还控制推理轨迹的拓扑结构,使生成过程、信用分配和计算复用与问题求解的底层结构对齐。通过将 rollout 组织为树结构或共享/分段前缀,这些方法支持节点级奖励、更高效地复用部分计算(如 KV 缓存),并在内存与预算限制下实现更高的样本效率。我们重点介绍两种代表性方法:
3.3.2 采样超参数
要点总结:
本小节总结了近期研究中针对采样的超参数调整策略。有效的强化学习训练需要在多个相互竞争的目标之间取得精细平衡,近期文献主要聚焦于两个核心维度的技术:1)管理探索与利用之间的权衡,以确保模型既能发现又能优化高效的推理路径;2)高效管理序列长度,在推理深度与计算成本之间取得平衡。
探索与利用的动态平衡。核心挑战在于平衡“探索”(发现新颖的推理策略)与“利用”(优化高奖励解)。主要调控手段包括温度(temperature)、熵正则化以及 PPO 的裁剪机制。在温度设置方面,策略差异显著:部分研究提出动态调整方法,例如分阶段逐步升高温度(如针对 4B 模型从 1.40 → 1.45 → 1.50,针对 7B 模型从 0.7 → 1.0 → 1.1),以在训练过程中逐步扩大轨迹多样性 [An 等,2025];或使用调度器动态调整温度,以维持稳定的熵水平 [Liao 等,2025b]。更规范化的做法建议将训练温度调校至缩放后熵值稳定在目标值 0.3 左右,该值被发现能实现最优平衡 [Liu 等,2025v;Wu 等,2025e]。其他研究则简单主张使用较高且固定的温度(如 1.0 或 1.2)以鼓励初期探索,但也指出仅靠此不足以防止长期熵下降 [Arora 和 Zanette,2025;Liu 等,2025j;Shrivastava 等,2025]。
长度预算与序列管理。几乎所有研究都需应对生成响应长度的管理问题,以在性能与成本间取得平衡。最普遍的策略是“分阶段上下文延长”[Luo 等,2025c]。具体做法是:RL 训练初期使用较短上下文窗口(如 8k),随后逐步扩展至 16k、24k 或 32k [Chen 等,2025q;Liu 等,2025j,v;Luo 等,2025c]。初期短上下文阶段被认为是关键,因为它迫使模型学习更简洁、token 效率更高的推理模式 [Chen 等,2025q;Liu 等,2025v;Luo 等,2025c]。另一种替代方案是在推理时应用长度外推技术(如 Yarn),使在较短序列上训练的模型能泛化至更长序列 [An 等,2025]。对于超出长度预算的响应,目前尚无共识:部分研究在响应接近最大长度时施加软性线性惩罚 [Yu 等,2025d],或在奖励函数中直接引入可调惩罚系数(𝛼)[Arora 和 Zanette,2025]。更精细的、分阶段依赖的策略是:在长度预算较短时(8k–16k)过滤(屏蔽损失)超长样本,而在预算较大时(32k)则施加惩罚——因为在极长上下文下,过滤可能产生负面影响 [Liu 等,2025v;Wu 等,2025e]。
纵观这些研究,有效的超参数调整体现为对探索(温度、熵目标、裁剪)、效率(分阶段长度课程)和序列管理(超长样本过滤、惩罚或推理时外推)的联合调优。这些方法可直接应用于大多数面向 LLM 的 GRPO/PPO 风格强化学习流水线。
在回顾了面向大语言模型(LLM)的强化学习(RL)流水线的关键组件之后,我们现在转向该领域中若干仍处于核心地位且常常悬而未决的基础性问题。在本节中,我们将阐明这些核心问题,呈现相互对立的观点,并总结每个开放性问题的近期进展。具体而言,我们将讨论以下挑战:
通过突出这些开放性问题,我们旨在厘清当前研究格局,并激励学界进一步探索面向大推理模型(LRMs)的强化学习之基础理论根基。
4.1 强化学习的作用:锐化还是发现
我们首先总结当前关于强化学习(RL)作用的两种主流观点:“锐化”(Sharpening)与“发现”(Discovery)。这两种观点看似直接对立。“锐化”观点认为,RL 并不会创造真正新颖的模式,而是对基础模型中已存在的正确响应进行提炼和重新加权。相反,“发现”观点主张,RL 能够发掘基础模型在预训练阶段未曾习得、且通过重复采样也无法生成的全新模式。
“锐化”与“发现”观点之间的分歧可通过多种理论视角加以理解。首先,从 KL 散度优化的角度看,监督微调(SFT)通常优化前向 KL 散度 𝐷𝐾𝐿 ( 𝑝𝑑𝑎𝑡𝑎 || 𝑝𝑚𝑜𝑑𝑒𝑙 ),表现出“模式覆盖”(mode-covering)行为:模型试图覆盖数据分布中的所有模式。而强化学习方法优化的是反向 KL 散度 𝐷𝐾𝐿 ( 𝑝𝑚𝑜𝑑𝑒𝑙 || 𝑝𝑟𝑒𝑤𝑎𝑟𝑑 ),表现出“模式寻求”(mode-seeking)行为:将概率质量集中于高奖励区域 [Ji 等,2024;Sun,2024]。近期的理论进展进一步丰富了这一理解。Xiao 等人 [2025b] 证明,RLHF 可被视为在偏好数据上进行的隐式模仿学习,从而在基于 RL 的对齐与行为克隆之间建立了深层联系。类似地,Sun [2024] 将 SFT 本身视为一种逆强化学习形式,揭示出即使是监督方法也隐含着奖励建模过程。这些观点表明,“锐化 vs. 发现”的争论可能是在探讨统一学习过程的不同方面:RL 的模式寻求特性提供了一种“锐化”机制,而其隐式奖励学习与组合能力则可能通过延长训练实现“发现”。
“锐化”与“发现”之间的表面二分法,或许可通过近期揭示不同对齐范式深层联系的理论进展加以调和。Xiao 等人 [2025b] 的研究表明,RLHF 隐式执行模仿学习;而 Sun [2024] 证明 SFT 可理解为逆强化学习。这些洞见表明,监督方法与 RL 方法均运行于分布匹配与奖励优化的共享理论框架内。关键区别不在于这些方法能否发现新能力,而在于它们如何权衡探索与利用 [Schmied 等,2025]。RL 中反向 KL 的模式寻求特性提供了一种高效收敛至高性能区域的机制(锐化),而其隐式奖励学习与序列决策特性则在给予足够训练时间和适当正则化时,使现有能力组合成新行为(发现)[Liu 等,2025j;Yuan 等,2025c]。这一统一视角表明,争论应从“锐化还是发现”转向理解在何种条件下每种现象占主导地位。
4.2 强化学习 vs. 监督微调:泛化还是记忆
在本小节中,我们讨论强化学习(RL)与监督微调(SFT)的作用,聚焦于泛化与记忆之间的相互作用。当前对大语言模型(LLM)进行后训练主要有两种方法:SFT 和 RL。当前争论集中在两个核心问题上:1)哪种方法更能实现分布外(OOD)泛化?2)通过 SFT 进行的行为克隆是否设定了泛化能力的上限?近期,大量研究聚焦于此议题。尤其值得注意的是,Chu 等人 [2025a] 在文本与视觉环境中均得出直接结论,即“SFT 记忆,RL 泛化”。
近期两项研究进一步强化了这一对比。Huan 等人 [2025] 发现,在数学任务上进行强化学习(RL-on-math)往往能保持甚至提升在非数学任务和指令遵循上的表现,而对数学任务进行监督微调(SFT-on-math)则常导致负迁移和灾难性遗忘。他们基于潜在空间 PCA 和 token 分布(KL 散度)的诊断分析,以及 Mukherjee 等人 [2025] 的研究均表明,SFT 会导致表征和输出漂移(即记忆),而 RL 更好地保留了基础领域结构(即泛化)。与此互补,Zhou 等人 [2025d] 解剖了五种数学解题训练路径,观察到:1)在数学文本上持续预训练仅带来有限迁移;2)传统的短思维链(short-CoT)SFT 常损害泛化能力;但 3)长思维链 SFT 与基于规则的 RL(结合格式/正确性奖励)能拓展推理深度与自我反思能力,从而提升更广泛的推理能力;此外,在 RL 之前进行 SFT 预热可稳定策略,并进一步增强跨领域迁移。这些结果表明,在线策略目标与更长、更具反思性的轨迹能促进在分布偏移下仍保持鲁棒的可迁移模式,而短思维链 SFT 则倾向于对表面模式过拟合——这正映射了 RL 与 SFT 在泛化与记忆之间的经典分野。
当前该议题主要有三个研究方向:
然而,若干挑战仍未解决。一大核心问题是如何区分真正的问题解决能力与单纯的答案记忆,同时避免数据污染 [Satvaty 等,2024]。目前仍缺乏标准化、可复现的分布外基准。此外,RL 训练对初始数据分布高度敏感;当 SFT 导致显著表征漂移时,RL 恢复和泛化的能力将受限 [Jin 等,2025d]。为应对这些挑战,需推广如 UFT [Liu 等,2025k]、SRFT [Fu 等,2025c] 和 Interleaved [Ma 等,2025a] 等框架,它们机制化地整合 SFT(用于引入新知识)与 RL(用于能力放大与鲁棒性)。Lv 等人 [2025] 也探索了自动化调度策略,以确定何时在 SFT 与 RL 之间切换以及如何有效分配二者比例。
总之,RL 在可验证任务和显著分布偏移下倾向于实现“真正的泛化”,但它并非万能解药。改进后的 SFT 有助于弥补泛化能力的剩余缺口。因此,最佳实践正逐步收敛于统一或交替的混合范式,以结合两种方法的优势 [Chen 等,2025c,h;Liu 等,2025k;Lv 等,2025;Wu 等,2025i;Zhu 等,2025e]。
4.3 模型先验:弱先验与强先验
近期研究表明,当与足够强大的模型先验和可验证的奖励信号相结合时,强化学习(RL)现已能在广泛任务中表现优异,从而将主要瓶颈从“规模”转向“环境设计与评估协议”⁴。从这一视角看,RL 的主要作用是重新锐化预训练阶段已编码的潜在能力,而非从零开始生成全新能力。
在本小节中,我们从三个关键维度考察这种依赖性:将 RL 应用于基础模型与指令微调模型的相对优势;不同模型家族(特别是 Qwen 与 Llama 架构)在 RL 响应性上的显著差异;以及针对弱先验与强先验模型提升 RL 效果的新兴策略,包括中期训练(mid-training)与课程设计。
基础模型 vs. 指令微调模型。DeepSeek-R1 首次探讨了将 RL 应用于基础模型或指令微调模型的问题,并提出了两种可行的后训练范式:1)R1-Zero,直接对基础模型应用大规模基于规则的 RL,从而涌现出长视野推理能力;2)R1,在 RL 之前引入短暂的冷启动 SFT 阶段,以稳定输出格式与可读性。独立地,Open-Reasoner-Zero [Hu 等,2025b] 证明,对基础 Qwen 模型采用极简训练方案,足以同时扩展响应长度与基准测试准确率,其训练动态与 R1-Zero 相似。这些发现表明,基础模型的先验更适合 RL,通常比从高度对齐的指令模型出发时获得更平滑的性能提升轨迹——因为后者根深蒂固的格式与服从先验可能干扰奖励塑形。
模型家族差异。更近期的研究强调,基础模型的选择会关键性地塑造 RL 结果。例如,One-shot RLVR [Wang 等,2025r] 显示,仅引入一个精心挑选的数学示例,即可使 Qwen2.5-Math-1.5B 在 MATH500 上的准确率提升一倍以上,并在多个基准上实现显著平均提升。然而,《虚假奖励》[Shao 等,2025] 揭示了相反的模式:Qwen 系列模型即使在随机或虚假奖励信号下也能获得显著增益,而 Llama 与 OLMo 模型则往往无此表现。这一差异凸显了模型先验的影响,并强调需在具有不同先验的模型上验证 RL 主张。观察到的不对称性表明,不同模型在预训练阶段对推理模式(如数学或代码思维链)的接触程度存在差异。Qwen 模型因广泛接触此类分布,往往更“RL 友好”;而同等规模的 Llama 模型在相同 RLVR 流程下常表现出脆弱性。
中期训练解决方案。实践中,研究人员发现可通过中期训练或退火训练策略弥合这一性能差距。在近期 LLM 研究中,“退火”指预训练后期阶段,此时学习率衰减,同时数据分布被重新加权,以强调小规模、高质量来源(如代码、数学和精选问答语料)。Llama 3 [Grattafiori 等,2024] 明确将此阶段命名为“退火数据”,描述了数据混合的变化及学习率线性衰减至零的过程。他们进一步报告,在此阶段注入少量高质量数学与代码数据,可显著提升面向推理的基准表现。更早前,MiniCPM [Hu 等,2024b] 提出了类似的两阶段课程,称为“稳定后衰减”。在衰减(退火)阶段,他们将 SFT 式高质量知识与技能数据与标准预训练语料交错混合,观察到的提升幅度大于仅在预训练后应用相同 SFT。类似地,OLMo 2 [OLMo 等,2024] 公开了现代中期训练方案:预训练分为长期、以网络数据为主的阶段,随后是较短的中期训练阶段,该阶段对高质量和领域特定来源(尤其是数学)进行上采样,同时线性将学习率衰减至零。更广泛地,当代中期训练策略将学习率调度与数据分布切换的联合设计视为首要关注点。例如,Parmar 等人 [2024] 表明,最优的持续预训练需要:1)两阶段分布课程,在后期阶段强调目标能力;2)退火式、非再升温的学习率调度,其中分布切换时机由学习率比例而非固定 token 数决定。近期一项系统性研究扩展了这一工作,证明采用“稳定后衰减”的中期训练课程(注入高质量数学与思维链问答语料),可使 Llama 模型在基于 RL 的微调下显著提升可扩展性,有效缩小与 Qwen 模型的性能差距 [Wang 等,2025u]。
综合来看,这些发现为弱先验模型家族提供了一个实用方案:通过中期训练强化推理先验,随后应用 RLVR。
强模型的改进。尽管许多复现研究倾向于基础模型,但越来越多证据表明,当课程、验证与长度控制被精心设计时,RL 仍可进一步提升强蒸馏/指令模型。例如,AceReason-Nemotron [Chen 等,2025q] 报告称,在蒸馏后的 Qwen 模型上采用“先数学后纯代码”的 RL 策略,可实现持续增益,分析显示其在 Pass@1 与 Pass@K 指标上均有提升。这些发现细化了“仅基础模型”的简化叙事:在适当约束下,指令/蒸馏起点模型也能受益,但优化过程更不容出错。另一条并行研究路线评估了推理模型的可控性。MathIF [Fu 等,2025a] 强调了一个系统性矛盾:扩展推理能力常会削弱指令遵循表现,尤其在长篇输出场景下。补充证据表明,显式思维链提示会降低指令遵循准确性,并提出了选择性推理缓解方案 [Li 等,2025l]。这些工作共同推动在 RL 中将多目标训练(格式、简洁性、服从性)与正确性/可验证性相结合。
我们可以从三个视角总结模型先验如何根本性地塑造 LLM 训练中的 RL 结果:1)基础模型作为 RL 起点始终优于指令微调模型,DeepSeek-R1 与 Open-Reasoner-Zero 均通过极简方案展示了涌现推理能力;2)不同模型家族表现出不对称的 RL 响应性:Qwen 模型即使在虚假奖励下也能获益,而 Llama/OLMo 模型则需通过退火学习率与高质量数学/代码数据注入进行精细中期训练;3)强蒸馏模型也能从 RL 中受益,但需要更复杂的课程设计与多目标优化。
随着 RL 越来越多地用于重新锐化潜在的预训练能力而非创造全新能力,研究焦点正转向整体优化“预训练→RL”流水线,而非将这些阶段独立对待。
4.4 训练方案:技巧还是陷阱
大规模模型的强化学习训练主要从 PPO 系列算法 [Schulman 等,2017b] 演化而来,通过多种工程技术维持训练稳定性 [Huang 等,2022],例如裁剪、基线校正、归一化和 KL 正则化。在面向 LLM 推理的强化学习背景下,DeepSeek-Math 与 DeepSeek-R1 引入了无评论家的 GRPO 算法 [Shao 等,2024],通过降低复杂度简化了训练流程。尽管取得这些进展,训练稳定性与效率方面的挑战依然存在,推动了一系列新方法的发展,包括动态采样、多种重要性采样比率和多层次归一化。
一种被广泛采用以增强探索的技术是“解耦 PPO 裁剪”(“Clip-Higher”),即上裁剪边界设置得高于下边界(例如 𝜖low = 0.2, 𝜖high = 0.28),以允许低概率但潜在有用的 token 概率更自由地上升 [An 等,2025;Liu 等,2025j;Yu 等,2025d]。Archer [Wang 等,2025i] 提出了针对不同熵水平 token 的双裁剪机制,而 Archer2.0 [Wang 等,2025h] 进一步对具有相反优势值的 token 采用非对称双裁剪。
Liu 等人 [2025w] 最近发表了一篇综述,采用统一评估框架,将常用技术整合进单一开源框架 [Wang 等,2025n],以支持隔离式、可复现的实验。该工作提供了一份路线图,阐明“哪些技术在何种设置下有效”,并证明极简方法组合可在多种配置下超越 GRPO 与 DAPO。更重要的是,它突出了当前领域最紧迫的挑战:实验设置不一致、报告不完整、结论相互冲突。这构成了当前研究社区应用 RL 的根本性局限。总而言之,尽管实用“技巧”对稳定 RL 训练至关重要,但“科学化训练”的本质在于可验证性与可扩展性。领域进步需要统一的实验协议、可验证的奖励结构,以及明确的可扩展性–性能–成本曲线 [Nimmaturi 等,2025],以证明某方法在扩展时仍保持有效,而非仅在特定数据或模型上有效。
4.5 奖励类型:过程奖励 vs. 结果奖励
在标准强化学习中,策略的目标是最大化期望累积奖励 [Sutton 等,1998]。“奖励即足够”(Reward is Enough)假说 [Bowling 等,2023;Silver 等,2021] 进一步提出,只要奖励设计得当,最大化回报原则上足以催生智能的所有方面。在面向大语言模型(LLM)的强化学习背景下,核心挑战在于如何提供有意义的奖励——例如训练奖励模型或验证器对输出进行评分,并将这些评分用于强化学习或搜索。常见方法包括:
总体而言,结果奖励提供“通过自动化验证实现可扩展的目标对齐”,而过程奖励则提供“可解释的稠密引导”。将二者结合——例如通过隐式过程建模 [Cui 等,2025a] 或生成式验证器 [Zhang 等,2024a]——可能代表奖励设计领域一个有前景的未来方向。
原文链接:https://arxiv.org/pdf/2509.08827