首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏CreateAMind

    训练样本在大型语言模型中进行推理的强化学习

    这些发现有望启发未来关于RLVR数据效率的研究,并促使人们重新审视近期在RLVR方面的进展及其内在机制。 我们将这种设置称为“单样本RLVR”(1-shot RLVR)。 ),而 16 样本 RLVR 的表现已非常接近全集 RLVR。 有趣的是,如图 13 所示,我们观察到单样本 RLVR 比全集 RLVR 更稳定。 C.1.5 训练过程中各基准的详细 RLVR 结果 为了更好地可视化 RLVR 的训练过程,并比较少样本 RLVR 与全集 RLVR 的差异,我们在图 8、9、10 和 11 中展示了每个模型在各个基准上的性能曲线

    7810编辑于 2026-03-11
  • 来自专栏新智元

    强化学习被高估!清华上交:RL不能提升推理能力,新知识得靠蒸馏

    RLVR被认为能激发模型进行自主推理,比如枚举、反思和优化,这些能力恰恰是基础模型所欠缺的。 因此,RLVR被视为是打造自我进化大模型的路径,可持续提升模型推理能力,甚至接近AGI。 然而,尽管RLVR在经验上取得了成功,但在追求不断自我进化的推理能力过程中,一个关键问题仍然存在:RLVR真的带来了全新的推理能力吗?如果有,模型到底从RLVR训练中学到了什么? RLVR训练提升了采样效率,但同时降低了模型的探索能力,导致在大k值下可解决问题的覆盖范围变小(见图1右)。这挑战了RLVR 能激发推理能力的普遍看法。 相反,RLVR训练模型的推理能力边界可能受限于基础模型的能力。RLVR对LLM推理能力的影响如图1左所示。 3. RLVR提升了采样效率:尽管RL模型的推理路径存在于基础模型中,但RL训练提升了pass@1的表现。 RLVR缩小了推理边界:RLVR的效率提升以覆盖范围为代价,pass@k在k较大时低于基础模型。

    55010编辑于 2025-04-27
  • 腾讯混元新研究:瞄准强化学习“工程深水区”

    在这篇文章里,混元团队将对大模型强化学习中的“工程深水区”展开探索,希望通过一系列提升RLVR(可验证奖励的强化学习)训练细粒度可观测性的基础设施工具,降低RLVR底层物理和统计机理研究的“工程壁垒”。 然而,尽管算法层面的探索百花齐放,RLVR 的落地却面临着极高的工程门槛。相比预训练阶段相对成熟的工程链路,大规模 RLVR 训练为了追求极致的效率,引入了大量近似计算。 因此,腾讯混元这项工作的核心意图并非单纯输出一个算法,而是致力于提供一套可观测的基础设施工具,希望通过大幅降低对 RLVR 训练动态的观测与分析门槛,助力开发者突破工程黑盒,对 RLVR 的训练动态进行更系统的理解与分析 GradLoc 的引入,相当于为 RLVR 训练系统配备了一台精密诊断设备。 这标志着 RLVR 的模型调优正在告别“玄学”,回归严谨的“科学”范畴。

    11710编辑于 2026-03-02
  • 每周AI论文速递(250428-250502)

    RLVR应用于基础模型Qwen2.5-Math-1.5B后,单个训练样本可使模型在MATH500上的准确率从36.0%提升至73.6%,同时在六个数学推理基准测试集上的平均性能从17.6%提升至35.7% 实验还揭示了1-shot RLVR的若干特性:跨领域泛化能力、自反思频率提升,以及训练准确率饱和后测试性能仍持续增强的"后饱和泛化(post-saturation generalization)"现象。 通过分析策略梯度损失的主导作用,我们将1-shot RLVR与"grokking"现象进行了区分。研究还表明,在1-shot RLVR训练中,促进探索(如添加合适系数的熵损失)具有关键作用。 这些发现为RLVR的数据效率研究提供了新思路,并有助于深入理解RLVR的最新进展及其机制。 代码、模型和数据已开源:https://github.com/ypwang61/One-Shot-RLVR The Leaderboard Illusion 排行榜幻觉 科学领域的进步离不开对发展进程的量化评估

    32310编辑于 2025-05-05
  • 来自专栏新智元

    73页,开源「后训练」全流程!AI2发布高质量Tülu 3系列模型,拉平闭源差距,比肩GPT-4o mini

    第四阶段:可验证奖励的强化学习 研究人员引入了一种名为可验证奖励强化学习(RLVR)的新型方法,用于训练语言模型完成具有可验证结果的任务,比如数学问题解决和指令遵循。 RLVR基于现有的强化学习人类反馈(RLHF)目标,但将奖励模型替换为验证函数,当应用于具有可验证答案的领域,其在GSM8K等基准测试上显示出针对性的改进,同时还能保持其他任务的性能。 RLVR可以看作是现有引导语言模型推理的方法的简化形式,或者是一种更简单的强化学习形式,其中使用答案匹配或约束验证作为二元信号来训练模型。 RLVR数据主要包括两个领域(数学、精确指令遵循),评估数据集为GSM8k, MATH和IFEval 为了提升效率,RLVR的实现细节主要包括: 1. 用通用奖励模型来初始化价值模型; 2. 分别在GSM8K、MATH和IFEval任务上应用了RLVR方法,并遍历了一系列beta值。在评估时,关注可验证的奖励、KL散度和回应长度。 2. 价值模型初始化消融实验。

    23400编辑于 2025-02-15
  • 每周AI论文速递(250721-250725)

    为提高 RLVR 过程的鲁棒性和效率,我们提出上下文感知多阶段策略优化算法,该算法融合长度渐进式训练与自适应重复惩罚机制,实现上下文感知的强化学习训练。 , RLVR) 是增强AI能力的一种有前景方法,尤其在解决复杂逻辑任务方面表现突出。 然而,RLVR究竟能否真正扩展模型的推理边界,还是仅通过放大基础模型已知的高奖励输出来提高精度,这一问题尚未明确。本研究通过理论和实证分析,揭示了RLVR的潜在局限性。 首先,我们提出新的理论观点:RLVR受限于基础模型的支持集——无法对初始概率为零的解决方案进行采样——其本质是一种保守的重加权机制,可能阻碍完全原创解决方案的发现。 我们还发现了熵与奖励之间的权衡关系:虽然RLVR能稳定提升精度,但会逐渐缩小探索范围,可能遗漏正确但低概率的解决方案。

    40010编辑于 2025-07-27
  • 来自专栏亨利笔记

    AI思想家卡帕西25年度洞察:驱动大模型从“统计”迈向“推理”的六大范式革命

    一、RLVR:为AI装上“思维引擎”的训练新范式 传统的大型语言模型训练,如同建造一座大厦,经历了预训练(打下地基)、监督微调(搭建主体结构)和基于人类反馈的强化学习(进行精装修)三个阶段。 而2025年,被称为“可验证奖励的强化学习”(RLVR,Reinforcement Learning from Verifiable Rewards)的全新技术,为这座大厦安装了自主进化的“神经系统”。 RLVR的核心创新在于,它将模型置于一个拥有客观、可自动验证奖励的环境中进行训练——例如求解数学难题或编写可通过测试的代码。 更有趣的是,RLVR 引入了一个全新的性能调节维度:思考时间。通过让模型在测试时生成更长的推理轨迹,就像给予人类更多的思考时间一样,其解决问题的能力能得到显著提升。 这种特性使得卡帕西对基准测试持有怀疑的态度,因为基准本身是个可验证的环境,极易成为 RLVR 优化的目标。AI实验室可以像“长出锯齿”一样,专门为覆盖某些测试而训练模型。

    22010编辑于 2026-01-07
  • CodeGen生态01 | LLM层:技术现状&发展方向

    下图来自网络 三、RLVR:编程AI 后训练的突破方向RLVR是目前提升LLM编程能力最实用且可扩展的技术路径,但需要结合蒸馏、多轮交互等补充技术来突破能力边界限制,实现真正的推理能力进化。 行业趋势显示,原本用于预训练的算力正在向RLVR阶段倾斜。【火爆】显著提升单次尝试成功率(Pass@1)。 【好处】RLVR 以 “客观可验证奖励”(如单元测试、编译器反馈、代码通过率)驱动训练,完美匹配编程任务的强结构化与可验证特性。 【原理】在编程领域,RLVR通过"代码生成-编译测试-奖励反馈"的闭环训练,让模型学会编写可执行且正确的代码。 的困境在单元测试覆盖充分、代码正确性为核心目标的场景中,RLVR 的潜力几乎无可替代;而在开放性、主观质量导向的场景中,需依赖其他方法互补。

    32720编辑于 2026-01-04
  • 来自专栏机器之心

    AAAI 2026 Oral|InfiGUI-G1模型来了,刷新GUI Grounding SOTA

    现有的方法,特别是基于验证奖励的强化学习(RLVR),虽然在提升 “指得准”(空间对齐)方面表现出色,却往往在 “指得对”(语义对齐)上遭遇瓶颈。 该模型通过多答案生成与自适应奖励机制,彻底打破了传统 RLVR 的探索瓶颈。 现有的 RLVR 方法(如 Naive RLVR)虽然能通过优化坐标生成来提升定位精度,但在面对语义模糊或复杂的指令时却显得力不从心。 实验发现,InfiGUI-G1 在 “困难” 样本(即基座模型几乎无法答对的样本)上的提升最为巨大,相对 Naive RLVR 基线提升了超过 60%。

    13210编辑于 2026-01-12
  • 每周AI论文速递(2506202-250606)

    本研究首次从Token熵分布模式的新视角对RLVR进行探索性分析,系统性地揭示了不同Token对推理性能的影响机制。 进一步研究RLVR训练过程中熵值分布的演化规律表明,RLVR主要保留了基础模型的熵分布特征,其优化重点集中于高熵Token的熵值调节。 这一发现凸显了高熵Token(即决策Token)在RLVR中的核心作用。 这些结果表明RLVR的有效性主要源于对决定推理方向的高熵Token的优化。 总体而言,我们的研究揭示了通过Token熵分布视角理解RLVR工作机制的可能性,并证明了利用高熵少数Token优化RLVR以进一步提升大语言模型推理性能的技术潜力。

    47910编辑于 2025-06-09
  • Agent与Workflow的技术落地实践与思考

    RLVR(强化学习与可验证奖励)的创新在于当任务有明确的对错标准时,直接用程序化验证器来判断。 ,RLVR不是万能的。 因此,实际应用RLVR需要:从细分领域入手:不要一开始就想用RLVR优化整个系统。找到可验证的子任务,先在这些子任务上应用。评估性能指标转化:仔细评估业务指标中哪些可以转化为可验证奖励。 但是实际上要实现这四个RLVR目标难度挺大的,还需要投入算力资源和算法资源,RLVR后训练难度也高于一般的sft,容易出现训练崩溃的问题。 而强化学习的快速演进趋势(RLVR和多回合环境RL)为进一步提升系统能力提供了扩展技术思路,但它们对工程基础设施的要求更高。

    7.4K11编辑于 2025-10-17
  • 「家里有数」的组织, AI 落地新三步走策略来了

    老规矩先说结论: 之前我们讲,对广大家里「有数」的组织来说要分 RAG、Agent、FT 三步走引入 AI 落地,以下是更新过的建议行动方案(新三步走): 以文献为中心的数据治理(广义的 RAG 和 RLVR 开源大模型效果一直比前沿闭源大模型落后 9~12 个月(source: https://menlovc.com/perspective/2025-mid-year-llm-market-update/),我们只能 SFT + RLVR 插播个 RLVR 我们这里把 RLVR 放到了 数据治理部分没有单列成一个章节,不是因为 RLVR 不重要,而是应该把它视为数据治理整个流程中的一个环节,一个机器验证的环节,理数据的时候顺便做了就好,怎么做 去看 Prime Intellect(https://www.primeintellect.ai/) 数据治理即环境 数据治理即 RLVR 大模型

    21010编辑于 2025-10-11
  • 来自专栏机器之心

    非Transformer架构的新突破,液态神经网络的推理小模型只用900M内存

    RLVR 阶段,进一步在训练早期引入了基于 n-gram 的重复惩罚,以抑制循环生成行为。 通过这些策略,模型在保持推理能力的同时,显著降低了陷入无效循环的风险。 这一方法在一个具有代表性提示词的数据集上,将死循环生成的比例从 15.74%(中期训练阶段) 显著降低到了 0.36%(RLVR 阶段),效果非常直接且稳定。 Liquid AI 采用了一种高度并行的 Curriculum RL 训练框架,先以指令跟随的 RLVR 作为基础起点,再分叉出面向推理、数学、工具使用等不同领域的专项 checkpoint。 实践表明,模型合并在保留整体性能的同时,能够有效吸收专项能力提升,是一条可行且可扩展的通用 RLVR 训练路径。 此外,Liquid AI 正在全力拓展 LFM 系列模型的生态系统和合作伙伴。

    39910编辑于 2026-01-28
  • 每周AI论文速递(260202-260206)

    with Verifiable Rewards, RLVR) 已成为解锁大语言模型复杂推理能力的关键基石。 这种方法使我们能够利用那些富含推理但通常被排除在传统 RLVR 数据构建之外的不可验证语料库 (例如科学教科书),进而合成了 GooseReason-0.7M——一个包含超过 70 万个任务的大规模 RLVR 这充分证明了通过利用互联网上丰富、富含推理但不可验证的文本资源,能够有效实现 RLVR 数据的自动化规模扩展。 在 RLVR 训练过程中,响应长度的增加常被视为推动推理能力提升的关键因素。然而,不同 RLVR 算法在训练期间,其响应长度的变化模式存在显著差异。 为从根本上解释这些差异,本文对主流 RLVR 算法的构成要素进行了深入剖析。我们理论分析了影响响应长度的因素,并通过大量实验验证了该理论。

    12910编辑于 2026-03-02
  • 每周AI论文速递(250929-251003)

    这些结果指出,基线设计——而非 token 级启发式方法——是扩展 RLVR 的主要机制。 这一局限源于当前 RLVR 方法中固有的稀疏探索模式:模型依赖有限的模拟轨迹,往往遗漏关键推理路径,且无法系统覆盖解空间。 本文提出 DeepSearch 框架,它将蒙特卡洛树搜索直接集成到 RLVR 训练中。 这些结果证明,系统化的经验管理是实现高效可扩展 RLVR 的关键要素。 -利用权衡:一种用于 RLVR 中 LLM 推理的隐状态方法 在可验证奖励强化学习 (RLVR) 领域,主流观点通常从探索-利用权衡的角度解释近期进展,这一视角主要基于 Token 级指标形成。

    23610编辑于 2025-11-20
  • 来自专栏机器之心

    「Next-Token」范式改变!刚刚,强化学习预训练来了

    另一方面,可验证奖励的强化学习 (RLVR) 利用客观的、基于规则的奖励,这些奖励通常来自问答对。 虽然这可以缓解 reward hacking 攻击,但 RLVR 通常受限于数据的稀缺性,不能用于通用预训练。 在 RPT 基础上进行强化微调 如表 2 所示,经过强化预训练的模型在进一步使用 RLVR 进行训练时能够达到更高的性能上限。 随后的 RLVR 训练仅能带来缓慢的性能提升。这些结果表明,在数据有限的情况下,强化预训练能够快速将从下一个 token 推理中学到的强化推理模式迁移到下游任务中。

    31310编辑于 2025-06-12
  • 每周AI论文速递(250825-250829)

    Beyond Pass@1: Self-Play with Variational Problem Synthesis Sustains RLVR 超越 Pass@1:基于变分问题合成的自我对弈持续增强 RLVR 可验证奖励强化学习 (Reinforcement Learning with Verifiable Rewards, RLVR) 近年来已成为大语言模型 (LLM) 后训练的关键范式,尤其适用于复杂推理任务 然而,基础版 RLVR 训练虽能提升 Pass@1 性能,却会牺牲策略熵,导致生成多样性下降并限制 Pass@k 性能——后者通常代表 LLM 推理能力的理论上限。 基于此,我们提出一种在线自我对弈与变分问题合成 (Self-play with Variational problem Synthesis, SvS) 策略用于 RLVR 训练:利用策略生成的正确解合成变分问题 这种自进化策略在训练期间持续维持策略熵,相比标准 RLVR 显著提升 Pass@k 性能,在竞赛级 AIME24 和 AIME25 基准测试中分别实现 Pass@32 性能 18.3% 和 22.8%

    19810编辑于 2025-11-20
  • 来自专栏AI

    强化学习理论篇

    三、DeepSeek中强化学习的应用原理 下面阐述从 RLHF、PPO 到 GRPO 和 RLVR,DeepSeek 开发了 GRPO(组相对策略优化)来训练他们的推理模型。 1. GRPO + RLVR DeepSeek 开发了 GRPO(组相对策略优化)来训练他们的推理模型。它与 PPO 的主要区别在于: 移除了价值模型,取而代之的是多次调用奖励模型的统计数据。 移除了奖励模型,取而代之的是自定义奖励函数,RLVR 可以使用该函数。 GRPO 非常高效。以前 PPO 需要训练多个模型 —— 现在移除了奖励模型和价值模型,便可以节省内存并加快速度。 RLVR(可验证奖励的强化学习)允许我们根据易于验证解答的任务来奖励模型。例如: 数学等式可以轻松验证,如 2+2 = 4。 代码输出可以验证是否正确执行。

    83810编辑于 2025-06-25
  • 现阶段Agent落地效果不佳的五大问题

    long cot和parrallel inference,但是核心推动是RL后训练,sft是让模型学习特定能力来做到场景适配,偏向于特定模式学习缺少泛化性,而RL可以基于奖励函数(现在主要是可验证的强化学习RLVR 另外还和现阶段的后训练范式相关,近期我们看到的大部分agent后训练工作取得有效的成果都是基于RLVR,但是RLVR存在的一个局限点在于奖励需要能够被verify,在可自动化验证奖励的场景,比如数学、代码 、检索等领域,可以通过奖励信号学习到更可靠的长程推理能力,但很多现实任务缺少可验证奖励或验证器不可靠,因此 RLVR 的直接适用面受限,这会在一定程度上限制泛化。 而对于RLVR的可验证局限性,有研究提出rubrics奖励的方法[5],从严格二元奖励扩展到多维度奖励,扩展到更多场景。但有效应还没得到广泛验证,落地更需时间。

    4.8K20编辑于 2025-10-25
  • 强化大型语言模型复杂指令推理能力的新方法

    方法架构指令分解 基于类型和维度层次结构解析约束条件关系建立可扩展的复杂指令分类体系强化学习框架 设计可验证的规则中心奖励信号(RLVR)采用样本级对比学习优化CoT生成通过专家行为克隆实现渐进式模型迭代计算扩展

    21000编辑于 2025-08-06
领券