
今天,我们要深入探讨一篇来自字节Seed团队的最新研究——《Pass@k Training for Adaptively Balancing Exploration and Exploitation of Large Reasoning Models》。这篇论文不仅提出了一种创新的训练方法,更重要的是,它为我们揭示了一种可能改变游戏规则的训练哲学:“隐式奖励设计”。

如果你和我们一样,关注如何让AI模型在数学、编程和逻辑推理等复杂任务上变得更“聪明”,那么这篇论文绝对不容错过。它直面了当前强化学习训练中的一个核心痛(堵)点:模型在训练中为了追求“标准答案”而变得畏首畏尾,最终限制了自身潜力的发挥。
让我们一起揭开这篇研究的神秘面纱,看看它是如何通过一种巧妙的机制,教会AI“不怕犯错”,并最终在推理能力上实现惊人飞跃的。
近年来,通过强化学习与可验证奖励( RLVR)来提升大语言模型(LLM)的推理能力已成为主流。这个过程很像一位严格的老师在训练学生解题:

这种模式在实践中非常有效,诞生了像DeepSeek-R1这样的顶尖推理模型。然而,一个根本性的问题也随之浮现:探索(Exploration)与利用(Exploitation)的困境。
标准的RLVR训练通常采用 Pass@1 作为优化目标,也就是最大化“一次就答对”的概率。这相当于老师只认可那些次次都考100分的学生。在这种“高压”环境下,模型会迅速形成一种保守策略:
这种模式的后果是灾难性的。模型可能会满足于一个局部最优解,再也无法发现更简洁、更通用或更鲁棒的解法。它的潜力被自己对“犯错”的恐惧所封印。这篇论文的核心动机,就是要打破这个“只认满-分”的魔咒,让模型敢于探索,从而突破能力的上限。
为了解决上述困境,论文提出了一系列环环相扣、思想层层递进的贡献:
1. 引入Pass@k作为奖励信号:
这是论文的出发点。Pass@k是一个衡量 “在k次尝试内,至少有一次成功” 的指标。将它用作奖励,相当于老师的评分标准从 “你这次必须考100分”变成了“ 给你k次机会,只要有一次考100分,就算你通过”。这自然地为模型的探索行为提供了容错空间。
2. 提出三种渐进式实现方案:
为了将Pass@k奖励高效、稳定地应用于训练,作者设计了三种方法:
3. 升华至“隐式奖励设计”哲学:
这是论文思想的真正飞跃。作者发现,解析推导法的本质,其实是绕过了对“奖励”本身的定义,而是直接设计了最终指导模型学习的信号——优势函数(Advantage Function)。这开启了一扇新的大门:我们或许不再需要煞费苦心地设计复杂的奖励函数,而是可以直接塑造我们期望模型拥有的学习行为。

简单来说,这篇论文的思路是:从一个实际问题(模型不敢探索)出发,提出一个直观的解决方案(Pass@k奖励),在工程实现上不断优化,最终在理论层面提炼出一种全新的、更强大的训练范式。
为了让大家彻底理解这套方法的精妙之处,我们将沿用“老师与学生”的比喻,并结合论文图2中的具体案例进行剖析。

情境设定:
ŷ₁, ŷ₃, ŷ₄),5次答错。
ŷ₁, ŷ₃, ŷ₄(正确答案)因为得分高于平均分,会收到一个强烈的正向反馈(优势值  ≈ +1.2)。老师在说:“做得好!以后就这么写。” ≈ -0.7)。老师在说:“完全错误!以后不许这么写。”
Pass@k训练的核心是改变评分单位,从评判“个人”转向评判“小组”。我们以 k=4 为例。
实现一:全采样(Full Sampling)
ŷ₁, ŷ₂, ŷ₃, ŷ₄}ŷ₅, ŷ₆, ŷ₇, ŷ₈}ŷ₁, ŷ₃, ŷ₄),整个小组被评为“成功”,获得正奖励。组内所有成员,包括那个答错的ŷ₂,都收到了一个正向反馈(优势值 Â = +0.5)。Â = -0.5)。ŷ₂,因为和学霸们“沾了光”,没有受到惩罚反而得到了鼓励。这相当于老师在说:“虽然你这次错了,但你参与的这个小组讨论方向是好的,这种尝试值得肯定!” 这就是对探索的保护。实现二:自举采样(Bootstrap Sampling)
实现三:解析推导(Analytical Derivation)
这是本文最高明的部分。这位超级教师认为,既然随机分组会导致成绩不稳定,那我何必多此一举去分组呢?我可以直接从全局的数学期望出发,为每个学生计算出一个最公平、最稳定、最能反映其贡献的“指导分数”。
教学方法:完全跳过分组过程。
1️⃣ 清点全局信息:老师首先看清全局:班里有8份答卷,3份正确 (N_pos=3),5份错误 (N_neg=5)。我要评估的是大小为4 (k=4)的小组。
2️⃣ 进行理论计算:
3️⃣ 给出最终指导分数(优势值):
所有正确答案都会得到这个完全相同的正向指导分。
≈ -0.167。亮点:
这种方法,实际上就是我们前面提到的 “隐式奖励设计”。老师不再纠结于“这道题值几分”,而是直接设计了最终的、带有智能调节功能的“学习指导信号”。
1. Pass@k训练有效且稳定:


2. 探索能力的显著提升:

3. 最惊人的发现:1 + 1 > 2 的训练策略
P@k T. + P@1 T.)。

这强有力地证明了:Pass@k训练并非仅仅提升了模型的“瞎猜”能力,而是真正为其打开了一个更广阔的解空间,使其能够发现并学习到以往无法触及的更优策略。 随后的Pass@1训练,则是在这个更优的起点上进行精细打磨,从而达到了前所未有的高度。
这篇论文带给我们的,不仅仅是一种名为“Pass@k”的训练技巧,更是一种思想上的启迪。
未来的强化学习研究,或许可以沿着“隐式奖励设计”的道路继续探索。我们不必再将自己局限于设计复杂的奖励函数,而是可以把目光投向更本质的目标:我们希望模型在学习的不同阶段,展现出什么样的行为? 我们可以尝试直接设计能够引导这些行为的优势函数曲线,从而对模型的成长过程实现更精细、更智能的控制。
论文名称:Pass@k Training for Adaptively Balancing Exploration and Exploitation of Large Reasoning Models
第一作者:字节
论文链接:https://arxiv.org/abs/2508.10751
最新日期:2025年8月14日
github:https://github.com/RUCAIBox/Passk_Training.git