DeepSeek AI,大语言模型领域的一家重要机构,最近发表了一篇研究论文,详细介绍了一项旨在增强通用奖励模型在推理阶段可扩展性的新技术。同时,该机构暗示其下一代模型R2即将到来。
这篇题为“Inference-Time Scaling for Generalist Reward Modeling”的论文介绍了一种新颖方法,允许通用奖励模型通过动态生成原则和评判来优化奖励生成。这是通过拒绝微调和基于规则的在线强化学习实现的。
这一进展正值大语言模型扩展范式从预训练阶段转向后训练(特别是推理阶段)之际。这种范式转变利用增强的强化学习(训练期间的计算投入)和更长的“思考时间”(测试期间的计算投入)来持续提升模型性能。
大语言模型基础的“下一个词元预测”机制虽然提供了海量知识,但往往缺乏深度规划和预测长期结果的能力,使其容易做出短视决策。强化学习作为一个关键补充,为大语言模型提供了“内部世界模型”。这使得它们能够模拟不同推理路径的可能结果,评估这些路径的质量,并选择更优的解决方案,最终实现更系统的长期规划。
某机构助理教授在一次播客中将大语言模型与强化学习的关系比作“乘法关系”。虽然强化学习擅长决策,但它本身缺乏理解。理解的构建依赖于预训练模型,在此基础上强化学习可以进一步优化决策能力。
一篇综述论文概述了使用强化学习训练大语言模型的典型三步流程:
DeepSeek的SPCT:应对大语言模型强化学习扩展挑战
尽管强化学习在后训练中作为增强大语言模型性能的突破取得了成功,但强化学习算法本身仍有很大的改进空间,强化学习的“扩展律”仍处于起步阶段。
强化学习扩展的一个主要障碍是奖励稀疏性。奖励模型是一个关键组件,生成准确的奖励信号至关重要。实现奖励模型的泛化性和连续性是一个关键焦点。
DeepSeek和某机构的研究人员通过探索推理时奖励模型的可扩展性和泛化性来应对这一挑战。他们提出的自原则评判调优方法旨在提高推理过程中通用奖励建模的可扩展性。
SPCT方法涉及两个关键阶段:
为了实现有效的推理时扩展,研究人员采用了并行采样以最大化计算利用率。通过多次采样,DeepSeek-GRM可以生成不同的原则和评判集,并通过投票选择最终奖励。此外,还训练了一个元奖励模型来指导投票过程,进一步增强扩展性能。元奖励模型是一个点对点标量奖励模型,旨在识别DeepSeek-GRM生成的原则和评判的正确性。
实验结果表明,SPCT显著提高了通用奖励模型的质量和可扩展性,在多个综合奖励模型基准测试上,在没有显著领域偏差的情况下优于现有方法和模型。
未来展望:DeepSeek R2即将到来
虽然研究论文侧重于奖励建模和推理时扩展的进展,但对DeepSeek R1系列以及隐含的进展表明,该机构正在积极开发其下一代模型R2。鉴于DeepSeek强调使用纯强化学习来增强推理能力,人们高度期待R2将融入并建立在此次关于可扩展奖励模型的最新研究之上。
该论文已在arXiv上发布。FINISHED
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。