开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

社区首页 >专栏 >超长输出强化学习提升大语言模型推理能力

超长输出强化学习提升大语言模型推理能力

原创

用户11764306

发布于 2025-08-05 17:44:44

发布于 2025-08-05 17:44:44

2610

举报

UloRL：一种提升大语言模型推理能力的超长输出强化学习方法

摘要

近期大语言模型（LLMs）的发展表明，基于可验证奖励的强化学习（RLVR）能通过扩展输出序列增强推理能力。然而传统RL框架在处理超长输出时面临长尾序列分布和训练过程中的熵崩溃问题。为此，我们提出超长输出强化学习（UloRL）方法，具体包括：

将超长输出解码划分为短片段，通过缓解长尾样本导致的延迟实现高效训练
引入动态掩码技术处理已掌握的正向标记（MPTs）以防止熵崩溃

实验证明该方法显著提升性能：

在Qwen3-30B-A3B模型上，分段训练使训练速度提升2.06倍
处理128k标记输出时，模型在AIME2025的准确率从70.9%提升至85.1%，BeyondAIME从50.7%提升至61.9%，甚至超越Qwen3-235B-A22B模型

技术架构

分段滚动机制：将长序列分解为可管理的子段进行局部优化
动态掩码模块：实时识别并屏蔽高置信度标记，维持策略多样性
混合奖励设计：结合片段级即时奖励和序列级最终奖励

开源计划

相关代码和模型将向社区开放。

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

#程序那些事

评论

登录后参与评论

0 条评论

热度

最新

目录

UloRL：一种提升大语言模型推理能力的超长输出强化学习方法