摘要
近期大语言模型(LLMs)的发展表明,基于可验证奖励的强化学习(RLVR)能通过扩展输出序列增强推理能力。然而传统RL框架在处理超长输出时面临长尾序列分布和训练过程中的熵崩溃问题。为此,我们提出超长输出强化学习(UloRL)方法,具体包括:
实验证明该方法显著提升性能:
技术架构
开源计划
相关代码和模型将向社区开放。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。