
腾讯混元官网正式上线姚顺雨团队最新成果,发布了专门评测大语言模型能否从上下文(Context)中学习新知识并正确应用的基准CL-bench。
这是姚顺雨加入腾讯混元担任首席AI科学家后,其团队首次发布研究成果,也是腾讯混元技术博客首次公开。

在评估大模型能力时,一个常见假设是:只要给够上下文,模型就能正确完成任务。
但在真实系统中,这个假设经常失效。 模型“看过说明”“读过规则”,却依然输出错误结果。
腾讯混元最新公开的 CL-bench,并没有继续堆叠更难的推理题,而是直接针对这一问题做了一次系统性评测:模型是否真的具备从上下文中学习新知识并正确应用的能力。
大模型的失败模式并不陌生:
这些问题很难用“模型不够聪明”来解释。 更接近事实的说法是:模型并没有真正把上下文当成“可学习的信息源”。
CL-bench 正是围绕这个问题设计的。
CL-bench 的核心前提非常明确:
任务所需的全部信息,都在上下文中,且这些信息不在模型的预训练记忆里。
评测并不考察模型“知道多少”,而是考察它是否能够:
从目标上看,这是一种更接近真实工作场景的能力测试。
在 CL-bench 上,腾讯混元团队评测了 10 个主流大语言模型。

这意味着: 即使上下文中明确给出了完成任务所需的全部信息,模型在大多数情况下仍然失败。
从错误分布来看,失败的主要原因并不是信息缺失,而是:
这说明一个重要事实:模型默认更信任“参数化记忆”,而不是输入中的新信息。

评测结果显示:
提高推理强度对部分任务有帮助,但提升幅度有限,且不稳定。
这表明:上下文学习并不是“读得更久、想得更久”就能解决的问题。
在 CL-bench 的几类任务中,模型在“演绎型任务”(按明确规则执行)上的表现明显好于:
后者往往需要归纳能力,而这一能力在当前模型中表现最弱,部分任务成功率低于 10%。
CL-bench 采用了严格的无污染设计:
在不提供任何上下文的情况下,模型的成功率几乎为零。 这说明模型无法通过“记忆猜测”完成任务,必须依赖上下文学习。
同时,超过一半任务存在强序列依赖,进一步放大了学习失败的后果。
对做系统的人来说,CL-bench 的结论非常直接:
如果模型不能稳定地从上下文中学习,新一代智能系统在复杂场景下仍然会频繁失效。
腾讯混元团队在结语中提出一个判断:
大模型如何从上下文中保留、组织和巩固知识,可能会成为下一阶段的核心研究方向。
当模型的上下文学习能力变得可靠之后,人类在系统中的角色也会发生变化—— 从训练数据提供者,转变为上下文构建者与任务设计者。
在那之前,CL-bench 提供了一个非常清晰的现实提醒:
Context 并不等于知识, 给了上下文,也不代表模型学会了。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。