下一个范式：Meta Foundation Model

文章来源：企鹅号 - 智猩猩

作者：Flood Sung，XVI Robotics创始人& CEO

地址：

https://zhuanlan.zhihu.com/p/1999930203493901993

前言

几年前，在大模型起来之前，深度强化学习DRL 的下一个热点研究范式就是Meta RL。那么，现在，Meta RL要卷土重来，在Foundation Model上搞起来。

怎么样的Task Setting？

-> Sequential Tasks

ReasoningBank: Scaling Agent Self-Evolving with Reasoning Memory

https://arxiv.org/abs/2509.25140

ReasoningBank这篇文章已经探讨了这样的task setting。有个memory tool，然后让模型去做一系列的同类型任务，然后希望模型越到后面做的效果越好。

如果越好，就说明模型有meta learning/Learning to learn 的能力，可以从之前的task中总结经验。

如果在test阶段，我们让memory 一直存在下去，其实就是online learning的逻辑了。

我们在上一个blog提到的online learning 是单task内的learning能力，这里则拓展到多个task，或者无限制的task。

对于Foundation Model,

Memory Tool是关键

因为context的限制，无论是256k 还是1M，终究是不够的，那么模型在做task的过程中学到的经验应该放在哪里？

直接更新到参数吗？ MAML？目前还不太现实，除非batch size=1.

所以变成skill 存储在外部是更合理的做法。

也就是要训练模型掌握Memory Tool的使用，能够自己记录自己学到的经验，并且学以致用。

这块Anthropic的Memory tool就是朝着这个方向去走。

学会学习是最重要的能力，

是通往ASI的关键。

不管是直接在一个task内拥有学会学习能力，还是更进一步的跨task拥有学会学习的能力，这个二阶的梯度能够突破现有模型的认知，从而获得超越现在的能力。

其实人也是这样。这也是人接下来最重要的能力。知识反而越来越不重要了。

小结

模型在变，任务在变，RL的内核，Meta Learning的内核则永远不变。

相关快讯