首页
学习
活动
专区
圈层
工具
发布

下一个范式:Meta Foundation Model

作者:Flood Sung,XVI Robotics创始人& CEO

地址:

https://zhuanlan.zhihu.com/p/1999930203493901993

01

前言

几年前,在大模型起来之前,深度强化学习DRL 的下一个热点研究范式就是Meta RL。那么,现在,Meta RL要卷土重来,在Foundation Model上搞起来。

02

怎么样的Task Setting?

-> Sequential Tasks

ReasoningBank: Scaling Agent Self-Evolving with Reasoning Memory

https://arxiv.org/abs/2509.25140

ReasoningBank这篇文章已经探讨了 这样的task setting。有个memory tool,然后让模型去做一系列的同类型任务,然后希望模型越到后面做的效果越好。

如果越好,就说明模型有meta learning/Learning to learn 的能力,可以从之前的task中总结经验。

如果在test阶段,我们让memory 一直存在下去,其实就是online learning的逻辑了。

我们在上一个blog提到的online learning 是单task内的learning能力,这里则拓展到多个task,或者无限制的task。

03

对于Foundation Model,

Memory Tool是关键

因为context的限制,无论是256k 还是1M,终究是不够的,那么模型在做task的过程中学到的经验应该放在哪里?

直接更新到参数吗? MAML? 目前还不太现实,除非batch size=1.

所以变成skill 存储在外部是更合理的做法。

也就是要训练模型掌握Memory Tool的使用,能够自己记录自己学到的经验,并且学以致用。

这块Anthropic的Memory tool就是朝着这个方向去走。

04

学会学习是最重要的能力,

是通往ASI的关键。

不管是直接在一个task内拥有学会学习能力,还是更进一步的跨task拥有学会学习的能力,这个二阶的梯度能够突破现有模型的认知,从而获得超越现在的能力。

其实人也是这样。这也是人接下来最重要的能力。知识反而越来越不重要了。

05

小结

模型在变,任务在变,RL的内核,Meta Learning的内核则永远不变。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OSd_M1aps6Pqo_5kaLPTzCTQ0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。
领券