阿里开源新模型 RynnBrain：具身智能迎来“时空记忆”时代

Henry Zhang

发布于 2026-03-04 13:22:41

1910

题图摄于北京德胜门箭楼

由于微信公众号更改规则，请点击上面“亨利笔记”关注本号，再点击右上角”..."，选择“设为星标”，以免错过文章更新。

近日，阿里巴巴达摩院正式发布并开源了具身智能大脑基础模型 RynnBrain。一次性开源7个全系列模型，包括那个参数规模达到 30B 的 MoE（混合专家）架构版本。

这意味着什么？机器人第一次拥有了“长期记忆”和对物理世界的深度理解能力。（可看到与我们之前文章讲到的大模型记忆能力如出一辙，都是往记忆的方向使劲）

从“木头人”到“思考者”

我们不妨把传统机器人想象成一个只会背剧本的演员。

你给它写好了台词（预设程序），告诉它什么时候出场、什么时候退场。可一旦剧本外的意外发生，比如中途有人打断，或者道具位置变了，它就彻底卡壳，站在原地不知所措。

为什么会这样？因为它们缺乏两个核心能力：记住过去的能力和理解空间的能力。

RynnBrain 恰恰在这两点上实现了质的突破。

先说记忆能力。达摩院团队给 RynnBrain 装了一个叫“时空记忆”的核心模块。这个模块可不是简单的存储空间，而是一个结构化的“世界记忆库”。

想象一下：你让机器人把水杯放在厨房台面上，然后让它去打扫客厅。几个小时后，你突然想起那杯水，让机器人帮忙取回来。传统机器人早把这事忘到九霄云外了。但搭载RynnBrain的机器人会毫不犹豫地返回厨房，准确找到那个杯子。

因为它在自己的“记忆库”里，把“杯子”和“厨房台面”这两个信息牢牢绑在了一起，还记录了精确的空间坐标。这不是简单的缓存，而是可查询的结构化知识图谱。

再说空间理解能力。你有没有见过那种机械臂抓取物体的视频？经常是对着一个矿泉水瓶戳半天都抓不起来，看着都着急。这就是典型的“空间理解幻觉”：模型虽然知道“那个瓶子在那里”，但它算不出“我的手该以什么角度、什么力度伸过去”。

RynnBrain 解决这个问题的方式很有意思，叫“文本与空间定位交错推理”。

啥意思？当它分析“把左边的红苹果递给老人”这个指令时，它的思考过程不再是纯文本的，而是边走边说、边说边指：“首先走向【桌子】（对应视频帧中的区域坐标），然后伸出手对准【苹果】（对应物体的边界框），避开旁边的【水杯】（对应障碍物的点集）……”

这种“边说边指”的推理方式，确保了模型的每一个决策都扎根于真实的物理环境。

“小而美”的技术突围

在国际巨头的围剿下，RynnBrain 走出了一条独特的技术路径。

目前全球具身智能领域呈现出明显的技术分化：OpenAI 侧重认知层突破，特斯拉聚焦本体运动控制，英伟达则构建底层开发生态。而 RynnBrain 打出的牌是“极致的效率”。

你可能不懂技术参数，但你一定明白这个道理：对于机器人这种对功耗、算力极其敏感的设备，模型越小，响应越快，落地可能性就越大。

RynnBrain-30B-A3B 模型有个神奇的特点：虽然总参数达到 30B，但实际推理只需要激活约 3B 的参数。3B 激活参数的性能，超越了 72B 规模的 Pelican-VL 模型——当前规模最大的具身基础模型。这种“按需调度”有效降低了 FLOPs 与显存负载，使端到端控制延迟缩短至 12ms，在低功耗下实现了具身智能的性能压制。

这就好比别人家造了个大排量油耗惊人的越野车，你造了一台同样能翻山越岭但百公里只烧 3 个油的家用 SUV。谁更适合走进千家万户？答案不言而喻。