彻底封神！智源Emu3登顶Nature

Henry Zhang

发布于 2026-02-04 14:38:42

1870

题图摄于故宫神武门

近期国内 AI 圈最大的新闻之一莫过于中国智源的Emu3多模态大模型，登上了 Nature 正刊！

可能有人不懂 Nature 的分量，如果说 AI 顶会是行业的‘入场券’，那么 Nature 正刊就是科研殿堂的‘紫禁之巅’。去年 DeepSeek 论文上过一次Nature，这次是中国科研机构主导的大模型，首次登上这个顶流舞台，直接打破了国外在多模态领域的话语权垄断！

Emu3到底牛在哪？

用一句话总结，就是别的多模态（文本、图片、视频一起懂、一起生）方法，都是“东拼西凑”——给语言模型配个视觉编码器，再搭个扩散模型，像给自行车装摩托车发动机，复杂又费电；

传统模型东拼西凑的模式

而Emu3只靠一招：“预测下一个Token”（类比成“猜下一个字/词”），就搞定了文本、图片、视频的所有任务，架构极简，却比别人更能打、更快和更省钱。

剩余部分把 Emu3 的核心原理以及Nature上的论文精髓，通俗地讲讲。

咱们分4个关键点，拆解它的“神仙操作”，每一个都藏着它登Nature的底气！

传统多模态模型，就像一个“组装机”——处理文本靠一个芯片，处理图片靠另一个芯片，处理视频再多加一个，还要专门装个“翻译器”，让这几个芯片能互通，又复杂又笨重，训练一次要花海量电费。

Emu3反其道而行之：只用一个“纯语言模型大脑”（类似ChatGPT的基础架构），不搞任何多余组装。

它的秘诀是：把图片、视频，都“翻译”成语言模型能看懂的“特殊文字”（也就是Token）。比如一张猫的图片，被编码成一串只有模型能懂的“密码文字”，视频就是更长的“密码文字序列”。

这样一来，模型不用学多种技能，只要像我们猜下一个字一样，“猜”出下一个Token，就能同时搞定文本生成、图片生成、视频生成——相当于一个人，不用换工具，就能同时写文章、画画、剪视频。

效果也很惊人：参数量比传统模型少60%（相当于大脑变小了，但更聪明），训练效率提升3倍（原来练1年，现在3个月就够），部署起来也更轻便。

刚才说，Emu3要把图片、视频变成“密码文字”，靠的就是这个“视觉分词器”——相当于给图片、视频做“高效压缩+翻译”，而且压缩后不丢细节。

举个例子：一张512×512的高清图片，直接处理起来太费算力，就像我们要把一本厚书背下来，很难；而视觉分词器能把它压缩成4096个“密码文字”（Token），相当于把厚书改成4096个关键词，背起来就容易多了。

更厉害的是，它还能处理视频：一个4×512×512的视频片段（相当于4帧高清图），也能压缩成4096个Token，而且能保留视频的“时间顺序”——就像把一段视频，改成带顺序的关键词，模型猜下一个Token，就能延续视频的动作。

它还有个创新：加了“3D卷积核”，能同时捕捉图片的“空间信息”（比如猫的耳朵在头顶）和视频的“时间信息”（比如猫在走路，爪子的动作顺序），所以生成的视频，动作更连贯，不会出现“瞬移”“变形”的bug。

AI的聪明程度，离不开“喂饭”：喂的资料越多越杂，它就越懂世界。Emu3的“饭量”，堪称惊人，而且越吃越精。

基础版Emu3，就喂了中英文高质量文本、海量开源图片、各类视频（风景、动物、游戏等）；到了Emu3.5，直接“加餐”：

这么多数据，相当于给Emu3装上了“全世界的知识库+视频库”，它能看懂各种场景、各种动作，生成的内容也更贴近现实——比如生成“教你修自行车”的视频，能准确还原扳手的动作、螺丝的位置，不会出错。

传统自回归模型（比如早期的文本生成模型），最大的缺点是“慢”——生成一张1024×1024的图片，要等120秒（2分钟），生成视频更慢，根本没法实用。

Emu3靠“DiDA技术”，直接解决了这个痛点——相当于给AI加了“并行加速器”，把“顺序猜Token”，改成“并行猜Token”，就像我们原来一个人写文章，现在一群人分工写，速度瞬间翻倍。

效果有多明显？1024×1024的图片，生成时间从120秒，降到10秒；入门级显卡（比如NVIDIA L4），生成一张512×512的图片，只要2-3秒，和我们刷手机加载图片的速度差不多！

Emu3不是突然“封神”的，它的成长路线很清晰，每一步都在迭代升级，咱们用时间线，一眼看懂它的进化史：

2022年：启动研发——智源研究院正式立项，定下“原生多模态”的目标（就是不搞组装，靠一个架构搞定所有），相当于“播下种子”；
2023年7月：Emu1开源——第一个版本上线，打通了“多模态输入→多模态输出”（比如输入文字，能生成图片+文本），相当于“种子发芽”，证明了路线可行；
2023年12月：Emu2发布——升级成“370亿参数的大块头”，能“举一反三”（给几个例子，就能学会新任务），还结合了扩散模型，图片生成更逼真，相当于“长成小树苗”；
2024年10月：Emu3革命性发布——放弃扩散模型，只用“预测下一个Token”，实现文本、图片、视频统一生成，架构极简，一战成名，相当于“长成大树”；
2025年10月：Emu3.5发布——参数量涨到34B，视频数据涨到790年，加入DiDA加速技术，从“猜下一个字”，升级到“猜下一个状态”（比如预测视频里“球掉地上会弹起来”），相当于“大树开花”；
2026年1月：登Nature正刊——中国科研机构主导的大模型，第一次登上Nature，得到国际学术界认可，相当于“开花结果，封神出圈”！