让 Agent 主动探索世界的秘密：Schmidhuber 在 20 年前的一篇论文就给出了答案

唐国梁Tommy

发布于 2026-06-25 21:38:34

文章被收录于专栏：TGLTommyAI前沿技术论文TGLTommyAI前沿技术论文

你有没有想过这样一个问题：

为什么婴儿明明没有人教，却会不停地东摸一下、西看一下？
为什么我们会反复听一首新歌，刚开始觉得有点意思，后来越听越上头，但再过一阵又突然觉得没那么新鲜了？
为什么科学家会痴迷于发现新规律，艺术家会执着于创造新表达，喜剧演员会拼命设计一个让人“没想到但又恍然大悟”的包袱？

这些看起来完全不同的行为，背后会不会其实有一套共同的机制？

Jürgen Schmidhuber 在论文 《Formal Theory of Creativity, Fun, and Intrinsic Motivation (1990–2010)》 中，给出了一个非常大胆、也非常有启发性的答案： 所谓“有趣”、所谓“创造力”、所谓“好奇心”，本质上都和一件事有关——你的大脑，或者一个智能体的世界模型，正在变得更好。

这篇论文最迷人的地方，不是它在讲抽象哲学，而是它试图把“兴趣”“审美”“创造力”这些看似感性的词，变成一种可以被AI系统建模的机制。

真正吸引我们的，不是“新”，而是“刚好能学会的新”

很多人会以为，人类喜欢的是“新奇”。但这篇论文说，不对，单纯的新奇并不等于有趣。

举个简单例子。

如果你盯着一面纯白墙看，几分钟后你一定会觉得无聊。因为它太可预测了，没有任何新东西可学。但如果你盯着一台不断输出随机噪声的屏幕看，照样也会很快失去兴趣。因为它虽然“变化很多”，却没有任何规律可言，你根本学不会。

这篇论文提出了一个极其关键的判断：

真正有趣的，不是已经完全懂了的东西，也不是永远学不会的东西，而是那些“以前还不懂、现在有机会弄懂”的东西。

这句话听起来很简单，但它几乎解释了大量人类体验。

为什么一首新歌会让你上头？因为它不是完全陌生到听不懂，也不是简单到一耳朵就被看穿。它在你的理解边界附近，刚好让你不断发现新模式。

为什么短视频容易让人上瘾，而高质量内容更容易让人沉淀？因为前者往往只提供低成本刺激，后者更可能让你的认知结构发生真正变化。

为什么优秀的幽默总是建立在“意外”和“合理”同时成立之上？因为一个好笑的包袱，往往不是纯随机的荒诞，而是你原本的理解路径突然被翻转，然后瞬间形成一个更精巧的解释。

从这个角度看，有趣，其实是“理解正在发生”的感觉。

一套非常像“AI版本心理学”的框架

这篇论文把“创造力”拆成了四个核心部件：

第一，一个不断学习的世界模型。它负责理解外部世界，预测接下来会发生什么。

第二，一个持续改进世界模型的学习算法。它让系统不断从历史经验中抽取规律。

第三，一个衡量“模型进步了多少”的内在奖励机制。这就是好奇心的来源。

第四，一个根据这些奖励来选择行动的强化学习控制器。它负责决定：我接下来该去看什么、试什么、探索什么。

这套框架最精妙的地方在于：它不是奖励“你见到了多少新东西”，而是奖励“你从这些东西里学到了多少”。

也就是说，一个真正有好奇心的智能体，并不会盲目冲向最混乱、最不可预测的地方。它会更偏向那些能带来学习进展的地方。

论文里举了一个非常形象的例子：假设环境里有红盒子和蓝盒子。

打开红盒子，里面会出现一种你之前没见过、但很容易学会的几何规律；打开蓝盒子，里面则只有完全不可预测的白噪声。

如果一个智能体的内在奖励来自“模型进步”，那它最终会学会一件事： 去开那些还没开过的红盒子，而不是蓝盒子。

这背后其实就是一句很重要的话：

好的探索，不是追逐不确定性本身，而是追逐“可学习的不确定性”。

为什么“预测错误”还不够好？

很多人谈AI探索，第一反应是：哪里预测错得多，哪里就值得去。

但这篇论文认为，这种想法并不够成熟。因为“预测错很多”并不代表“能学到东西”。

最典型的反例就是随机噪声。噪声当然很难预测，模型会一直犯错；但你对它看得再久，也不会得到一个更好的解释。它不会让你的世界模型真正变强。

所以作者提出，更合理的内在奖励应该是：

不是看你错了多少，而是看你比刚才进步了多少。

这其实是全文最核心的思想。

如果把它翻译成更通俗的话，那就是：

• 完全懂了：没意思

• 完全不懂：也没意思

• 正在慢慢看懂：最有意思

你会发现，这和真实的人类成长体验高度一致。

学习一门新技能最爽的时候，往往不是初学一脸懵，也不是已经烂熟于心，而是“突然开始抓到门道”的那个阶段。看一本难书最上头的时候，也不是一开始完全看不懂，而是你开始能把原本零散的概念串起来的时候。

人类最强的快感之一，可能根本不是占有，而是理解。

为什么这篇论文会把“美”也拉进来？

这篇论文还有一个非常有意思的延伸：作者认为，审美体验也可以用类似方式解释。

他区分了两个概念：

一个是“美”，可以理解为某个对象当前对你来说有多容易被解释、被压缩；另一个是“有趣”，则是你对它的理解正在提升得有多快。

这就意味着：

美，不只是对象本身的属性；它还和你是谁、你知道什么、你现在能理解到什么程度有关。

同样一幅画，对普通观众可能只是“挺好看”，对懂构图、懂光影、懂艺术史的人，可能会越看越觉得高级。不是画变了，而是观察者的“压缩器”变了。

从这个角度看，审美并不是玄学。它可以被理解为： 你在一个对象中不断发现更深层结构的过程。

这也是为什么真正耐看的作品，往往不是那种一眼就看透的东西。它会在你的理解边界附近，一层一层打开。

科学、艺术、音乐、幽默，为什么可能是一回事？

这篇论文最“野”的地方，在于它并不满足于解释婴儿探索或者机器人好奇心。作者进一步声称，这套机制足以解释更高级的创造行为，比如科学发现、艺术创作、音乐、幽默。

为什么？

因为从更抽象的角度看，这些事情都在做同一件事： 寻找一种更好的方式来解释世界，或者构造一种能让别人获得新理解的结构。

科学家在寻找自然规律，本质上是在压缩世界。艺术家在创造形式与表达，本质上是在构造一种新的可感知结构。音乐之所以动人，常常是因为它在重复与变化之间不断制造“可学习的新模式”。幽默之所以好笑，往往是因为它突然让你意识到：原来这件事还可以用一个更短、更巧、更反转的方式理解。

换句话说：

创造力，未必只是“生成从未存在过的东西”，更可能是“发现一种更聪明的解释方式”。

这篇论文为什么到今天仍然值得读？

因为它提醒了我们一件很容易被忽视的事：

在AI时代，我们谈“智能”，不能只盯着任务完成率、分数、排名。一个真正强大的智能系统，不仅要会完成目标，还要会主动寻找那些值得学习的东西。

而对人类自己来说，这篇论文也给了一个很强的反思：

也许我们人生中很多真正重要的快乐，并不是消费带来的，也不是刺激带来的，而是认知结构升级带来的。

你为什么会在某个瞬间突然觉得“这件事太有意思了”？也许不是因为它多花哨，而是因为你的大脑在那一刻真的发生了变化。你看到了一个以前看不到的结构，理解了一个以前理解不了的模式。

那一瞬间，你获得的，不只是知识。你获得的是一种更深层的快感—— 我变得更能理解这个世界了。

这或许就是好奇心的本质。也是创造力最朴素、最强大的来源。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2026-04-05，如有侵权请联系 cloudcommunity@tencent.com 删除

对象

本文分享自唐国梁TGLTommy 微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度