首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >让 Agent 主动探索世界的秘密:Schmidhuber 在 20 年前的一篇论文就给出了答案

让 Agent 主动探索世界的秘密:Schmidhuber 在 20 年前的一篇论文就给出了答案

作者头像
唐国梁Tommy
发布2026-06-25 21:38:34
发布2026-06-25 21:38:34
20
举报

你有没有想过这样一个问题:

  • 为什么婴儿明明没有人教,却会不停地东摸一下、西看一下?
  • 为什么我们会反复听一首新歌,刚开始觉得有点意思,后来越听越上头,但再过一阵又突然觉得没那么新鲜了?
  • 为什么科学家会痴迷于发现新规律,艺术家会执着于创造新表达,喜剧演员会拼命设计一个让人“没想到但又恍然大悟”的包袱?

这些看起来完全不同的行为,背后会不会其实有一套共同的机制?

Jürgen Schmidhuber 在论文 《Formal Theory of Creativity, Fun, and Intrinsic Motivation (1990–2010)》 中,给出了一个非常大胆、也非常有启发性的答案: 所谓“有趣”、所谓“创造力”、所谓“好奇心”,本质上都和一件事有关——你的大脑,或者一个智能体的世界模型,正在变得更好。

这篇论文最迷人的地方,不是它在讲抽象哲学,而是它试图把“兴趣”“审美”“创造力”这些看似感性的词,变成一种可以被AI系统建模的机制。

真正吸引我们的,不是“新”,而是“刚好能学会的新”

很多人会以为,人类喜欢的是“新奇”。 但这篇论文说,不对,单纯的新奇并不等于有趣

举个简单例子。

如果你盯着一面纯白墙看,几分钟后你一定会觉得无聊。因为它太可预测了,没有任何新东西可学。 但如果你盯着一台不断输出随机噪声的屏幕看,照样也会很快失去兴趣。因为它虽然“变化很多”,却没有任何规律可言,你根本学不会。

这篇论文提出了一个极其关键的判断:

真正有趣的,不是已经完全懂了的东西,也不是永远学不会的东西,而是那些“以前还不懂、现在有机会弄懂”的东西。

这句话听起来很简单,但它几乎解释了大量人类体验。

为什么一首新歌会让你上头? 因为它不是完全陌生到听不懂,也不是简单到一耳朵就被看穿。它在你的理解边界附近,刚好让你不断发现新模式。

为什么短视频容易让人上瘾,而高质量内容更容易让人沉淀? 因为前者往往只提供低成本刺激,后者更可能让你的认知结构发生真正变化。

为什么优秀的幽默总是建立在“意外”和“合理”同时成立之上? 因为一个好笑的包袱,往往不是纯随机的荒诞,而是你原本的理解路径突然被翻转,然后瞬间形成一个更精巧的解释。

从这个角度看,有趣,其实是“理解正在发生”的感觉。

一套非常像“AI版本心理学”的框架

这篇论文把“创造力”拆成了四个核心部件:

第一,一个不断学习的世界模型。 它负责理解外部世界,预测接下来会发生什么。

第二,一个持续改进世界模型的学习算法。 它让系统不断从历史经验中抽取规律。

第三,一个衡量“模型进步了多少”的内在奖励机制。 这就是好奇心的来源。

第四,一个根据这些奖励来选择行动的强化学习控制器。 它负责决定:我接下来该去看什么、试什么、探索什么。

这套框架最精妙的地方在于: 它不是奖励“你见到了多少新东西”,而是奖励“你从这些东西里学到了多少”。

也就是说,一个真正有好奇心的智能体,并不会盲目冲向最混乱、最不可预测的地方。 它会更偏向那些能带来学习进展的地方。

论文里举了一个非常形象的例子: 假设环境里有红盒子和蓝盒子。

打开红盒子,里面会出现一种你之前没见过、但很容易学会的几何规律; 打开蓝盒子,里面则只有完全不可预测的白噪声。

如果一个智能体的内在奖励来自“模型进步”,那它最终会学会一件事: 去开那些还没开过的红盒子,而不是蓝盒子。

这背后其实就是一句很重要的话:

好的探索,不是追逐不确定性本身,而是追逐“可学习的不确定性”。

为什么“预测错误”还不够好?

很多人谈AI探索,第一反应是: 哪里预测错得多,哪里就值得去。

但这篇论文认为,这种想法并不够成熟。 因为“预测错很多”并不代表“能学到东西”。

最典型的反例就是随机噪声。 噪声当然很难预测,模型会一直犯错;但你对它看得再久,也不会得到一个更好的解释。它不会让你的世界模型真正变强。

所以作者提出,更合理的内在奖励应该是:

不是看你错了多少,而是看你比刚才进步了多少。

这其实是全文最核心的思想。

如果把它翻译成更通俗的话,那就是:

• 完全懂了:没意思

• 完全不懂:也没意思

• 正在慢慢看懂:最有意思

你会发现,这和真实的人类成长体验高度一致。

学习一门新技能最爽的时候,往往不是初学一脸懵,也不是已经烂熟于心,而是“突然开始抓到门道”的那个阶段。 看一本难书最上头的时候,也不是一开始完全看不懂,而是你开始能把原本零散的概念串起来的时候。

人类最强的快感之一,可能根本不是占有,而是理解。

为什么这篇论文会把“美”也拉进来?

这篇论文还有一个非常有意思的延伸: 作者认为,审美体验也可以用类似方式解释。

他区分了两个概念:

一个是“美”,可以理解为某个对象当前对你来说有多容易被解释、被压缩; 另一个是“有趣”,则是你对它的理解正在提升得有多快。

这就意味着:

美,不只是对象本身的属性;它还和你是谁、你知道什么、你现在能理解到什么程度有关。

同样一幅画,对普通观众可能只是“挺好看”,对懂构图、懂光影、懂艺术史的人,可能会越看越觉得高级。 不是画变了,而是观察者的“压缩器”变了。

从这个角度看,审美并不是玄学。 它可以被理解为: 你在一个对象中不断发现更深层结构的过程。

这也是为什么真正耐看的作品,往往不是那种一眼就看透的东西。 它会在你的理解边界附近,一层一层打开。

科学、艺术、音乐、幽默,为什么可能是一回事?

这篇论文最“野”的地方,在于它并不满足于解释婴儿探索或者机器人好奇心。 作者进一步声称,这套机制足以解释更高级的创造行为,比如科学发现、艺术创作、音乐、幽默。

为什么?

因为从更抽象的角度看,这些事情都在做同一件事: 寻找一种更好的方式来解释世界,或者构造一种能让别人获得新理解的结构。

科学家在寻找自然规律,本质上是在压缩世界。 艺术家在创造形式与表达,本质上是在构造一种新的可感知结构。 音乐之所以动人,常常是因为它在重复与变化之间不断制造“可学习的新模式”。 幽默之所以好笑,往往是因为它突然让你意识到:原来这件事还可以用一个更短、更巧、更反转的方式理解。

换句话说:

创造力,未必只是“生成从未存在过的东西”,更可能是“发现一种更聪明的解释方式”。

这篇论文为什么到今天仍然值得读?

因为它提醒了我们一件很容易被忽视的事:

在AI时代,我们谈“智能”,不能只盯着任务完成率、分数、排名。 一个真正强大的智能系统,不仅要会完成目标,还要会主动寻找那些值得学习的东西。

而对人类自己来说,这篇论文也给了一个很强的反思:

也许我们人生中很多真正重要的快乐,并不是消费带来的,也不是刺激带来的,而是认知结构升级带来的

你为什么会在某个瞬间突然觉得“这件事太有意思了”? 也许不是因为它多花哨,而是因为你的大脑在那一刻真的发生了变化。 你看到了一个以前看不到的结构,理解了一个以前理解不了的模式。

那一瞬间,你获得的,不只是知识。 你获得的是一种更深层的快感—— 我变得更能理解这个世界了。

这或许就是好奇心的本质。 也是创造力最朴素、最强大的来源。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-04-05,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 唐国梁TGLTommy 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 真正吸引我们的,不是“新”,而是“刚好能学会的新”
  • 一套非常像“AI版本心理学”的框架
  • 为什么“预测错误”还不够好?
  • 为什么这篇论文会把“美”也拉进来?
  • 科学、艺术、音乐、幽默,为什么可能是一回事?
  • 这篇论文为什么到今天仍然值得读?
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档