首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >智力理论 Theory of Intelligence

智力理论 Theory of Intelligence

作者头像
CreateAMind
发布2026-03-11 17:44:40
发布2026-03-11 17:44:40
420
举报
文章被收录于专栏:CreateAMindCreateAMind

智力理论 Theory of Intelligence

https://papers.ssrn.com/sol3/papers.cfm?abstract_id=5381816

摘要

几个世纪以来,哲学家和来自不同学科的科学家一直在研究人类和动物的智力,但尚未提出令人满意的理论来解释智力如何运作及其主要组成部分是什么。我认为,这是由于使用了自然但具有误导性的假设所致。我建议将焦点转向更优的假设,即智力依赖于对可比属性的比较。这使我能够用最少的工具箱解释所有的认知功能。

关键词:智力、比较、选择、可比属性、范围、差异、分类、概括

引言

长久以来,人类一直对理解我们以有意义的方式与世界互动的能力抱有浓厚兴趣。几个世纪以来,哲学家和科学家一直在研究智力,也曾多次尝试解释或建模智力。然而,至今我们仍未形成一个被广泛接受的观点,来说明智力究竟是什么或它如何运作。

人们曾使用多种隐喻来洞察智力的运作机制——从齿轮到计算机。每种隐喻都从某个角度揭示了智力的部分特性,却忽略了其他方面。然而,某些隐喻具有误导性,因为它们提供了看似自然的支持论据,却忽视了暗示其遗漏智力某些重要方面的线索。

任何假说都需要两类论证——支持它的论据和反对它的论据。它是否解释了现象的本质,还是遗漏了本质?对我们研究基础所依赖的隐喻进行批判性评估至关重要。

在本文中,我将分析迄今为止用于研究智力的那些自然但具有误导性的隐喻。随后,我将提出一个更优的关于认知计算本质的隐喻,并展示它如何解释智力的内在机制,从而使我们能够在软件中对其进行建模。

第一部分 挑战

期望

一个良好的智力解释性理论应能阐明多个与智力相关的概念。首先,它应定义什么是智力,以及什么不是智力。其次,它应描述智力的核心组成部分和机制。第三,它应展示多种涉及智力的认知功能是如何运作的。第四,它应说明我们如何学习新信息,以及智力收集了哪些信息、如何存储这些信息。第五,它应解释我们如何与世界以及彼此互动。最后但同样重要的是,一个良好的智力理论应当能够解释其他现象,甚至包括在该理论提出之后才被观察到的现象。

Rouleau 和 Levin [1] 引起了我们对各种“空间”的关注,生物在这些空间中运作并解决问题,并提出了额外的问题,要求理论提供答案,或至少提供寻找答案的方法。其中一些问题涉及智力,我将在文中加以探讨;而另一些则涉及不同的现象,或并不构成智力的定义特征。正如我所提到的,一个良好的理论应当能够区分这些情况。

本文旨在为构建这样的理论提出若干关键性的考虑因素。

为什么定义会失败

根据韦氏词典(Merriam-Webster dictionary)中的一项定义[2],“定义是对轮廓或边界的清晰划分。”一个良好的概念定义不仅应说明哪些现象符合该概念,还应排除那些不符合的现象。轮廓(outline)最能实现这一功能。

Pilkington [3] 提出了六种定义类型:典型定义、程序性定义、延迟定义、零定义、比喻性定义和链条式定义。

我想补充一个额外的作用,即“促进建模或实现”,如果适用的话。在智力研究以及我们追求可靠且有意义的人工智能的过程中,这一作用尤为重要。

典型定义是指“源自亚里士多德观察的定义,其结构如下:A = B,其中 A 代表被定义的对象(称为被定义项,definiendum),B 对应于被称为定义项(definiens)的内容。”[3]

这指的是“一个定义通过指明某类事物的本质特征或结构——即它之所以是这类事物的原因——来将其与其他种类区分开来,并使其能够被系统地研究及其关联关系”[4]。

“提供这种类型的定义,是为了描述某一类事物的本质或定义性特征——即描述它之所以成为 X 类事物的内在原因。本质或定义性特征是指那些没有它们,该类事物就不可能成为其所是的那种事物的特征、属性或条件,也就是说,这类事物必然具有这些特征”[4]。

本文将特别关注“定义性特征”这一概念。

关于“程序性定义”。这种定义解释的是“一个对象做什么”[3]。

延迟定义和零定义对于我们当前的目的并不相关。

“比喻性定义是一种依赖类比、隐喻和其他表达手段的定义……”[3]。

当典型定义、程序性定义和比喻性定义被一起使用时,它们会形成一种链式或串行定义[3]。

在上述理解的基础上,我们现在来分析一些当前正在使用的智力定义。同时,我们希望遵循爱因斯坦的建议[5]:“一切应尽可能简单,但不能过于简单。”另一个有用的指导原则来自安托万·德·圣-埃克苏佩里(Antoine de Saint-Exupéry):“完美不是在无法再添加任何东西时达到的,而是在无法再删减任何东西时实现的。”在遵循这些原则的同时,我们并不想“把婴儿和洗澡水一起倒掉”。

Legg 和 Hutter [7] 提到了以下关于智力的定义:“运用记忆、知识、经验、理解、推理、想象力和判断力来解决问题并适应新情境的能力”,出自《AllWords词典》,2006年。

这个定义包含了智力定义中常见的大多数组成部分——“记忆、知识、经验、理解、推理、想象力和判断力”。我们能否将它们视为智力典型定义的一部分?我认为不能,因为这些特征并非智力所独有。此外,该定义提到了智力的两种功能,试图构建一个关于智力的程序性定义。再次,我主张这一部分的定义并不令人满意。如果它能解释智力是如何解决问题的,那么问题解决能力本可用于智力的程序性定义中。然而,实际情况却形成了循环依赖——智力通过解决问题来解决问题。上述定义的所有组成部分都未能揭示智力运作的机制。如果我们希望对智力进行建模,这些内容是无益的。

现在考虑 Legg 和 Hutter [7] 提到的以下定义:

“在复杂环境中实现复杂目标”——由Goertzel [8] 提出。

“智力衡量一个智能体在广泛环境中实现目标的能力”——由 Legg 和 Hutter [9] 提出。

威廉·詹姆斯(William James)[10] 也使用目标来定义智力:“智力是通过多种手段实现固定目标的能力。”

目标达成与问题解决面临同样的问题。此外,我们还可以举出竞技体育、贫困、饥饿致死、疾病或犯罪等明显例子,说明这一定义在识别智力时的失败之处。它同样无法为实施提供指导。

王 [11] 将智力定义为“信息处理系统在知识和资源不足的情况下适应其环境的能力”。

再次提出:其机制是什么?典型定义和程序性定义只有在我们拥有清晰的方法来实现所考虑现象的模型时才有效。如果我们没有,我们就应该从“以实现为导向的定义”开始。

Monett 和 Lewis [12] 以及 Legg 和 Hutter [7] 还提出了更多关于智力的定义,但它们都基于上述已分析过的概念。

目前使用的定义依赖于智力的高级功能,却未涉及良好定义所需的其他重要方面。它们无法将智力与其他现象区分开来,也无法为我们提供“定义性特征”以识别智力,尤其是在非常规智能体中。更重要的是,它们未能为智力的实现或建模提供明确的指导。

本文稍后将提出一个更好的定义。我们将回到上述提到的各种定义,展示所提出的模型如何处理所有这些方面。

现有理论缺乏足够的解释力

Trapp 等人 [13] 指出:“智力仍然过着隐秘的生活。”我们对其组成部分和机制缺乏理解。尽管存在许多关于智力的理论,但它们并不具备解释性。相反,它们只是测量一些参数,而这些参数据其作者称与智力水平相关。至于是否存在不同层次的智力,则被排除在讨论之外。

斯皮尔曼的“g”因素理论 [14] 将智力归因于“g”因素,并作为智商测试的理论基础。该理论依赖于测量某些需要智力的能力,正如作者所述。然而,在构建此类能力清单时,总是有可能遗漏相关的内容,或加入不完全相关的内容。

卡特尔-霍恩-卡罗尔 [15-17] 的认知能力理论结合了霍恩和卡特尔的 Gf-Gc 理论(流体与晶体智力理论)以及卡罗尔的三层次理论。其方法相同——基于某些指标来评估智力。它同样没有解释智力的本质,而是试图测量其表现形式。

斯特恩伯格的智力三元理论 [18] 认为智力包含三种类型(分析性、创造性和实践性),每种在特定情境中占据主导地位。虽然这一理论具有影响力,但它并未解释其背后的机制,且存在其他问题。

根据斯特恩伯格的成功智力理论 [19],智力是:“1)在个人社会文化背景下实现人生目标的能力;2)通过发挥优势并纠正或补偿弱点来实现目标;3)为了适应、塑造和选择环境;以及 4)通过分析性、创造性和实践能力的组合来实现。”我们已经讨论过通过达成目标或适应来定义智力的方法。这种做法并未提出任何新内容,也未解释智力如何“发挥优势并纠正弱点”的机制。

加德纳的多元智能理论 [20] 提出存在八种形式的智能。与斯特恩伯格的三元划分一样,该理论也未能获得严肃的实证支持,且并未对其中任何一种智能形式做出解释。

杰夫·霍金斯(Jeff Hawkins)的“千脑理论”[21] 将智能定位在新皮层,并遵循芒特卡斯尔(Mountcastle)[22] 关于皮层柱作为执行通用皮层算法的计算单元的观点。然而,芒特卡斯尔并未具体说明该算法是什么,霍金斯对此也仅有模糊的概念——“2016年那天,当我手握杯子时,我意识到芒特卡斯尔的算法和克里克的框架都基于参考系。但我当时还不明白神经元是如何实现这一点的。”

我想指出霍金斯观点中的几个问题。哺乳动物并非地球上唯一具有智能的生物,尽管只有哺乳动物拥有新皮层。我赞同沃森和莱文(Watson and Levin)[23] 的观点,即不仅所有生物体都具有智能,它们的群体或器官也具有智能。智能过程甚至发生在亚细胞层面,例如基因表达。单细胞生物、器官或群体并不具备皮层柱来执行所谓的通用算法。即使我们同意智能算法由皮层柱执行,那么在皮层柱之上的层级,又是哪个单元在执行该算法呢?

大卫·雷·格里芬(David Ray Griffin)[24] 支持这类观点:“单细胞生物的行为方式表明它们能够感知并回应其环境。”

在本文中,我提出了一种可在不同硬件或湿件(生物组织)上运行的算法。

缺失的解释

对于任何可能的智能理论而言,存在两个难以克服的障碍——实时性与可计算性。计算不仅必须在给定的时间内完成,而且这个时间窗口还非常短暂。

关于认知计算,存在许多隐喻。有些观点认为智能可能具有热力学特性 [25] 或量子特性 [26]。然而,很难想象基于这些方法的计算能够在合理时间内完成,甚至是否可能实现都存疑。

另有一些方法基于预测 [27] 或奖励机制 [28]。本质上,它们依赖于考虑多种可能的情景,并依据某些度量标准选择最优方案。这些方法无法满足实时性约束。此外,我很难理解这些方法如何解释“类别”与“分类”的形成。

有人声称压缩 [29] 对智能至关重要。我认为他们混淆了结果与原因。此外,通过“压缩”来解释多种认知功能也十分困难。

最早探索智能的方法之一是基于一阶逻辑和符号操作 [30]。这种看似合乎逻辑的方法最终失败了,甚至导致了第一次人工智能寒冬。尽管我即将描述的方法更接近基于逻辑的路径,但我可以指出,其失败源于对“类别”、“符号”及其指称作用的误解。

纽厄尔与西蒙(Newell and Simon)认识到它们的重要性:“现代计算机的力量不仅源于其作为算术计算器的功能,更在于它是一个通用的符号操作系统。符号标记(token)是一种模式,可由信息处理系统与其他符号标记进行比较,并判断其相等或不同。信息处理系统中用于判断标记相等性的基本测试,决定了它所能识别和区分的基本符号字母表。因此,符号即是在该基本测试下所有相等标记的集合。符号对信息处理系统的关键特性在于其指称能力,即拥有指涉对象。”

误导性假设

最后,我想讨论一些自然但具有误导性的假设。第一个是“心智即计算机”[31-34]。“在这个意义上,理性无非就是计算”,霍布斯如是说 [30]。我有理由既同意这一观点,又认为它具有误导性。根据我的理论,认知确实基于某种计算,但当我们提到“计算”时,首先想到的通常并非这种计算。

另一个自然但具有误导性的假设是关于“类别”的。许多专家提出,概念或类别是根据符合该类别的对象之间的相似性来定义的。与此相关,我可以提及“样例理论”[36]、“原型理论”[37] 以及维特根斯坦的“家族相似性理论”[38]。与此稍有关联的是福多(Fodor)的观点,即概念是原子性的 [39],独立于其他概念,也就是说,其定义仅依赖于符合该概念的对象。要解释为何这些方法具有误导性,需要一些预备性讨论。我将在下一部分中详细展开。

第二部分。认知计算的本质

词源

让我们从“intelligence”(智力)这个词的词源开始,它源自拉丁语。

根据[40]:"intellegentia, intellegentiae:

  • 辨别力、理解力、智力
  • 理解、知识
  • 艺术、技能、品味、鉴赏力
  • 一种构想、领会、观念"

我们以前见过其中许多词汇。但其中一个值得额外关注——“discernment”(分辨力)。我想再补充一个含义——“读懂字里行间”。

根据[41]:"intelligence(n.)14世纪末,'心灵的最高能力,理解普遍真理的能力';约1400年,'理解力、领悟力',源自古法语 intelligence(12世纪),直接来自拉丁语 intellegentia, intellegentia,意为‘理解、知识、辨识力;艺术、技能、品味’,源自 intelligentem(主格形式 intelligens),“有辨识力的、有鉴赏力的”,是动词 intelligere 的现在分词,意为‘理解、领会、得知’。该词由同化形式的 inter ‘在……之间’(参见 inter-)+ legere ‘选择、挑选、阅读’构成,后者源于原始印欧语根 *leg- (1) ‘收集、聚集’,其派生词意为‘说话(即‘挑选词语’)’。"

上述补充的含义与这段文字非常契合。

独特对象与可互换对象

根据赫拉克利特 [42]:“人不能两次踏入同一条河流,因为那不是同一条河,也不是同一个男人。”不仅所有对象都是独特的,而且同一个对象在任何先前或未来的时刻也都不相同。

实际上,人类并非布里丹的驴子,尽管尊重某些对象的独特性,但仍能从其他对象的可互换性中获益。

现在让我们回想一下“心智是一台计算机”的隐喻,并考虑到智力的核心在于“分辨”。那么,什么样的计算使我们能够判断对象是否不同?

认知计算的本质

我主张,认知计算依赖于比较。不是算术运算,不是矩阵乘法,不是统计,也不是一阶逻辑。比较是一种计算,但它并不是人们提到“计算”时通常想到的那种计算。

比较简单、与基质无关,并且对物理现象和抽象现象都适用。想想比较在排序、选择最佳指标、判断目标是否达成等方面所起的作用。

请注意,比较并不以整个对象作为参数。它们处理的是属性。对象具有属性。如果我们把属性看作维度,那么对象就是多维的。对智能而言重要的是可比性,而不是精确测量。点状精确测量并不能实现可互换性,而基于范围的估计可以。如果你相信“维度灾难”,那么比较就是我们第一个降维工具。

类别

安·兰德 [43] 提到:“相似性是两个或多个存在物之间的关系,它们具有相同的特征,但在程度或量上有所不同。概念形成的过程在于通过它们的区分特征在心理上将两个或多个存在物彼此隔离,保留这一特征,同时省略其具体的测量值,其原则是这些测量值必须以某种数量存在,但可以以任何数量存在。概念是对两个或多个具有相同区分特征(省略其具体测量值)的单位在心理上的整合。”

换句话说,我们基于相似性来形成概念(如前一部分所述)。请注意,要确立相似性,必须依赖比较,而非其他类型的计算。

我曾声称,相似性具有误导性。举个例子,考虑“哺乳动物”这一类别及其代表——鲸鱼、长颈鹿和蝙蝠。我们在这里谈论的是相似性吗?再考虑另一个例子:一位有才华的艺术家拿一张一美元纸币,画出一张完全相同的复制品。这种相似性是否使这张“新美元”成为有效的交换媒介?但相似性和概念的原子性还存在更严重的问题。

分类

考虑“样例理论”或“原型理论”。它们通过将被考察对象与某一类别的样例或原型之间的相似性来解释分类。这些理论听起来自然吗?确实自然。它们在计算上合理吗?并不合理。

首先,回顾上文关于哺乳动物和美元的例子。为了比较“相似性”,需要考虑哪些特征?这两种理论都没有明确的规则来确定这一点。但即便如此,这个问题的重要性仍不及下一个问题。

如果一个待识别的对象只需与某一类别的样例进行比较,以决定其是否属于该类别,而我们已知一百万个类别,那么有没有办法避免将该对象与所有这些类别逐一比较(基于某些无人知晓具体是哪些、有多少的特征)?这两种理论同样没有明确的解决方案。

如果给出一个对象,有人能合理地声称,他们在头脑中会将该对象与“民主”、“邪恶”、“通货膨胀”、“星系”、“质子”、“平方根”、“语法结构”以及其他众多类别进行比较吗?还是说,他们会立即排除整棵类别子树,而不去逐一考虑?我们还能继续依赖相似性吗?我们还能继续认为概念是原子性的吗?抑或它们在某种程度上是相互关联的?

定义类别与定义

思考一下二分搜索算法 [44]。如果我们知道一个秘密数字大于 50,是什么使我们能够排除猜测所有小于 50 的数字?在这种情况下,这些数字是“可互换的”,因为它们都共享“小于 50”这一属性。而“大于 50”的数字则与它们相关——更准确地说,它们都与边界值“50”相关。再思考二分搜索的性能:它具有对数时间复杂度,从现实角度看,这是面向真实世界智能所能达到的最佳复杂度。

在物体识别中,我们有一个与二分搜索类似的例子——“20 个问题”游戏。请注意其中的差异:在每一层,我们都使用不同的特征来划分剩余的可能类别集合。我们可以将该游戏所使用的算法称为“语义二分搜索”,因为它依赖于特征的语义。

我将在稍后讨论“20 个问题”游戏及其对认知科学的启示。目前,请注意以下几点:

  • 类别是通过与其他类别的“差异”来定义的,而非通过符合该类别的对象之间的“相似性”;
  • 类别仅基于符合对象特征的一个子集;
  • 如果将特征视为维度,对象视为多维实体,那么分类就是一种降维操作。

关系、构型、参照点

为了理解多组分系统,我们需要考虑两个对象之间的关系。如果你需要存储关于这种关系的信息,你会把它存放在哪里?这些信息是否归属于其中任何一个对象?它是否仅依赖于该对象本身?我认为并非如此。因此,为了存储关于关系的信息,我们需要引入第三个对象——即由这两个对象及其关系共同构成的“构型”。请注意,关系对于理解该构型至关重要。试比较“一匹马骑着一位宇航员”与“一位宇航员骑着一匹马”,或“一只猫在垫子上”与“一块垫子在猫身上”之间的区别。我们甚至可以进一步主张:相比构型中的任何单一组成部分,关系更有可能成为定义该构型的决定性特征。

让我们回到这两个对象。再次思考它们之间的关系:我们应当用这两个对象本身来表达这种关系,还是应当用它们各自与“构型”的关系来表达?再考虑一个参照点。我们可以相对于上述两个对象中的任意一个,或相对于整个构型来表达该参照点。为什么这个选择很重要?想象一个包含大量组成部分的构型:我们是应该存储每一对对象之间的关系,还是存储每个对象与构型参照点之间的关系?从效率角度出发,后者显然更优。此外,构型的参照点甚至可能与其中一个组成部分重合。

关于“关系”,需要理解的关键是:其本质是抽象的,但我们却能轻松对其进行比较。而关系作为某些复杂类别可能的定义特征,意味着大多数此类类别至少部分是抽象的。

20 个问题

智力会留下关于其机制的线索,“20 个问题”游戏就是其中之一。我认为这个游戏对认知科学家而言最为重要。它曾深深吸引查尔斯·桑德斯·皮尔士 [45],但他因过于专注于严格的逻辑,而未能充分发掘该游戏的全部潜力。我相信,智力并不依赖于严格的逻辑。艾伦·纽厄尔 [46] 曾声称:“你无法通过向自然提 20 个问题来获胜。”而我则主张,我们确实在玩这个游戏,并且确实能赢。

给定一个未知对象,我们的目标是对其进行分类。游戏通过提出“是/否”问题、构建一棵二叉树来进行。请注意,在每一层级,问题都依赖于该对象的一个新属性,而这个属性又依赖于之前的答案。这种对属性的使用使整个过程成为一种“语义二分搜索”。

在每一层级,我们对提问内容有一定自由度,但也必须遵循一些关键原则:我们希望“是”与“否”之间有清晰、明确的界限;我们希望剩余类别能被大致均分为两部分。

第一个问题通常是:“它是有形的吗?”回答会给出一个类别:“否”——“抽象”;“是”——“有形”。请注意第一个启示:我们对“有形”现象的分类,并非基于其各个实例之间的相似性,而是基于它与其兄弟类别“抽象”之间的差异。“有形”或“无形”或许可被看作一种“相似性”,但理解的关键在于将其视为“差异”。

现在谈谈性能。回想“样例理论”,它通过将未知对象与每个类别存储的样例进行相似性比较来解释分类。你或许也记得福多关于原子概念的观点。假设你了解 100 万个类别。如果每个类别都是原子性的,并由其实例的相似性定义,那么识别过程的时间复杂度将是 O(N),需要进行 100 万次比较,每次比较涉及多个属性,并最终选择得分最高的类别。但如果一个类别是通过与其兄弟类别的“差异”来定义的(如“20 个问题”游戏所示),那么识别的时间复杂度将为 O(log N),最多只需 20 次比较,每次仅涉及一个属性,且无需在最后选择胜出者。

再思考“原子概念”。苹果不同于桃子、不同于水果、不同于锤子、不同于星系、不同于民主。但看起来,“差异”本身也存在层级差异。概念不可能相互独立。就概念而言,一切认知都通过比较实现。因此,概念不应被孤立看待,而应始终结合其父类别、定义特征及其兄弟类别一起考虑。

智力会留下线索。请注意词典如何定义词语——C 是 P,但具有 D(概念是父类,但带有区别于落入兄弟类别的其他父类实例的差异)。事实上,可能存在多个兄弟类别——并非只有“红色”和“非红色”颜色。考虑这一点后,该过程将不再是严格的二元划分,反而更加高效。

以下是戈德斯通、克尔斯滕和卡瓦略 [76] 的一段引文:“将概念视为由规则、原型、样例集合或类别边界所表征的风险之一,是人们很容易想象一个概念独立于其他概念。例如,人们可以列出属于‘鸟’这一概念的样例,或描述其核心趋势,而无需借助任何其他概念。然而,很可能我们所有的概念都嵌入在一个网络中,每个概念的意义都依赖于其他概念,以及感知过程和语言标签。正确的分析层次可能不是如许多研究者所假设的单个概念,而是概念系统。概念与感知之间的联系,以及概念与语言之间的联系,揭示了概念的重要双重本质。概念既用于识别对象,也用于为词语意义提供基础。深入研究这种双重本质的细节,将极大促进我们理解人类思维何以既能具体化,又能符号化。”

“20 个问题”游戏构建了一个概念的特化/泛化树,展现了它们之间的相互依赖关系。

那么,什么是“类别”?这是一个关键问题。许多人认为类别代表对象,实则不然。任何类别都是由一组定义性特征(即“20 个问题”中的答案)所定义的,但这组特征并不能穷尽符合该类别对象的所有属性——还有许多其他特征。有些特征是直接的——我们可以就此对该类别进一步提问并细分;有些特征是间接的,例如,我们不能向“有形”询问“味道”,为此我们必须向下深入到“可食用”类别。

类别是一种过滤器,其基础是定义性特征,这些特征依赖于从“20 个问题”游戏顶层到该类别所在层级所提出的问题。它是符合该类别对象特征的一个子集。

从属性角度看,对象是多维的。但请注意,识别过程仅使用这些属性中的一个子集。因此,识别是一种降维操作。行为也仅影响属性的一个子集(例如,“重命名”仅影响“名称”属性,而不影响“重量”属性)——这是降维的另一个例子。语言指称同样在降低维度。降维操作,结合语义二分搜索,使认知功能得以高效运行。

“20 个问题”游戏依赖于特化过程——通过引入差异并沿树向下移动。例如,它将“水果”类别细分为多个子类,如“苹果”、“桃子”等。当我们考虑“苹果”和“桃子”并决定忽略它们之间的差异时,会发生什么?我们会将其泛化为“水果”类别。再考虑“家具”类别,我们可依据“功能”属性、或“材质”属性、或“颜色”属性对其进行细分。通过选择忽略哪些属性上的差异,我们可以实现不同的泛化方式。

现在考虑该游戏的通用算法:它从一组可能的类别开始,根据给定对象的属性(该游戏可适配于行为或任何值得分类的事物)逐步过滤该集合,最终在期望的层级停止。我们可以将此算法泛化到任何认知功能或任务上。由于实时性限制,我们只需考虑当前可用的选项。如果这些限制放宽,可通过搬运、制造、购买或创造额外选项来扩展选项集合。

给定这样一棵树(我们可向上遍历实现泛化,向下遍历实现特化),我们可以在每个类别层级添加规则,并在子类别层级添加例外。

我们可以将行为的输入参数与其结果以“范围”的形式进行映射。结果的差异将定义输入参数的范围边界。智力会留下线索——科学实验的基本规则要求:每次只改变一个参数,保持其他参数不变,并观察结果。

在我看来,人们对“general”(通用/泛化)一词存在混淆。当我们谈论“通用智能”(general intelligence)——即能够解决任何任务或习得任何技能的智能时,我们实际上指的是能够“特化”或“引入差异”的智能。而当我们谈论“泛化”(generalization)时,我们实际上指的是“忽略差异”或“遗忘差异”。我建议我们对“general”一词的使用进行特化(更精确地区分语境)。

“20 个问题”游戏真是令人惊叹!如果你是一位认知科学家,请不要重蹈 C.S. 皮尔士和 A. 纽厄尔的覆辙。

因果性

因果科学的先驱珀尔(Pearl)[47] 提出了三个分析层级:关联(Association)、干预(Intervention)和反事实(Counterfactual)。它们大致对应智能所提出的关键问题:“它是否造成差异?”、“它造成什么差异?”以及“如果……会怎样?”遗憾的是,该书主要依赖统计方法。我建议思考“20 个问题”游戏能教给我们关于因果性的哪些内容。

该游戏不仅可用于分类。事实上,使用该游戏的树状结构来分析因果关系,能为理解概念及其边界提供更坚实的基础。

我想从“智力”的反面——“疯狂”(insanity)的定义开始这场讨论:“疯狂就是一遍又一遍地做同样的事,却期待不同的结果。”这句话常被归于爱因斯坦。请注意其中对“比较”的依赖,这体现在“相同”和“不同”这两个词上。再回想科学实验是如何进行的:除一个参数外,其他所有参数均保持不变,然后观察行为的结果。这使我们不仅能判断是否存在依赖关系,还能了解该依赖关系的具体特征。

我建议将“可比属性”视为维度。进一步,我建议将这些维度划分为“范围”。点状精确测量无法实现可互换性,而范围可以。此外,范围的数量可以是有限的,而即使在有限的线段上,点的数量也是无限的。当我们讨论认知的核心算法时,我会展示这一点为何重要。

如果某个结果与某一属性相关,我们可以通过判断行为结果是否落入不同范围,来判断这些结果是否“不同”。接着,我们可以将不同结果范围映射到不同的输入参数范围。更进一步,我们可以像“20 个问题”游戏那样构建一棵树,根据不同的输入参数及其范围,将结果属性划分为多个范围。在构建这棵树的过程中,输入参数的范围将取决于结果的范围。从某种意义上说,结果中的“例外”决定了输入参数范围的边界。在使用该树时,我们将能够根据所应用的输入参数范围预测结果。

请参考《斯坦福哲学百科全书》“模糊性”条目 [48] 中的一段引文:“在没有感知到决策需求的地方,标准就保持未发展状态。”上文我们已阐明标准是如何发展的,以及其实际需求是什么。

请注意,行为本身也是一种降维过程。对于任何对象的多个维度(属性),任何行为仅影响其中的一个子集。一方面,这可用于实现更高效的计算;另一方面,它也为我们提供了明确的标准,用以判断哪些行为与影响某一属性相关。然而,我们也需要在这方面保留一定的灵活性。例如,在遭遇狮子攻击时,人的目标显然是“安全”,但可通过多种可能的行为实现,每种行为路径不同,比如:与狮子搏斗、逃跑、躲藏、吓唬狮子、用食物喂狮子、抚摸狮子等。

因果性还与哲学中的另一个概念相关——“知道如何做”(knowledge-how)[49]。我们需要一种方式来表征我们对因果性的知识。存储每个属性及其范围(数量有限)的信息是容易的。接着,我们用“行为箭头”连接这些范围。我们将这些依赖关系分层组织。再次回想“20 个问题”游戏中的特化/泛化树:在任何层级,我们可以引入一条规则;在任何下层,我们可以处理例外情况。这是一种高效组织“知道如何做”知识的方式。

关于行为,我们还需要讨论前提条件、约束和机会。某些行为存在前提条件,例如,“放置屋顶”前必须“建造墙壁”。约束影响行为对结果的作用方式。例如,如果我们想从 A 点到达 B 点,但中间有山脉、河流或峡谷,最佳路径可能并非直线。机会可以在无需我们额外努力的情况下加速我们向目标的进展。例如,如果山中有一条隧道,且有一列火车正朝我们需要的方向穿过隧道,我们便可搭乘该火车更快到达 B 点。在这种情况下,支付车费所需的金钱是另一种“机会”。

最后,让我们谈谈强化学习。上述“知道如何做”的知识组织方式,使我们能够预测行为的结果,或选择行为以尽可能接近目标。从某种意义上说,这种“达成目标”的潜力已内嵌于我们的知识之中。因此,无需额外计算“奖励”。

新颖性

我们也可以简要讨论一下“开放性”与“新颖性”[50-51]。在科学探索中,我们希望建立所有行为的输入参数与其结果之间的映射关系,从而在任何情境下都能拥有可靠的行为方案。如果我们已经知道某种参数组合将如何影响某行为的结果,那么该情境对我们而言就是“已知的”。如果我们缺乏此类知识,则视该情境为“新的”。新颖性的程度可以有所不同:如果我们知道绿茶的味道,但从未尝过一种新调配的绿茶,那将是一种略微新颖的体验;换成红茶,新颖性会更高;而换成咖啡,则新颖性更高。如果我们知道如何在窄河上建桥,而现在需要在宽河上建桥,这将是一个新颖的挑战;但如果还需考虑共振效应,新颖性则会进一步增加。

请注意,真正遭遇完全新颖、开放性的情境是困难的。原因在于,在某个时间点,我们已经积累了大量关于各个属性及其影响方式的信息。虽然不同属性组合可能存在细微差别,但在大多数情况下,我们总会对“该做什么”有一些初步想法。如果我们观察到例外情况,我们也知道如何更新自己的知识。

关于新颖性与开放性,我唯一好的建议是:让信息对所有人开放并易于检索,以缩小“对个人而言新颖”与“对全人类而言新颖”之间的差距。

填补我们知识的空白是终极的奖励,因为它使我们在未来与世界的互动中获得确定性。我们的好奇心之所以被情绪所强化,是有原因的——探索模式至关重要,它为后续的利用模式做好准备。

第三部分 智力的核心算法

表征

上文我们讨论了独特对象与可互换对象、定义性特征、概念的有限描述性、规则与例外。你可能还记得我对“符号操作”的怀疑态度。在此,我们可以进一步探讨所有这些内容如何与“表征”相关。

在关于表征的讨论中,语境(context)常常被忽略。我想补充的是,语境常被误解为仅指“文本”。让我澄清一下我对语境的看法。

语境属于对象的领域。让我从外部物理世界的情况开始举例:比如一个公园。如果我和朋友在公园里散步,树木、长椅、植物、其他人和动物,都是语境的一部分。如果我想表征任何一个对象,我首先需要表征该语境,然后将该对象与语境关联起来。这呼应了我们之前关于“关系”与“构型”的讨论。请注意,表征是依赖语境的——同一表征在不同语境中可能指向不同对象。但在同一语境内,我们也可以用不同的表征指向同一个对象。

从某种意义上说,语言指称反映了表征。当我们表征语境时,我们只提及相关的部分;当我们表征任何对象时,我们只提及与其相关的属性。但请注意,为某一目的而相关的属性,可能与用于表征的属性不同。例如,如果我们正在观看一群赛跑的孩子,我们不会关注他们衬衫的颜色;但若要将其中一个孩子从语境中区分出来,颜色这一参数可能很有用。

“穿红衬衫的孩子”很难通过“符号操作”转化为“跑得最快的那个”。首先,逻辑无法容忍例外;其次,它也无法处理包含“某些”这类量词的陈述。自然语言依赖于嵌入在概念中的不完整知识,将这些知识堆叠起来以从语境中过滤出相关部分。智力也做同样的事——追踪与目的相关的属性。这种过滤过程依赖于比较,是认知核心算法的基础。

让我们继续讨论语境——这次是在我们的记忆中。假如第二天,我和朋友讨论我们在公园散步时发生的事件,我会在记忆中搜索那些对象以及所有与之相关的信息。请注意,我搜索的不是“符号”,符号仅用于指代我所选定的对象。

如果我与朋友讨论未来关于公园的计划,我会想象一些对象和事件,并使用符号来详细描述它们,以便朋友能大致想象出相同的画面。请注意,由于概念和符号的有限性,我传递的只是足以触发朋友基于其自身记忆中类似对象和事件进行想象的信息。

使用不完整符号的交流,依赖于交流双方的认知能力以及针对当前语境的过滤过程。如果对方可以直接观察语境,我就不需要提供语境,只需提供一个过滤器,帮助对方筛选出相关对象。例如,“请坐”这句话并未编码椅子的位置,但任何人都可以根据自己对当前语境的分析完成这一请求。

在数学定理或游戏等非常有限的语境中,所涉及的对象范围有限,从而制造出符号与其所指对象之间直接对应的错觉。但如果国际象棋中两位玩家的“马”都能移动到某个特定格子,记谱法就要求明确指出相关马的起始位置。如果一个公式中包含两个平方根符号,要指代其中一个,至少还需要一个额外的过滤符号,例如“该公式中的最后一个平方根”。

一个有趣的语境例子是,当我们分析文本本身,而非文本所描述的内容时。例如,谜语:“有时有九个字母,但通常只有五个。”确实,“sometimes”有九个字母,“often”有五个字母。此时,我们将词语视为具有自身属性(如字母数量、在句子中的位置等)的对象。

当我们讨论文本的语境时,我们想的不是词语本身,而是这些词语所描述的对象和事件。正因如此,我们可以用不同的词语重述同一文本——除非那是一首诗,此时我们会受到额外约束,但我们仍可用不同词语转述这首诗,并说明原诗听起来更优美。

我们并不操作符号,我们操作的是对象。我们仅使用符号来指代对象,并描述对它们或整体构型所施加的变换。我们的推理是多维的,但我们会进行降维操作,以报告结果。逻辑过于僵化,无法描述这一切。而自然语言,依靠交流双方智力中的过滤机制,具有完美的灵活性,足以反映上述所有内容。

记忆

我们的记忆是不完美的。艾肯鲍姆与科恩(Eichenbaum and Cohen)[52] 有一句精彩的引言:“当一段记忆被提取时,其所有碎片被重新组合起来,却极少与最初经历完全相同。”

我已提到过概念的定义性特征,它们用于识别和分类。然而,不同的行为会从不同角度“观察”对象,将对象的多维属性降维为不同的子集。这使得那些额外属性变得相关——即使它们对识别而言并非必要。根据赫拉克利特的观点,“那些并不是同一个对象”,但出于实际目的,追踪对象仍然至关重要。因此,我们需要追踪足够数量的属性,以确保能识别出“同一对象”。属性在不同目的下的相关性,使其值得被记住。但有时我们可能并不知道哪些属性是相关的,在这种情况下,我们可以先存储冗余属性,之后再过滤掉无关部分。这一切使记忆成为我们认知中一个复杂的模块,尤其是在实时约束下,还需要实现有意义且高效的检索。

需要存储的信息量巨大且种类繁多,这使得任何类似数组的数据结构(具有常数时间复杂度的检索)都不可能适用。下一个候选方案是树状结构,其检索复杂度为对数级别——只要我们使用额外技巧限制选项数量,这仍然是合理的。而这正是通过使用“可比属性的范围”以及受“20个问题”游戏启发的树结构所能实现的。

快速查找由树结构和键值(keys)实现。此外,我们还需要一些标识符(identifiers),用于追踪特定事件或熟悉对象。有时我们可能认为自己观察到的是两个不同对象,比如著名的“晨星”与“昏星”案例。但当我们意识到(或被告知)它们其实是同一个天体——金星时,我们会将关于它们的所有观察合并到同一个“文件夹”下,共用一个ID,甚至可能添加一个如“又名”的属性。

键值与标识符的结构值得进一步研究。我们或许能从当前技术中获得灵感:当我们用智能手机拍摄照片或视频时,会同时存储时间戳和地理标签。保存事件及其涉及对象的时间和位置信息似乎非常重要。在神经科学中,我们在哪里遇到与记忆相关的时间和位置追踪机制?你是否立刻想到了海马体 [53]?这块脑组织是否可能负责分配ID?这一假设值得进一步探究。

情绪也是构成键值的另一个因素,它们可以突显所观察现象的相关性。费曼 [54] 的这句话:“以最无拘无束、最不敬传统、最具原创性的方式,深入钻研你最感兴趣的事物”,或许正可由情绪在形成更好记忆中的作用来解释。

基于上述理解,现在让我们观察认知科学家关于记忆运作方式的若干发现:

首因效应与近因效应 [55]:当我们被展示一个词语列表时,更容易回忆起开头或结尾的词语。实验过程中情境未变,因此时间和位置键几乎相同,我们将观察到的词语存放在同一“位置”,后续词语会覆盖先前内容,从而解释了近因效应;而实验开始时可能引发兴奋,因此第一个词语的记忆受益于情绪键。

研究表明,外向者 [56] 相较内向者拥有更好的记忆力。由于外向者更关注外部因素,他们自然拥有更多用于存储信息的键值。

研究还表明,内部复述 [57] 能提升记忆效果。当我们观察一个场景时,并非每个细节都值得记忆。但如果我们分离出某个细节并口头描述其某些方面,大脑可能会意识到我们认为这些方面相关且值得存储。

间隔效应 [58] 指相比单次长时间学习,分多次学习效率更高。每次学习都有独立的一组键值,键值越多,记忆越牢固。

启动效应 [59] 可能与“最近使用”键有关,类似于编程中的缓存概念。

鉴于键值依赖于“可比属性范围之间的边界”,而非点状精确测量,还可解释另一现象:词语如何影响记忆提取[60]。如果我们存储的是范围而非精确点值,那么词语确实可能影响我们“回忆”该范围的上限或下限。然而,我们很难预期会回忆出完全不同的范围,这也解释了误报差异为何是适度的——它可能反映了我们范围的宽度。

同样的机制也可解释,以这种方式组织的记忆天然支持泛化:从树中的任一概念出发,我们都可以向上遍历整棵树。

当我们尝试用多个键值检索某些信息,而信息确实在记忆中,但部分键值缺失时,会发生什么?我假设这可能表明这些键值并非本质关键。我们的记忆中存在一个专门遗忘此类键值的过程。斯莫尔(Small)在《遗忘:不记得的好处》[61] 一书中对此有所讨论。

最后,值得探讨的是记忆存储的位置。许多专家坚持认为大脑在存储记忆中起核心作用,但他们(无意双关)忘记了无脑智能体的存在——单细胞或原始多细胞生物、生物群体等。大脑之外最简单的记忆例子就是图书馆。更有趣的案例由 Tee 和 Taylor [62] 讨论。

目标 vs 保证

让我们重新审视 Levin 和 Resnik [63] 提到的一个智力定义:“我们遵循威廉·詹姆斯的观点,将智力定义为通过不同手段实现目标的能力。”

我之前已提及与“目标相关”的智力定义存在的一些问题。现在,让我讨论“保证”这一方面。我们很容易提出一些不可能实现的目标,但这并不能说明那些未能实现这些目标的人缺乏智力。我建议将智力限定为“推动事态向目标方向进展”的能力,而不保证必须完全按计划实现目标,甚至不保证最终一定达成目标。正如日本谚语所说:“猴子也会从树上掉下来。”失败是可能的,部分达成目标也是可能的。而且,人也可能改变主意并转向其他方向。

智力在于尊重语境,并据此调整自身行为。我相信,至此我已充分铺垫了必要的语境,现在终于可以正式呈现智力的核心算法。

核心算法

它就是——在可用选项中,选择最符合当前情境、并尊重相关约束条件的那个选项。

我认为定义中“可用”(available)这个词非常重要,因为不可用的选项在实践中毫无意义,若允许考虑它们,只会浪费我们的计算资源。正如欧内斯特·海明威所说:“现在不是去想你没有的东西的时候,而是去想你能用现有的东西做些什么。”[64]

即使某个选项在理论上是最优的,它也可能因当前语境中的某个约束条件而被阻断。我们或许会谈论“次优选项”,但实际上,这种排序只有在没有障碍和成本的理想化世界中才可能成立,也才有意义。

在该定义中,我所说的“约束”也包括“机会”——它们的作用方式不同。

关于约束如何影响智能体行为的精彩讨论,可参见 Juarrero 的著作《语境改变一切:约束如何创造一致性》[65]。

我们需要对“选项”和“约束”都保持灵活性。例如,在“20个问题”游戏中,选项是已知的概念,约束是待分类对象的属性;在侦探故事中,选项是嫌疑人,约束是线索与不在场证明;在规划任务中,选项是影响目标属性的行为,约束是这些行为的前提条件。

Levin [66] 将生物电视为向细胞(作为智能体)发送信号或指令,告诉它们应构建什么。我建议将其视为一种长期持续的约束或“形状限制模具”,而非一次性信号。

在识别任务中,约束可能来自不同模态——“如果它看起来像鸭子,游起来像鸭子,叫起来也像鸭子。”约束也可能与原始感官输入相距甚远:你或许会同意,我们对“白宫”的感官信号,与我们意识到它所代表的权力之间,几乎毫无直接关联。

多维性与降维

让我们再次回顾“多维性”。将焦点从对象转移到“可比属性”,可以减少模型中“活动部件”的数量,但数量仍然庞大。通过引入诸如比较、行为、分类等降维操作,我们简化了计算过程。而通过在各维度轴上使用“范围”而非“点值”,我们不仅简化了计算,还使其在实时约束下具备了计算可行性。

存在多种可能的搜索模式。给定键值(keys),我们可以直接遍历已知解决方案的树结构。例如,Levin 和 Watson [67] 描述了如下案例:“它们随后再生出一个对钡不敏感的新头部(其速度之快,远非通过试错方式在可能的基因表达组合空间中搜索所能实现)。对原始头部与适应钡环境后头部的转录组进行比较,发现仅少数基因被诱导表达,以应对一种涡虫谱系在其进化史上很可能从未遭遇过的应激源。在数万个可能动作(特定基因的上调或下调)的空间中,细胞迅速识别并部署了那些能够解决这一全新生理应激源的转录效应因子,显示出其能在转录空间与生理空间之间建立映射关系,并优化全新解决方案的能力。这表明该过程并非试错(当然更非进化时间尺度上的试错),也不太可能是从过往经验中调取并回忆的‘预制方案’。相反,所显示的是一种有依据的问题解决过程,能主动识别出为适应这一新应激源所需的基因活性变化。”

请注意,这一智能决策并非由大脑做出,也非针对传统三维空间中的行为,而是由某种其他形式的智能决定激活哪些基因以应对该情境。该过程的速度之快,以及多个涡虫个体均得出相同解决方案的事实,表明这很可能是一个对已知解决方案树的直接遍历案例。因此,我们或许可以质疑所谓“全新应激源”的说法,转而支持“预制方案”的观点。

更具挑战性的是对真正全新情境的解释搜索。例如,当人们观察到桥梁因节奏性应力(如士兵齐步走或风)而坍塌时 [68],面对这一观察到的“例外”,我们引入一个新因素,并开始学习其影响,以获得更深入的理解。

最具挑战性的则是终极全新情境的案例。在富兰克林 [69] 之前,无人认为闪电与雷声之间存在关联。这需要寻找相似现象以获得有益的隐喻,或依赖天才的洞察力。此类搜索可能依赖于追踪相似属性的路径(这或许是相似性偶尔有用的一个罕见案例),或依赖于二阶属性(树木通过“增高”生长,通货膨胀通过“数值增加”增长,“增加”这一相似性使“生长”一词可用于后者)。这一过程缓慢,通常在潜意识中进行。

将焦点从对象和行为转移到“可比属性”,不仅加速了科学与我们理解的进步,还提供了可靠工具以引导这一过程。

总体计算

让我们重新审视霍金斯 [21] 关于“皮层柱是大脑计算单元”的观点。不同物种的皮层柱数量不同,这引发了一个问题:如果我们假设每个皮层柱处理一个独立属性,那么它们究竟追踪哪些属性?我们对属性及其相关性的层级化组织,或许能提示计算资源如何在众多需求间分配。生存需求提供了另一条线索。但在某一阶段,计算资源的供给可能已足够丰富,使物种能考虑诸如“换发型”或“刷 TikTok”等任务。究竟哪些属性被追踪,这一问题值得进一步研究。

错误

当我们追求某个目标却失败时——例如,我们瞄准一支箭却未击中靶心——我们通常会将其视为“错误”、“失误”或“失败”。这是一种错误的(双关语:pun intended)思维方式。上述框架表明,我们真正追求的是行为的可靠“配方”。有时我们的目标是击中靶心,但某一天目标也可能是故意射偏。将结果简单划分为“成功/失败”是错误的。我建议关注“树结构的构建”以及“输入到输出的映射关系”。知道如何达成任何结果,或了解任何行为(输入组合)将导向何处,才是真正有价值的知识。

与此相关的是,当我们需要重复执行同一行为多次时,我们的行为模式如何?一方面,这应该很简单——相同的键值提示我们重复相同动作;另一方面,我们几乎无法在不轻微调整某些参数的情况下完全重复同一动作。如果我们得不到“为何需要重复”的解释,我们甚至可能感到烦躁。这是否因为大脑更偏好“探索模式”而非“利用模式”?

直觉、洞察力、仪式

人工智能可能并不存在明显的“意识”与“潜意识”思维之分。请将本节内容视为“仅适用于人类”。

进化已使我们高度适应实时决策。这意味着,在某一时刻,我们积累了足够的知识,使潜意识能够在任何情境下快速做出或多或少有意义的决策。如果我们对直觉给出的建议不满意,我们可能会感到怀疑和犹豫不决。我们的第一反应往往是“思考”,试图寻找更好的解决方案。基于本文提出的理论,我建议另一种方法:不要“思考”,而是观察当前语境,寻找额外的机会与约束条件。尝试在不主动调用意识的情况下完成这一过程。潜意识拥有更多的计算资源,并能考虑更多因素——请相信它。

然而,这种信任也有其反面。在某个不熟悉、知识存在大量空白的领域,直觉可能是一个糟糕的助手。这一点尤其体现在接受他人建议时。这或许正是某些技巧(如苏格拉底式提问法)之所以有效的原因——它们能绕过意识与潜意识的抵抗。

这并非唯一一个需要“转移意识注意力”才能实现流畅表现的领域。已有观察表明,当人们将注意力集中在诸如“走路”[71] 这类活动上时,反而可能降低其效率。在射击运动中 [72],已有报告称“仪式行为”能提高表现效率。我假设,这些仪式的作用在于转移意识的控制,让更强大的潜意识接管行为控制。重要的是,在训练过程中,这些仪式也应被使用并实现自动化,以便潜意识在竞争压力下仍能收集足够信息,从而良好发挥。

类似的方法也被建议用于产生创意 [73]:首先,必须让大脑充分吸收与问题及可能解决方案相关的背景信息;然后,必须主动停止有意识地思考该问题,转而从事其他活动。潜意识将需要时间处理,一旦解决方案准备就绪,它会自动“浮现”到你的脑海中。

所有这些建议都与本理论相容。而对底层机制的更好理解,将进一步增强这些建议的有效性。

终极知识或理解

桥梁与共振的例子表明,我们可能对自己的知识感到满意,直到发现其中存在某些空白。请思考赫胥黎 [74] 的这句话:“人类通过一连串的错误,逐步接近那不可企及的真理。”我们所能做的,只是不断寻找更优的解释和理论,只要它们足以满足我们的实际需求即可。牛顿定律或许并不精确,但对于大多数实际问题而言,它们已足够好用且计算简便。

只有当我们进入那些误差变得至关重要的领域——例如太空旅行或高速物理——我们才会转向更优的理论,比如爱因斯坦的理论。

知识迁移

为了与世界进行有意义的互动,任何智能体都需要三个基本模块:感知(收集信号)、智能(处理信号)和执行(产生动作)。自然界提供了大量关于这些模块不同实现方式的实例。其中一些实现方式会从其他实例中汲取灵感,但所有实现都充分利用了自身的独特优势。

目前,在机器人领域,我们观察到一种趋势,即让机器人越来越像人类。然而,自然界中的动物是根据其独特生态位的需求、环境压力和竞争关系而进化的。因此,鲨鱼游泳比人类快,猎豹奔跑比人类快,鸟类能够飞翔,鼹鼠可在地下穿行,蚂蚁能搬运自身体重十倍的物体。但人类登上了月球——这并非因为他们行走或外貌的方式,而是因为其智能。动物的外形和运动方式各不相同,但我们钦佩它们的效率。我想提出的是:应为机器人寻找适合其发挥的特定生态位,并根据这些生态位量身定制机器人。一旦机器人在某个时刻具备了智能,它们或许也能参与到这一过程中。

如果机器人的膝盖弯曲方式与人类不同,那么它们最高效的行走方式是否仍应模仿人类?如果机器人抓起一杯热茶,它是否应该像人类那样松手并甩动手臂?我们没有必要将机器人拟人化,真正需要的是拓展我们的知识。不同的需求应优先考虑不同的工程方法。

定义与实现

现在,让我们重新审视“智力”的定义。我将其定义为处理差异的能力。这一定义立即暗示了“比较”、“可比属性”以及“基于比较的选择”的使用。它建议我们通过这些核心组件的视角来审视其他认知功能。我已提及其中一些功能,现在再考虑一个额外的例子。

让我们来解决从图片中破解密码的任务。首先,我们定义自己的选项:我建议为密码锁的每一位数字分别准备三组数字,每组包含0到9共10个数字。接着,我们将分析所提供的提示:

从第一条和第二条提示可以推断,数字6不在密码中。结合这一事实与第三条提示,可推断数字2和0存在于密码中。再结合这一事实与第一条提示,可推断2位于第三位,而8不在密码中。接着,结合这一事实与第三条提示,可推断0位于第一位。再根据0在第一位、2在第三位、6不在密码中,以及第二条提示,可推断第二位数字是4。

我们的推理过程依赖于相关约束条件和可用选项。在本任务中,最终仅存在一个可能答案。但在现实生活中,即使处理完所有相关约束后,仍可能存在多个符合要求的答案。在这种情况下,我们可以引入额外因素来进行选择,例如,考虑其他任务的需求。

那么,智力的“父类别”是什么?我建议将其归入“认知”(cognition)这一类别。它的“兄弟类别”是什么?是“感知”(perception)和“执行”(actuation)。它们之间的区别是什么?感知负责收集信号,智力负责处理这些信号;智力生成指令,执行负责实施这些指令。

根据文献 [1],我需要回答:智力能否从外部被检测到?检测方法是直接的还是间接的?在我当前的研究阶段,我只能提出间接的检测方法——即依赖于智能体对外部刺激所表现出的行为反应:它是否因不同刺激而发生变化?我们能否观察到它对相同刺激的不同反应,从而反映出其内部状态/记忆的影响?

这种检测方法会失败吗?会。对于智能体而言,这种可能性始终存在。“我并不害怕能通过图灵测试的机器,我害怕的是那种会故意不通过图灵测试的机器。”

认识论

《斯坦福哲学百科全书》“认识论”条目 [75] 中提及“对象”的次数是提及“属性”的十倍之多。安·兰德也遵循这一模式。这反映了当前认识论研究主要聚焦于对象与行为。我建议将焦点从对象转向“可比属性”。这一转变或可推动认知科学的进步,深化我们对认知的理解,并帮助我们开发新算法,以协助我们完成各种任务。

结论

我提供了若干支持性论据:将“比较”视为认知计算的核心,将“基于比较的选择”视为认知的核心算法,将“可比属性”视为我们理解世界和与世界互动的基本单元,将“可比属性的范围”视为概念与类别的基础。我还主张,“20个问题”游戏是认知多个方面的关键例证,如特化、泛化、分类、表征、“知道如何做”、核心算法等。

单独来看,每一个论据——例如“intelligence”一词的词源——或许不足以充分证实我的假说,但综合起来,它们能可靠地支持这一理论。在此,我呼吁认知科学界考虑将这些思想纳入其研究工具箱中。

原文链接:https://papers.ssrn.com/sol3/papers.cfm?abstract_id=5381816

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-09-23,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 CreateAMind 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档