通过实际信息增益量化不完美认知

CreateAMind

发布于 2026-03-11 19:30:13

400

文章被收录于专栏：CreateAMindCreateAMind

通过实际信息增益量化不完美认知

Quantifying Imperfect Cognition Via Achieved Information Gain

https://onlinelibrary.wiley.com/doi/pdf/10.1002/andp.202500057

认知，即以推理、通信和记忆形式进行的信息处理，是任何智能的核心活动。其在大脑、计算机或任何其他智能系统中的物理实现需要资源，如时间、能量、记忆、带宽、金钱及其他资源。由于资源有限，许多现实世界中的智能系统仅执行不完美的认知。为了理解现有系统（例如在生物学中）中准确性与资源投入之间的权衡，以及为了信息处理系统（如计算机算法和人工神经网络）的资源感知优化设计，对不完美的认知操作中获得的信息进行量化是可取的。为此，提出了信念更新的实际信息增益（AIG）概念，其由从初始知识状态更新到理想状态所获得的信息量，减去从不完美状态到理想状态的变化将产生的信息量给出。AIG 具有许多用于量化不完美认知的理想性质。实际获得信息与理想可获得信息的比率衡量认知保真度，而 AIG 与必要认知努力的比率衡量认知效率。这项工作提供了 AIG 的公理化推导，将其与其他信息度量相关联，阐述了其在后验不准确性的常见场景中的应用，并讨论了认知效率对计算推理中可持续资源分配的影响。

引言 1.1. 信息度量 物理世界中的任何信息处理实体——简称认知系统——都必须在有限资源下运行。这对技术系统以及生物系统都成立，因此它们都需要在准确性和成本之间做出权衡。为了评估前者，需要任何信息处理操作所获得、丢失或传输的信息量的度量。我们这里考虑的基本认知操作包括信息传输、记忆和推理。

常用的信息量度量是熵，特别是相对熵。相对熵，又名 Kullback-Leibler 散度 [1]，根源于统计力学 [2] 和信息论 [3]，并且可以通过多种方式推导 [4–13]。它表征了从知识较少信息的初始状态改变为知识较多信息的状态所获得的信息量，或在反向改变中丢失的信息量。因此，它是理解、表征和设计信息处理系统的核心，因此可以在大量语境中找到。仅举几例：分配概率分布的最大熵原理 [14–18]，通过期望传播 [19] 和变分推断 [20–22] 的近似贝叶斯推理，信息几何 [23,24]，推断中的平均场近似 [25–29]，神经网络训练 [30]，特别是变分自编码器 [31–34]，最优编码 [35]，有损数据压缩 [36,37]，模型融合 [38]，基于互信息的因果推断 [39,40]，信息场论 [41]，主动学习和主动推断 [42–45]，生态学 [46]，以及计算心理学 [47,48]。尽管这份列表多种多样，但它远未完成。

相对熵作为认知更新中获得的信息量的度量的问题在于，它对更新是走向正确方向还是错误方向不敏感。对错误的事情变得非常确定会带来显著的正相对熵，尽管它本应更与负信息相关联，因为撤销错误的更新将需要正量的信息才能恢复初始状态，而那没有信息增益。因此，更新后与初始知识状态之间的相对熵仅表征了表观信息增益，而不是真实的信息增益。真实的信息增益还应考虑有多少更新走向了正确的方向，以便能够区分纯粹表观的信息与实际信息。因此，它取决于三个信息状态：初始状态、最终状态和理想状态，见图 1。我们在本工作中主张，使用理想更新的相对熵减去剩余更新到理想信息状态的相对熵，作为实际信息增益（AIG）的度量，是量化不完美认知操作中获得的信息的一种非常好的方法。如果没有更新，AIG 为零；如果更新是理想的，则最大；当更新走向错误方向时，它变为负值。其单位是奈特（nits）或比特（bits），它有一个简单的直观解释：它提供了由于实际更新导致的惊喜减少的估计，是从理想知识状态的角度计算的。

AIG 衡量近似认知操作获得的信息量。因此，它允许将此类操作的认知保真度（CF）表征为实际信息增益与理想信息增益的比率，将其认知效率（CE）表征为 AIG 与投入资源（如时间、金钱、能量和环境足迹）的比率。

这里提出的 CE 定义似乎也与心理学和认知研究中使用的定义很好地一致：“认知效率（CE）通常定义为相对于知识获取中投入的时间和努力所获得的知识的质量增加”[49]。知识质量的提高表明，只有正确方向的知识才应计入 CE，这正是我们在 AIG 和 CE 定义中所做的。

AIG、CE 和 CF 应该具有重要的技术应用。它们可以指导决策，即在许多在保真度和计算成本方面不同的数据处理方法中选择哪种方法。由于数据分析的计算成本可能很大 [50]，较便宜的方法乍一看可能显得有利。然而，这些方法可能需要更大的数据集，才能提供与更昂贵但更高保真度方法可比的结果。由于后者意味着更少的测量成本，尽管它们的计算成本更大，但从全局角度来看，它们实际上可能更便宜。为了判断，需要为每种考虑的方法量化作为数据集大小函数的信息增益。AIG 的概念使这成为可能，而由此衍生的 CF 和 CE 概念可以为可持续计算决策提供有价值的定量指导。

1.2. 工作结构

本工作的结构如下：第 2 节陈述数学预备知识，在通信、推断和记忆的认知操作上发展 AIG，并在数学上定义 CF。第 4 节提供 AIG 的公理化推导，并表明在初始和更新后的知识状态均可分离的情况下，它成为一个可分离的量。第 3 节讨论 AIG 与其他信息度量的关系。第 5 节通过许多说明性案例说明了 AIG 的使用，如具有不准确参数的伯努利、二项、泊松和高斯分布的更新，平均场近似中参数间交叉相关的忽略，数据的不完全使用，并展示了如何为非高斯概率分布估计 AIG。第 6 节介绍基于 AIG 的 CE 的数学定义，并展示 CE 如何指导可持续数据分析。最后，第 7 节以简要总结和展望结束本工作。

信息增益

2.1. 数学预备知识

2.2. 信息传输

是一个类似相对熵的表达式，它涉及通信中所有三个相关的信念状态，即消息发送者 Alice 的状态，以及消息接收者 Bob 在消息传输前后的状态，分别为

。

2.3. 记忆

这种负增益的量正是记忆行为中丢失的信息量。一些旨在以压缩形式记忆信息的贝叶斯方案，其目标正是尽可能最小化这种损失。[37,53]

2.4. 推理

2.5. 认知保真度

为了表征 AIG，我们可以将通信、记忆和推理置于同等地位，并将它们都视为配置略有不同的信息处理操作。我们将它们统称为认知。

此外，我们可以将认知保真度定义为认知更新操作中 AIG 与理想信息增益的比率，

与其他度量的关系 AIG 与许多现有的信息度量相关，例如 Kullback-Leibler 散度、互信息、Rényi 散度，以及其他用于表征概率及其差异的评分规则。这些度量捕捉了概率分布的不同方面，因此可能适用于不同的目的，而这些目的可用于推导它们。[13] 在我们于第 4 节对 AIG 进行公理化推导之前，我们先讨论它与若干其他信息度量的关系。

3.1. Kullback-Leibler 散度

最著名的信息度量是 Kullback-Leibler (KL) 散度[1]，又名相对熵

3.2.交互信息

3.3. Rényi 散度

Rényi 散度或 alpha-散度[56]可以定义为

3.5. 信息几何

公理化推导

4.1. 公理

说明性示例

这是一个现实世界的应用示例，例如天气预报员 Alice 需要决定向受众更新改进后的天气预报有多重要。她所在电视台的政策是将任何传达的概率四舍五入到 10%。她需要决定是否发布的公告是第二天的降雨概率为 60%。这则新闻值得发布吗？

5.2. 二项分布

二项分布在重复伯努利医学实验的分析中起着核心作用，在这些实验中，一定数量的患者接受某种治疗或安慰剂，并在不同条件下统计各种效果（如治愈疾病或副作用）的发生情况。[60]

5.5. 多元高斯概率

一个特殊但非常相关的情况是，当所有涉及的概率均为多元高斯分布时，

5.8. 不完整的数据使用

不完美高斯更新的一个特例是那些仅使用了部分可用数据的情况。设

可持续数据分析 6.1. 认知效率 随着科学实验、观测站以及其数据分析所需的计算工作成本的增加，出现了这样一个问题：如何优化科学的认知效率，即每投入金钱和其他资源所获得的科学信息量。[50] 我们将认知效率定义为

为了使这一论点成立，需要仔细讨论认知效率的分子和分母。实际获得的信息增益可能并非更新的唯一收益，例如，它可能具有教育、文化、技术或政治维度。然而，在此我们要关注的是 AIG 的量。在估算成本时，是仅考虑更新的计算成本，还是将获取更新所用数据的成本也纳入成本预算，往往会产生显著差异。如果数据无论如何都是可用的，从而数据获取成本微乎其微，那么前者是一种适当的近似。如果获取数据需要专门的投资，则必须使用后者。从社会的角度来看，任何可持续性计算都应包含数据生成成本。

因此，从不同角度来看，认知效率存在显著差异。对于一位分析免费可用数据集的科学家来说，一种成本较低但认知保真度较低的方法可能更具吸引力，因为它可能会最大化其认知效率。然而，从社会的角度来看，应考虑生产数据的成本，这使得更准确但通常计算成本更高的方法从全局认知效率的角度来看是有益的，当然前提是更高的准确性是有益的。

在科学实践中，这种利益差距通常可以通过科学出版机制来弥合。这些机制通常要求，为了被同行评审期刊接受，对数据的重新分析与早期的分析相比，必须具有更高的认知保真度。

6.2. 可持续成本

为了从可持续性角度决定两种认知方法（例如“B”和“C”）中的哪一种应用于分析来自测量设备的数据，我们必须比较它们的收益和成本。由于实际信息增益（AIG）的收益未必随其大小线性增长，比较两种方法的最佳方式并非对两者使用相同的数据集，而是要求为每种方法提供大小适当的数据集，使得它们各自产生相同的（预期）实际信息增益。通过这种方式，它们的收益将是相同的，但它们的数据获取和处理成本将有所不同，而这些成本通常更容易量化。

因此，计算上更精确因而更昂贵的数据分析方法，可能比那些精度较低因而较便宜的方法更具可持续性，特别是在数据获取成本很高时。我们在第 5.8 节中的观察加强了这一论点，即实际信息增益（AIG）往往仅随数据集大小的对数增长。这意味着，认知保真度较低的方法 C 可能需要显著更大的数据集才能达到相同的 AIG。获取这个更大的数据集会消耗更多比例的昂贵设施时间

，从而恶化了这种计算成本低廉的方法的可持续性。

6.3. 说明性场景

这甚至可能涵盖方法 B 开发的人员成本，特别是如果它可以用于多次此类测量的情况。

7. 结论

7.1. 总结

量化不完美认知操作的需求——无论是生物的还是计算的，无论是通信、推理还是记忆——促使我们引入并公理化推导了实际信息增益（AIG）的概念，将其定义为最优可能增益减去不完美认知后的剩余增益。我们表明 AIG 具有表征不完美认知操作所需的许多性质，并使我们能够定义认知保真度和认知效率。此外，我们讨论了它与其他几种信息度量的关系，并展示了如何通过区分更新所达到的知识状态与理想达到的知识状态，将这些度量也转化为实际增益。

我们解析地考察了具有高斯和各种非高斯概率的说明性场景，并展示了在分布难解的情况下如何通过采样数值计算 AIG。我们表明，在更新均值存在未计入误差的情况下，鼓励采取扩大不确定性的做法，因为它可以将原本为负的 AIG 转为正值。对于某量的重复测量，数值实验表明，平均而言 AIG 随所获数据集大小的对数增长，但会被具有显著降低 AIG 的不幸数据序列片段所中断。表观信息增益对此类不幸的数据实现不敏感，因此可能具有误导性。

最后，我们说明了 AIG 如何被用来帮助决定大型研究设施昂贵数据的准确性与计算复杂度之间的权衡。在决定哪种计算方法更可持续时，AIG 的概念使我们能够确定，对于具有较低认知保真度的方法，设施需要被额外使用多长时间才能生成同样具有信息量的数据，从而设定了高保真度方法值得付出的尺度，尽管其潜在计算成本可能更高。

7.2. 展望

我们希望实际信息增益（AIG）的概念能在量化和理解技术、生物、心理及社会信息处理方面得到广泛应用。它应有助于设计认知高效的数据处理系统，例如用于处理由日益增多的科学、工业和私人传感器、探测器及望远镜所产生的、不断增长的数据流所带来的高能耗处理问题。[50] 它可以帮助理解塑造现有生物、心理或社会信息处理系统演化的权衡关系。而且，作为一种依赖于三个位置（初始位置、达到的位置和理想位置）的信息“距离”度量，AIG 为近似认知操作的几何特性提供了洞见，这在理解人工智能系统的操作等方面可能变得相关。

原文链接：https://onlinelibrary.wiley.com/doi/pdf/10.1002/andp.202500057

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2026-03-09，如有侵权请联系 cloudcommunity@tencent.com 删除

系统