进化独立的确定性解释模型 EVolutionary Independent DEtermiNistiC Explanation

CreateAMind

发布于 2026-03-11 17:04:57

350

文章被收录于专栏：CreateAMindCreateAMind

EVolutionary Independent DEtermiNistiC Explanation

进化独立的确定性解释模型

https://arxiv.org/pdf/2501.16357

摘要

深度神经网络（DNN）在医学和工程等领域的广泛应用要求我们理解其决策过程。当前的可解释性方法往往产生不一致的结果，并难以突出影响模型推理的关键信号。本文提出了一种新颖的方法——进化独立确定性解释理论 （Evolutionary Independent Deterministic Explanation, EVIDENCE ），这是一种基于数学形式化的、确定性的、与模型无关的方法，用于从黑盒模型中提取重要信号。

EVIDENCE 理论通过在多个不同数据集上的实证测试进行了验证，包括 COVID-19 音频诊断、帕金森病语音录音以及 George Tzanetakis 音乐分类数据集（GTZAN）。EVIDENCE 的实际应用包括提升医疗诊断的准确性以及增强音频信号分析能力。例如，在 COVID-19 用例中，将 EVIDENCE 过滤后的频谱图输入一个冻结的 50 层残差网络（ResNet50），相比基线模型，阳性病例的精确率提高了 32%，AUC 提高了 16%。在帕金森病分类任务中，EVIDENCE 实现了接近完美的精确率和灵敏度，宏观平均 F1 分数达到 0.997。在 GTZAN 数据集中，EVIDENCE 维持了高达 0.996 的 AUC，表明其在过滤相关特征以实现准确音乐流派分类方面的有效性。

在几乎所有评估指标上，EVIDENCE 均优于其他可解释人工智能（XAI）方法，如局部可解释模型无关解释（LIME）、Shapley 加法解释（SHAP）和梯度加权类激活映射（GradCAM）。这些结果表明，EVIDENCE 不仅提升了分类准确性，还提供了一种透明且可复现的解释机制，这对于提升 AI 系统在现实世界中的可信度和适用性至关重要。

关键词 ：可解释人工智能、EVIDENCE、GradCAM、LIME、SHAP

一、引言与相关工作

近几十年来，由于人工智能（AI）算法被广泛应用于各种实际任务中 [1]，人们对“可解释性”的需求迅速上升。事实上，在那些决策后果至关重要的领域，比如医疗行业 [2]，了解算法是如何做出某个特定决定的，或者它在输入中识别出哪些信息是有意义的，这一点至关重要。在这种情况下，专业人士（如医生、护士、科学家等）与机器之间的合作是必不可少的。

尽管某些算法在检测输入中微小但关键的细节方面可能比人类更具优势，但迄今为止，算法在新数据上的泛化能力几乎是一个不可抹去的问题。因此，专业人士必须不断检查机器在预测或分类信息时的表现，以避免错误的判断，最坏的情况下甚至可能导致临床假阴性结论。然而，他们的专业判断不应因算法建议而被降级，相反，这些判断应成为行动的主要依据，并辅以额外的信息支持。在这方面，AI 算法的角色就是在做出关键决策之前提供这种额外知识。完成这一任务有一个基本前提：真正有机会理解为什么得到了某个结果，以及哪些特征和细节对这个结果负有责任。这一过程将使专业人士（如医生等）能够在自己的结论与机器提供的附加信息一致或不一致时，验证这些信息的可靠性。

这就是可解释人工智能 （Explainable Artificial Intelligence, XAI）系统的作用所在。XAI 指的是其决策过程可以被人类透明理解的人工智能系统 [3]。当涉及重要后果时，信任这些决策就变得尤为重要。在当今社会，为某种选择（如医疗方案）提供理由的重要性已经超越了模型本身的客观准确性 [2]。对于像医生这样的专业人士来说，他们需要在这场与机器的信息交换中了解“为什么”，否则这将成为一种不平衡的被动执行关系。由于 AI 在无数领域快速发展的趋势，这一问题亟需关注 [4]。

此外，在任何没有“先验知识”的研究进展中，研究人员都面临双重无知：他们生活在一个对其所研究内容知之甚少或部分理解的空间里，同时也无法解释 AI 模型在该主题上的输出结果。例如在寻找新材料的研究领域，研究人员每次都必须测试 AI 输出的结果 [5]。即使 AI 判断正确，缺乏模型决策过程的透明性也会阻碍知识的进步，使人陷入对“为什么”的盲目状态。

除了最终决策仍需由专业人士负责外，在目前阶段也不能理所当然地信任 AI 模型。偏见可能潜伏其中并意外浮现。人类不能完全信任 AI 算法。一个最先进的图像分类 XAI 系统可能在识别物体时被训练为关注图像的边缘和纹理，然后使用注意力权重来识别对模型决策贡献最大的输入区域。这有助于判断是否有偏见在“幕后”起作用，导致模型聚焦于不相关或误导性的特征 [6]。潜在地，类似的情况也可能出现在 AI 应用的任何领域。此外，XAI 系统还可以作为一种强有力的工具，帮助人们从输入数据中发现宝贵的信息，揭示人类大脑难以察觉的隐藏关联，从而提升模型的准确性。

近年来，各种可解释人工智能（XAI）算法不断涌现，展现出多样化的研究方法、在识别关键数据方面的不同准确性，以及对输入特征相关性的多层次分析能力——无论是整体层面还是细粒度层面。这些技术提供了有价值的分析见解，但在其操作框架和依赖性方面存在显著差异，因此需要进行细致分类，以便全面理解它们的有效性和局限性。

对 XAI 算法的一个重要分类标准是其所依赖的具体 AI 模型架构。独立于模型的 XAI 方法 （如 SHAP），从理论上讲，并不依赖于特定的模型结构，而是试图在不考虑预测系统内部机制的情况下建立特征与输出之间的关联，尽管在实际实现中会对基于树的方法和深度学习模型做出区分。相比之下，依赖模型的 XAI 方法 （如 GradCAM）则与特定模型设计紧密相关。这类方法通过利用预测模型的结构和运行特性来追踪其决策路径。虽然这种依赖关系有助于获得有针对性的洞察，但也限制了它们在不同架构中的适用性。

尽管在如此短的时间内已有大量关于 XAI 方法的研究，但一个持续存在的挑战是非确定性问题。正如先前研究所指出的那样，像 LIME 这样的算法即使在完全相同的模型和数据集上重复执行时，也可能产生不一致的结果。此外，不同的算法对于相同输入往往给出相互矛盾的解释，尤其是在哪些模式或特征影响了模型的决策这一问题上，且这些结果容易受到超参数优化的影响 [60]。

现有的方法虽有价值，但各有权衡。基于扰动的方法（如 LIME）依赖于局部近似，常常导致多次运行之间结果波动较大；基于梯度的方法（如 GradCAM）则高度依赖特定架构，限制了其泛化能力；SHAP 虽然具有坚实的数学基础，但在高维场景下可能面临计算效率低下的问题。这些局限性突显了 EVIDENCE 所要填补的空白：确保输出的确定性，并提供跨架构和数据类型的广泛适用性。

这种不一致性进一步强调了我们对更可靠、更具确定性的 XAI 方法的需求，满足以下两个基本标准：

模型的解释必须是确定性的 ，即对于给定模型和输入，在多次运行中应保持一致的结果；
输出应仅包含对模型推理至关重要的特征 。

为了解决上述挑战，本文提出了进化独立确定性解释模型 （Evolutionary Independent Deterministic Explanation, EVIDENCE ）——一种与模型无关的、具有数学收敛性证明的可解释人工智能理论与算法。EVIDENCE 致力于提供一种稳健且经过数学验证的理论，以确定性地提取所有且仅有被模型识别为重要的信号 。它与同样基于数学基础的方法（如使用博弈论方法选择最重要特征的 SHAP）展开竞争。EVIDENCE 专为处理随时间变化的信号（如音频）而设计，但也可以扩展到其他类型的非结构化信号，如二维/三维图像或视频。

本文结构如下：

第二节概述当前研究现状；
第三节描述 EVIDENCE 方法及其收敛性证明；
第四节展示实验结果与讨论；
第五节总结全文。

二、研究现状（State of the Art）

本节对现有的 XAI 模型和算法进行了深入综述，旨在提升内容的清晰度与可读性。

XAI 算法可以根据其方法、功能以及对人工智能模型的依赖性进行分类。表1总结了用于各类机器学习问题的主要架构，而表2则根据算法对 AI 模型的内在依赖性对其进行了分类。各种 XAI 算法的功能简要总结见表3。

近年来，关于可解释人工智能（XAI）的研究文献迅速增长，提出了大量旨在提升人工智能系统透明性与可解释性的模型和方法。本节对现有研究进行了全面综述，并根据其结构或输入方式的不同进行分类。

Shapley 加法解释 （SHAP）

SHAP 模型利用博弈论中的 Shapley 值来衡量每个特征对最终预测结果的影响。该方法具有坚实的数学基础，尤其适用于表格数据，尽管也存在针对其他数据类型的扩展 [7]。

局部可解释模型无关解释 （LIME）

LIME 通过在输入数据的局部区域内拟合一个更简单、可解释的模型来提供可解释性。这种方法具有很高的通用性，可以应用于任何分类模型，是 XAI 中广泛使用的一种工具 [8][9]。

决策树

基于决策树的模型通过级联过程将原始输入数据划分为更小的子集，形成类似树状的结构。这种结构允许用户轻松回溯那些对预测结果影响最大的输入数据 [10]。

贝叶斯网络

贝叶斯网络采用概率图模型和贝叶斯推理来生成结果。其结构简单且透明，能够清晰地展示输入特征与预测结果之间的相关性 [11][12]。

反事实解释

反事实解释用于回答假设性问题“如果……会怎样”，展示输入特征的变化如何改变模型的行为。这一方法特别适用于理解模型运行的边界和条件 [13]。

注意力机制模型

注意力机制模型依赖于聚焦于特定输出中最重要的特征的机制。这些模型在图像分析中尤为有效，可以突出图像中对最终决策有贡献的特定区域或特征 [14–16]。

梯度及相关技术

基于梯度的方法创建类别特定的显著图（saliency maps），以可视化输入图像中各区域对 AI 算法输出的权重。集成梯度（Integrated Gradients）和 DeepLIFT 等技术扩展了这一方法，将模型输出与输入特征联系起来，并增强了神经元级别贡献的准确性 [18–20]。

引导反向传播与反卷积

引导反向传播（Guided BackPropagation），又称引导显著性图（guided saliency），专为卷积神经网络（CNN）设计。该方法用卷积层替代最大池化层，以增强特征激活的可解释性。同样地，反卷积网络（DCNN）则从特定 CNN 中提取信息，帮助理解导致特征图激活的输入模式 [21–24]。

RISE 与概念激活向量 （TCAV）

RISE 通过随机遮挡输入图像并多次测量输出，生成显著图，定义像素级别的显著性分布。TCAV 则将显著图输出与用户可理解的高层概念相连接，从而增强解释能力 [25–26]。

类别激活映射 （CAM）与 GradCAM

CAM 专门用于 CNN，用于识别分类过程中使用的输入图像的重要部分。GradCAM 是这一方法的推广形式，通过基于梯度的显著图突出关键区域，不依赖具体架构 [27–30]。GradCAM++ 进一步扩展了这一方法，适用于多标签问题 [31–32]。

逐层相关性传播 （LRP）与 SmoothGrad

LRP 使用反向传播分解非线性分类器（尤其是深度神经网络），以识别有意义的输入特征。SmoothGrad 常用于去噪，常与其他基于梯度的方法协同工作，通过去除虚假信息来增强可解释性 [33–36]。

局部可解释模型无关解释 （LIME）与确定性 LIME （DLIME）

LIME 是一种与模型无关的方法，通过扰动输入数据生成新的变体数据集，并基于与原始数据的相似性解释 AI 模型的决策。DLIME 是为了克服 LIME 的非确定性而开发的，它以确定性方式生成输入变体 [37–41]。

Shapley 值与白盒模型

SHAP 受博弈论启发，为参与预测的特征分配权重；而白盒模型则专注于揭示 AI 模型的决策过程 [42–46]。

公平性促进者与敏感性分析器

公平性促进方法用于识别和缓解 AI 模型中的偏见，确保预测的公平性。技术包括公平性约束、公平表示学习以及预处理和后处理方法。敏感性分析器通过检查输入数据变化对模型性能的影响，评估 AI 模型的鲁棒性和可靠性 [47–57]。

对抗攻击

对抗攻击通过对输入数据进行显著修改，测试 AI 模型的鲁棒性并发现潜在漏洞。这种压力测试方法有助于揭示 AI 模型决策过程中的潜在脆弱点 [58–59]。

一目了然的分类如图1所示。

二、方法

本文提出的方法分为两个分析阶段：第一阶段聚焦于一种新的可解释人工智能理论——EVIDENCE 的引入及其数学原理阐述；第二阶段则将其应用于一个实际案例研究中，目的是将其结果与其他最先进的可解释 AI 算法进行比较。

虽然后者通过实际应用快速展示了 EVIDENCE 的效果，便于评估其有效性，但对其底层逻辑进行数学描述是必要的，以确保其可靠性的理论基础。

A. EVIDENCE：引言

在对 EVIDENCE 算法进行数学介绍时，其开发的基本思想是从输入数据中生成一组信号种群（population of signals），即从同一原始输入信号中生成多样化的输入信号。在这方面，每一个派生信号都是通过仅保留原始输入中的一部分信息获得的。那些未被保留的信息部分将被置为零。

随后，一个经过训练的 AI 分类算法会对这组多样化的信号种群进行分析，并对模型的分类结果应用一个评分算子（score operator），例如交叉熵（cross-entropy）算子。根据评分算子的结果，只有得分最高的那部分多样化种群得以保留。这相当于只选择那些包含显著信息内容的多样化输入数据，因为这些数据使 AI 分类模型能够持续准确地预测出正确的输出。

这一评估之所以成为可能，是基于一个前提假设：原始输入具有真实标签（ground truth）。另一个重要的假设是：多样化种群输入的子集最终会收敛到一个唯一的信息浓缩内容，而这个内容正是使 AI 算法正确分类的有效信息。

B. EVIDENCE：算法

在此，我们提出了新的 EVIDENCE XAI 确定性算法 。它被设计为一个独立运行的过程，不依赖于所应用的 AI 算法类型。EVIDENCE 的目标是保留深度神经网络在分类过程中认为相关的信息。该算法的输出可以被视为输入的一个过滤版本，在接下来的实际案例分析中，这种输出将是一个仅保留最关键特征的信号。

需要强调的是，该算法是在分类模型的学习过程结束后应用的，并不会影响分类模型的训练阶段，从而实现了与所使用 AI 算法的“独立性”。换句话说，EVIDENCE 的输出结果并不依赖于具体的 AI 模型架构，而是仅与 AI 算法执行分类任务的性能结果有关。

更具体地说，XAI 算法流程始于将 AI 模型直接应用于一个已知真实类别标签的待分类信号上。在本工作的案例研究中，为了进行数学描述，采用了音频轨道的二维 Mel 频谱图作为输入信号。因此，EVIDENCE 算法会产生一组不同的 Mel 频谱图，它们在原始频谱图的子成分（或称为片段）上有所变化。

深度学习分类模型对这些图像进行分类后，将在模型输出与信号类别的真实标签之间应用交叉熵算子。这一操作最终允许我们选择出交叉熵值较低（即相关性更高）的元素。随后，这些高相关性的信号子种群被认为会收敛于对分类任务贡献最大的特定信号特征。这一过程等价于说明它们的线性组合预期将收敛于一个有限和，这一点将在后续加以证明。

C. EVIDENCE：数学描述

以下是 EVIDENCE 算法 的数学描述，以及其在 AI 学习过程中对最关键特征的过滤输出的收敛性数学证明。

EVIDENCE 的数学描述 ：设 𝐌 是一个大小为 l×d的实数矩阵，并定义 H 为交叉熵算子（Cross-Entropy operator），其定义如公式 (1) 所示：

一旦这些要素被确定，结果就是确定性的，并且客观地反映了信号中对所使用模型正确完成分类任务至关重要的部分。

如果输入中完全没有有用的信息，结果的收敛将不可避免地稳定在一个接近零的常数值上。这表明，对于模型在该任务中的正确预测而言，根本不存在可以形成非零收敛模式的重复性信息，与失败情况中所含信息相比亦是如此。

该算法的图示表示如图2所示.

D. 案例研究（Case Studies）

EVIDENCE 被应用于以下三个问题进行测试：

从无症状且健康史正常的对照组中分类出新冠 PCR 检测呈阳性的用户 ；
对帕金森病患者与健康对照者的音频进行分类 ；
使用 GTZAN 十类音乐数据集。

对于每个问题，在模型训练和测试完成后，我们在冻结模型上应用 EVIDENCE，目的是过滤 Mel 频谱图中对正确分类贡献最大的声音频率。

我们也使用了另外两种最先进的可解释人工智能算法进行类似的分析，分别是 LIME 和 SHAP Deep Explainer （根据 [7] 的建议，由于所用模型为卷积神经网络 CNN），以及 GradCAM 。

对于每种可解释性算法，我们根据其评估结果移除频谱图中最不相关的特征，只保留最重要的部分。这样做的目的是让已经训练好的 ResNet50 模型在去除无关信息后再次对输入数据进行分类。这一过程将间接评估这些可解释算法是否能够仅选择对分类任务有价值的信号特征，从而解释 ResNet50 在其预测过程中认为重要的内容。

ResNet50 的准确率越高，说明该可解释算法在筛选有价值信息方面的能力越强，也就意味着它能更好地解释 ResNet50 为完成该任务所学到的内容。

总体而言，关于以下案例研究中的音频预处理步骤包括：将所有录音重新采样至 22050 Hz，并对振幅水平进行归一化处理。Mel 频谱图生成时使用的窗口长度为 2048 个样本点，跳跃步长为 344 个样本点，共使用 150 个 Mel 滤波器组。每个频谱图被转换为分贝（dB）尺度以增强感知特征。必要时进行了静音裁剪和零填充操作。整个流程使用 Python 中的 librosa 库实现，确保在各数据集上的结果一致且可复现。

新冠肺炎数据集（Covid-19 Dataset）

分类任务通过对用户的呼吸声和咳嗽声进行分析完成，这是特定录音协议的要求。具体来说，该任务对应于剑桥大学数据集的任务 1 [61,62]。

本研究总共包含 307 名受试者，其中 62 人为新冠 PCR 检测阳性，其余 245 人为非阳性用户。每位受试者有多个呼吸和咳嗽的音频片段，因此总共有 926 条音频记录：其中 282 条来自新冠阳性用户，644 条来自健康对照组。

本任务使用的算法是一个基于 ResNet50 架构的深度卷积神经网络模型 。该模型采用“个体间划分”（inter-patient separation）方案进行训练，即训练集和测试集中阳性与非阳性音频的比例保持一致。该随机划分过程重复了 5 次，采用五折交叉验证的方式报告平均结果（见表1）。

如果原始音频长度超过 10 秒，则截取前 10 秒；若不足 10 秒，则进行零填充使其达到 10 秒。采样率为 22050 Hz。对于每条音频，生成 Mel 频谱图的参数如下：FFT 点数为 2048，滤波器数量为 150，窗口重叠时间为 140 毫秒，跳跃步长为 344。

ResNet50 模型是在生成的频谱图上从头开始端到端训练的。

测试集由 32 名随机选取的用户组成，其中包括 16 名新冠 PCR 阳性用户（占总阳性人群的 25%）和 16 名健康对照者。共计约 62 条来自新冠阳性用户的音频和 40 条来自健康对照组的音频。

帕金森数据集（Parkinson Dataset）

本研究所使用的元音 /a/ 和 /i/ 的语音录音数据由 Hlavnicka 等人 [63] 收集。研究共包括 83 名来自捷克的参与者，具体组成如下：

22 名帕金森病（PD）患者
21 名多系统萎缩（MSA）患者
18 名进行性核上性麻痹（PSP）患者
22 名无神经系统疾病的人（健康对照组）

研究采用统一帕金森病评定量表 （Unified Parkinson’s Disease Rating Scale, UPDRS ）来评估疾病严重程度，并由受过训练的神经科医生对患者的运动功能进行评估。具体而言，UPDRS 第三部分用于评估 PD 患者的运动症状严重程度。该部分的评分范围为 0 至 108，评估内容包括震颤、强直、运动迟缓和姿势稳定性等。分数越高，表示运动症状越严重。PD 患者的平均严重程度评分为 15.9，标准差为 7.9 [63]。

在当前样本中，参与者包括：

22 名 PD 患者（10 名男性，12 名女性）
18 名 PSP 患者（12 名男性，6 名女性）
21 名 MSA 患者（9 名男性，12 名女性）
22 名健康对照者（11 名男性，11 名女性）

平均年龄分别为：

PD 患者：64.4 岁（范围：48–82 岁）
PSP 患者：66.7 岁（范围：54–84 岁）
MSA 患者：61.0 岁（范围：45–71 岁）
健康对照组：63.6 岁（范围：41–79 岁）

健康对照组年龄范围较广，反映了特发性和非典型帕金森综合征的年龄相关性。尽管如此，各组的平均年龄分布较为均衡，有效减少了年龄相关混杂变量的影响，从而确保实验的有效性和结果的可靠性。

根据 Hlavnicka 等人 [63] 的描述，所有录音均在低噪声环境中进行，使用 Opus 55 电容麦克风，放置在距参与者嘴唇约 5 厘米的位置。录音以 16 位分辨率、48 kHz 采样率进行数字化。每位参与者在受过训练的专业人员指导下被要求持续发出 /a/ 和 /i/ 元音（国际音标），并保持一致的正常发声状态。每个元音至少录制两次，总共获得 1011 条录音。

在深度学习方面，音频信号被转换为 RGB 彩色的 Mel 频谱图图像，然后输入如 ResNet-50 等神经网络架构中。音频数据以 22050 Hz 的采样率进行采样。生成 Mel 频谱图时使用的快速傅里叶变换（FFT）窗口长度为 2048，跳跃长度为 344，Mel 滤波器数量为 150。此外，RMSProp 算法被用作深度神经网络的梯度下降优化器。RMSProp 通过计算平方梯度的移动平均值来调整权重更新。

GTZAN 数据集

GTZAN 数据集包含 1,000 段音频歌曲片段，每段持续 30 秒，分为 10 个不同音乐流派，包括但不限于摇滚、爵士、布鲁斯和流行 [64]。该数据集在机器学习模型（包括深度学习技术）的发展与评估中发挥了关键作用，特别是在音频分类任务中。

从该数据集中提取的特征包括梅尔频率倒谱系数（MFCC）、节奏（tempo）和和声（harmony）等，每 3 秒提取一次。同样，在深度学习方面，音频信号也被转换为 RGB 彩色的 Mel 频谱图图像，并输入到神经网络架构中，所用模型为 ResNet-50。音频数据以 22050 Hz 的采样率导入。与之前相同，Mel 频谱图图像使用了 2048 的窗口长度、344 的跳跃长度，以及 150 个 Mel 滤波器。所有音频均被截断为 3 秒长度，神经网络在梯度下降过程中使用 RMSProp 进行优化。

三、结果与讨论

新冠肺炎呼吸与咳嗽声音分类

本研究旨在评估使用 ResNet50 架构训练的 EVIDENCE 可解释算法 的性能。该模型通过五折交叉验证过程进行训练，并采用了个体间分离（inter-patient separation）方案，专门用于根据患者的咳嗽和呼吸声音识别新冠肺炎感染者。

针对一个包含 16 名 PCR 检测阳性用户和 16 名 PCR 检测阴性用户的测试集，其推理结果的性能指标详见表4（Inferencing Results）。

为确保输入数据和人工智能模型学习过程中不存在偏见，研究中采用了四种可解释算法——EVIDENCE、LIME、GradCAM 和 SHAP Deep Explainer ，以从 ResNet50 模型的视角中提取相关信息。这些算法生成了经过过滤的测试集版本，仅保留根据各自评估标准认为重要的非平凡信息。随后，使用预训练的 ResNet50 模型对这些过滤后的测试集进行测试，结果汇总于表格中。

EVIDENCE 在所有指标上均显著优于基线模型和其他 XAI 方法 。具体而言，在 COVID-19 阴性病例 上，EVIDENCE 将精确率从 0.86（基线）提升至 0.92，灵敏度则从 0.45 提升至 0.94。在 阳性病例 上，EVIDENCE 将精确率从 0.63 提升至 0.95，同时保持了高达 0.90 的灵敏度。整体宏平均 F1 分数从基线的 0.65 提高到 0.94，表明其在识别新冠肺炎模式方面有显著提升。

相比之下，LIME、GradCAM 和 SHAP Deep Explainer 表现出不同程度的表现，总体低于 EVIDENCE：

LIME ：在阴性病例上的精确率比基线下降了 13%，但在阴性用户的灵敏度上有小幅提升；然而，它导致阳性用户灵敏度下降了 11%。LIME 的 AUC 略低于基线，表明其在过滤过程中未能保留所有用于正确分类的关键模式。
GradCAM ：表现出与基线相似的精确率，但阴性病例的灵敏度较低。AUC 下降约 3%，说明在过滤过程中丢失了重要信息。
SHAP Deep Explainer ：表现与 GradCAM 相似，但在 AUC 和 F1 分数方面普遍低于 GradCAM 和 EVIDENCE。

EVIDENCE 能够在过滤掉不相关信息的同时显著提升分类准确性，这一能力尤为突出 。其确定性的特性确保了结果的可重复性和一致性，使其成为提高模型透明度和可靠性的有力工具。实验结果突出了 EVIDENCE 在识别并保留关键信息方面的卓越能力，从而实现了相比其他 XAI 方法更高的分类性能。

帕金森音频分类

在帕金森病分类任务中，EVIDENCE 算法使用了帕金森患者、多系统萎缩患者、进行性核上性麻痹患者以及健康对照者的语音录音进行测试。表4中的结果显示，EVIDENCE 在所有方法中表现最佳 ，在健康组和帕金森组中均达到了接近完美的精确率和灵敏度。EVIDENCE 的宏平均 F1 分数达到 0.997 ，远高于基线模型和其他 XAI 方法。

LIME 和 GradCAM ：相较基线，在精确率和灵敏度上均有明显下降。
SHAP Deep Explainer ：表现最差，各项指标最低，显示出其在此应用场景中的局限性。

本研究中 EVIDENCE 的优越表现再次印证了其在保留高分类准确率的同时有效筛选关键特征的能力，展现了其稳健性和可靠性。

GTZAN 十类音乐数据集

在 GTZAN 数据集中，EVIDENCE 对来自不同音乐流派的音频片段进行了测试。结果显示，EVIDENCE 保持了高达 0.996 的 AUC ，显著高于其他方法和基线模型。尽管精确率和 F1 分数与基线相当，但 AUC 的显著提升表明 EVIDENCE 在特征筛选和识别相关模式方面具有出色的效能。

LIME、GradCAM 和 SHAP Deep Explainer ：在各项指标上表现较差，精确率和 AUC 相较 EVIDENCE 明显下降，凸显出这些方法在该场景下筛选有意义信息方面的局限性。

这些结果进一步强调了 EVIDENCE 在多种类型音频分类任务中提供高效、可解释且可靠的特征筛选机制的潜力。

由于计算能力的限制，基于非平凡信息收敛为过滤信号的 EVIDENCE 定理 的应用在 5000 次迭代后停止。对于每个测试信号，平均处理时间约为 48 秒，采用的是支持多线程和 GPU 加速的实现方式。

一旦完成这一操作并返回了测试集的过滤版本，我们便使用已训练好的 ResNet50 模型对其进行测试。同样的流程也适用于 LIME、SHAP Deep Explainer 和 GradCAM 在相同数据上的运行，其控制测试结果以及各自过滤后的测试集结果如表 4 所示。

具体而言，在所有使用场景中，LIME 被配置为每张图像最多提取 100 个特征，并进行 5000 次迭代。这些参数是通过网格搜索（Grid Search）进行超参数调优后确定的。

GradCAM 只有一个参数——目标层（target layer），在此案例中目标层被命名为 conv5_block3_out，由 GradCAM 算法自动确定。

关于 SHAP Deep Explainer，我们决定舍弃 Shap 值的 50 百分位以下部分，仅保留最重要的信息。

EVIDENCE 的配置如下：

对于 新冠和帕金森用例 ：2 Hz 分段、45 个特征、5000 次迭代；
对于 GTZAN 问题 ：1 Hz 分段、200 个特征、500 次迭代。

在所有用例中，EVIDENCE 算法部署在整个流水线的下游，用于对频谱图进行处理。最终的过滤结果是一个“清理版”的原始频谱图，其中所有不重要的信息都被剔除。

对于测试集中每一个输入项，其过滤结果来自于同一输入的部分频谱图子种群的收敛结果。值得注意的是，尽管这些部分频谱图包含一定比例的无关信息，但这些信息会因其在子种群中的随机波动而在收敛过程中逐渐消失；而那些非平凡的信息则会在部分频谱图种群中持续存在且具有显著性，从而逐渐收敛到一个有限值——正如第二节中数学形式化所展示的那样，这是因为这些信息存在于大量可用于产生高分类准确率的部分频谱图中。

各 XAI 方法表现分析

LIME 表现不佳的根本原因在于其局部近似方法的设计 。LIME 通过围绕每个预测构建局部可解释模型来解释单个预测，这本质上限制了它捕捉全局模式和关系的能力，尤其在处理像频谱图或高维数据这样复杂的输入时更为明显。事实上，LIME 的局部线性近似可能会遗漏决定模型决策的关键非线性关系。当特征之间存在强相互依赖关系时，这种局限性尤为突出，这解释了为什么它在所有三项音频分类任务中都出现了显著的性能下降。

GradCAM 的主要局限性在于其架构特定的方法 ，即只关注最后一个卷积层的激活情况。虽然这种方法在简单分类任务中效果良好，但在复杂数据中，辨别性特征可能存在于早期层中，或是通过多个层的激活组合体现出来的。此外，GradCAM 依赖于类别特定的梯度，这意味着它可能无法识别对多个类别共同重要的特征，这也解释了为何在某些情况下会出现明显的灵敏度下降（例如在健康帕金森病例中灵敏度仅为 0.13，尽管精确率为 0.999）。

SHAP Deep Explainer 的表现不佳源于其为了保持计算可行性而采取的近似方法 。在处理深度网络时，它可能会丢失重要的特征交互信息。此外，其基于加法的特征归因方法可能无法充分捕捉模型决策过程中的复杂非线性关系，导致在不同应用场景下的整体性能指标最低（宏平均 F1 分数始终低于基线）。

关于新冠用例的进一步说明

图3展示了原始频谱图（顶部），随后是四种不同 XAI 方法输出的频谱图重要部分。部分频谱图子种群是通过设置 30% 的随机滤波参数生成的，即每个派生频谱图仅包含原始频谱图 30% 的信息。

与 LIME、SHAP Deep Explainer 和 GradCAM 不同，EVIDENCE 在频率维度上执行一维过滤操作 。这是基于这样一个假设：用户咳嗽和呼吸录音的时间顺序中无法提取出有价值的主观时间信息。因此，EVIDENCE 的结果表现为频谱图中深色和亮色条带分别代表显著和不显著的频率范围。

最显著的结果是，冻结状态下的 ResNet50 模型能够在仅依靠不到一半原始信息的情况下，实现了性能提升。如果增加更多信息，则会逐渐回归到基线模型的情况，并伴随一些性能指标的下降。这最终证明了 EVIDENCE 成功地保留了所有且仅有对分类任务必要的信息，同时去除了噪声信息，而后者往往会不可避免地导致性能下降。

EVIDENCE 的通用性和附加价值

此外，EVIDENCE 完全独立于所使用的 AI 分类模型，使其成为一个通用且确定性的工具 ：不同 AI 模型的过滤结果可以在无模型依赖的前提下进行比较。

另一个有趣的特点是：EVIDENCE 提供了一个最终的频谱图结果，它是成千上万个原始输入频谱图的部分版本经过收敛后的产物。随着向非平凡信息的收敛，定理的推论表明我们可以对这些部分输入版本集合进行统计分析，从而识别出主要促成 ResNet50 对新冠 PCR 测试结果分类的原始信号中最关键的频率范围。

图4 展示了一位特定新冠阳性用户的咳嗽和呼吸频谱图的收敛结果。确实，高于阈值的那些频率正是使 ResNet50 能够正确区分新冠阳性和阴性用户的主要信号成分。

最终识别出的重要频率范围如下：

呼吸声 ：约在 233 Hz 至 674 Hz ；
咳嗽声 ：约在 10–894 Hz、1335–1555 Hz 以及 1996–2447 Hz 。

两张图均显示出低频段的高分布密度。通过对这些频率范围的原始音频信号进行重构，我们发现这些频率可能与语言无关的声音相关，具有作为患者健康状况通用指标的潜力。当然，还需要进一步的分析来验证这一假设。

四、结论

EVIDENCE 是一种新颖的可解释人工智能（XAI）算法，其显著优势在于它与用于分类任务的具体 AI 模型无关。我们对其进行了严谨的数学形式化处理，以确保其可靠性。

除了理论基础之外，EVIDENCE 还在多个数据集上进行了实证测试，包括一个使用 ResNet50 模型训练来通过咳嗽和呼吸音频识别新冠感染者的模型、帕金森病患者的语音录音数据，以及 GTZAN 音乐流派数据集。

在 新冠用例 中，EVIDENCE 识别出了可作为新冠指标的特定声音特征，显示出语言无关且可能具有通用性的声音模式。与 LIME、SHAP Deep Explainer 和 GradCAM 等其他可解释 AI 算法相比，EVIDENCE 在分类性能方面表现出显著提升。具体而言，在新冠 PCR 检测阳性用户的精确率上提升了 32% ，AUC（曲线下面积）提高了 16% 。此外，EVIDENCE 相较于 LIME、SHAP Deep Explainer 和 GradCAM 的 AUC 分别提升了 19%、25% 和 20% 。这些提升表明，ResNet50 在使用 EVIDENCE 过滤后的数据时，对新冠阳性的检测能力得到了显著增强。

在 帕金森病分类任务 中，EVIDENCE 同样优于其他方法。它在健康个体和帕金森患者中均实现了接近完美的精确率和灵敏度。EVIDENCE 的宏平均 F1 分数达到 0.997 ，远高于基线和其他 XAI 方法。LIME 和 GradCAM 在精确率和灵敏度上相较基线有明显下降，而 SHAP Deep Explainer 表现最差。这些结果进一步验证了 EVIDENCE 在保留高分类准确率的同时有效筛选关键特征的能力，展现出其稳健性和可靠性。

在 GTZAN 音乐流派分类任务 中，EVIDENCE 保持了高达 0.996 的 AUC ，显著优于其他方法和基线模型。尽管精确率和 F1 分数与基线相当，但 AUC 的显著提升表明 EVIDENCE 在特征筛选和识别相关模式方面具有出色的效能。LIME、GradCAM 和 SHAP Deep Explainer 在各项指标上表现较差，精确率和 AUC 相较 EVIDENCE 明显下降，凸显出这些方法在该场景下筛选有意义信息方面的局限性。

EVIDENCE 在这些多样化数据集上的卓越表现表明，它具有显著提升 AI 模型分类准确率的潜力。其在清洗输入数据的同时筛选非平凡信息的能力尤为突出。未来的研究将聚焦于进一步揭示 EVIDENCE 的过滤机制如何带来这些提升效果。这项持续研究旨在进一步提高可解释 AI 算法在识别关键信息和保持数据完整性方面的能力，从而推动 AI 可解释性和可靠性的进步。

此外，EVIDENCE 所基于的确定性数学原理使其具备向多个关键领域扩展的潜力：

在金融领域 ，它可以提升交易策略、欺诈检测系统和信用评分模型的可解释性，满足法律对决策透明性的要求；
在自动驾驶 中，EVIDENCE 可能有助于场景增强和路径规划，帮助理解在关键安全参数下的 AI 决策核心要素。

然而，当前版本的算法在每次分析中需进行 5000 次迭代，平均耗时约 48 秒，尚未达到实时应用的要求，这提示存在优化空间。观察发现，计算复杂度的主要来源是输入矩阵的维度、迭代次数以及采样窗口的大小。未来的高效实现应着重于优化并行处理、减少迭代次数，并利用 GPU 等加速器。进一步的优化可能包括自适应的迭代计数和停止策略，使 EVIDENCE 能够实现实时性能，同时不牺牲方法的数学保证和解释能力。

在未来的拓展工作中，EVIDENCE 将被扩展至 n 维数据处理，为医疗、安全等多个领域的应用打开确定性可解释性的大门。我们可以设想一个通用的 EVIDENCE 算法，能够以确定性方式解释图像分类、三维数据、药物发现等任务中的 AI 模式。此外，从人机交互的角度来看，EVIDENCE 还可以与可视化技术和机器学习去偏技术相结合，进一步提升 AI 的可解释性与公平性。