独立性假设下的神经符号推理捷径
Neurosymbolic Reasoning Shortcuts under the Independence Assumption
https://www.arxiv.org/pdf/2507.11357
概述:本文探讨了神经符号(NeSy)预测模型中广泛采用的独立性假设,即假设符号概念在给定输入下条件独立。虽然此假设简化了概率推理,但通过理论和实证分析指出其缺陷:它限制了模型对不确定性的表达,导致对“推理捷径”(RS)的觉知不足。这些捷径指模型虽正确预测下游任务,但基于错误原因(如过度自信),损害了可靠性和泛化能力。论文通过形式化定义RS-awareness并以XOR MNIST数据集为例,证明独立性假设使模型无法正确表示概念组合的不确定性,建议采用更具表达力的模型以提升NeSy系统的透明度和鲁棒性。


摘要 在神经符号(NeSy)预测器中,符号概念之间的普遍独立性假设是一种便捷的简化:NeSy预测器利用该假设以加速概率推理。近期的研究,如van Krieken等(2024)和Marconato等(2024)指出,这一独立性假设可能阻碍NeSy预测器的学习,更关键的是,会妨碍其正确建模不确定性。然而,NeSy社区对此仍存疑虑,认为独立性假设实际限制NeSy系统的情形尚不明确(Faronius 和 Dos Martires, 2025)。在本工作中,我们通过形式化证明解决了这一争议:假设符号概念之间相互独立,意味着模型永远无法表示某些概念组合的不确定性。因此,模型将无法察觉推理捷径——即NeSy预测器的一种病态行为:虽然对下游任务做出正确预测,但却是基于错误的理由。
当数据与程序共同不足以充分约束神经网络时,NeSy预测器可能会学习到推理捷径(RSs)(Marconato 等, 2023)。推理捷径是指从输入到概念的错误映射,这些映射虽与程序和数据一致,但本质上是错误的。不幸的是,一旦NeSy预测器学习到RS,它就无法在分布外数据上泛化,从而破坏了NeSy预测器所承诺的可靠性。如果我们无法避免RS,该怎么办?Marconato 等(2024)主张应使我们的预测器意识到RS的存在。这实质上意味着要对所有与数据一致的概念赋值表示不确定性。为突出这一思想,我们考虑XOR MNIST任务。

大多数概率型NeSy预测器的应用都依赖一个关键的简化假设,即神经网络提取的概念之间是条件独立的(van Krieken 等, 2024)。这一假设简化并加速了原本在一般情况下难以计算的推理过程(Chavira 和 Darwiche, 2008)。然而,van Krieken 等(2024)表明,独立性假设会导致损失函数出现不连通且非凸的极小值点,从而加剧训练难度,并阻碍模型表达概念间的依赖关系。此外,该假设还会使解偏向“确定性”,即仅少数概念获得全部概率质量。这些结果最近被 Faronius 和 Dos Martires(2025)质疑,他们认为 van Krieken 等(2024)所研究的设定并不能反映NeSy预测器的典型使用场景。
我们通过形式化论证与实证分析表明,即使在这些典型场景中,独立性假设仍然是一个关键的限制因素:例如,在示例1的XOR MNIST问题中,独立性模型不可能实现对推理捷径(RS)的感知——它们要么随机猜对,要么只能发现图1中的RS。特别地,我们证明Faronius 和 Dos Martires(2025)的结论存在混淆,因为他们所使用的任务本身并不包含任何RS。
贡献。我们: C1)在第4节中形式化定义了NeSy预测器对推理捷径的感知能力; C2)证明了在独立性假设下,NeSy预测器仅在极其罕见的情况下才能实现RS感知; C3)并通过实证表明,具备表达力的模型确实可以实现RS感知(第3节),但前提是必须采用恰当的架构设计与损失函数设计,相关内容将在第5节中讨论。


然后,该模型被用于计算公式1中的数据对数似然。隐式地,大多数实际的NeSy预测器都做出这一假设(Xu等,2018;Badreddine等,2022;van Krieken等,2023)。当 k>1时,独立的概念分布无法表示 C上所有可能的分布。此外,van Krieken等(2024)证明,NeSy预测器的损失函数通常具有以下特性:1)高度非凸;2)存在不连通的极小值点;3)在缺乏证据的情况下,倾向于偏向过度自信的假设。所有这些问题都是由于独立分布表达能力有限所导致的后果。
许多概率型NeSy预测器(Xu等,2018;Manhaeve等,2018;Ahmed等,2022)通过在某种紧凑的逻辑表示上进行高效的概率推理来实现公式1(Darwiche和Marquis,2002)。独立性假设之所以被广泛采用,是因为它极大地简化了通常不可行的计算过程(Chavira和Darwiche,2008)。常见的神经概率逻辑编程语言,如DeepProbLog(Manhaeve等,2018,2021)、NeurASP(Yang等,2020)和Scallop(Li等,2023),也都假设符号之间是独立的,或更准确地说,在程序中对概率事实之间假设独立性。因此,对于一个固定的程序 β和固定数量的概率事实,存在许多真实的数据分布涉及依赖关系,这些依赖关系无法被精确捕捉,无论神经网络的表达能力如何。然而,这些语言是图灵完备的概率语言,理论上可以表示任意分布(Taisuke,1995;Poole和Wood,2022;Faronius和Dos Martires,2025)。我们通过指出:只有通过扩展程序 β并引入额外的概率事实,才能实现这种可能性,从而解决了这一表面上的矛盾。例如,我们可以通过为独立分布上的混合模型添加潜在变量,或通过贝叶斯网络引入结构化依赖关系,从而超越独立性假设,正如本文所讨论的那样。尽管如此,在实践中,尤其是在使用固定程序 β的共享基准上对NeSy预测器进行经验评估时(Bortolotti等,2024),这种程序扩展并不存在,公式1是通过公式2实现的。
形式化问题设定。接下来,我们描述数据生成过程中所依据的形式化假设,遵循 Marconato 等(2023)。具体而言,我们使用以下数据的真实生成过程:




3.1 独立性假设在推理捷径下失效



3.2 我们能否训练出具有感知推理捷径能力的表达性模型?
如果独立模型无法在 XOR MNIST 任务中表示不确定性,那么更具表达能力的模型又如何呢?从表达能力的角度来看,答案是肯定的。但我们是否也能学习到一个校准良好、具备推理捷径感知能力的概念分布 pθ(c∣x)?
正如 Faronius 和 Dos Martires(2025)以及 Zombori 等(2024)所指出的,表达性模型在训练过程中同样倾向于偏向“确定性”。然而,巧妙设计的损失函数可以规避这一问题(Zombori 等,2024)。我们最小化概念空间上均匀分布的 KL 散度。对于每一对 (x,y)(Mendez-Lucero 等,2024),


在图 3 中,我们看到模型不仅学习了输入-标签映射,而且当输入数字不同时,还会将 0.5 的概率分配给两种有效概念组合 (0,1) 和 (1,0)。因此,该模型学会了 RS 感知的概念分布。我们强调,这只有在模型不具有独立性假设的前提下才可能实现。事实上,正如我们在附录 B 中所示,使用公式 7 进行独立性假设的方法无法学习到超出模型初始化的任何内容。



接下来,我们给出 RS 意识的精确定义,我们将之理解为表达这些 RS 混合的能力。我们区分完全混合与弱混合:完全混合指能够表达所有混合形式,而弱混合仅要求能够表达其中一种混合形式。

我们的目标是研究在何种条件下,具有独立性假设的模型能够具备 RS 意识。因此,我们必须精确定义我们所指的这一模型类。为简化起见,我们采用独立性假设下可能最强大的模型类。在现实场景中,我们只能近似地实现这一模型类。




我们研究了在何种条件下,对神经符号(NeSy)预测器采用独立性假设是合适的。我们证明了,具有独立性假设的模型仅在非常有限的场景中才能具备对推理捷径(RSs)的意识。这限制了采用独立性假设的 NeSy 预测器的可靠性,意味着它们可能在分布外(out-of-distribution)情况下无声地失效。最后,我们表明,超越独立性假设的表达能力强的模型可以具备 RS 意识。然而,我们也发现,神经网络的设计是一个关键因素。
基于这些结果,研究何种表达性强的架构设计更适合 NeSy 预测器,是一个富有前景的未来研究方向。现有工作已使用独立模型的混合体(Marconato 等,2024),当结合概率电路(Ahmed 等,2022)和离散扩散模型(van Krieken 等,2025)时,这种方法尤为强大,并在 RSBench 数据集(Bortolotti 等,2024)上显著优于独立模型。此外,我们认为,研究超越“完全可观测性”这一朴素假设(第 2 节中的假设 A1)的基准任务,将有助于揭示具有独立性假设与不具独立性假设的 NeSy 预测器之间的行为差异。




附录 B. 最小化独立模型的均匀-KL 散度
如图 4 所示,当我们使用第 3.2 节中适应独立性假设的 KL 散度和神经网络架构时,我们无法学习到超出模型初始化的任何内容。这看起来可能像是一个错误,但实际上并非如此:在独立性假设下,当 c1和 c2的概率均为 0.5 时,KL 散度在奇偶性问题(parity problem)中达到最小值,无论输入和标签如何。⁴
附录 C. 实验细节
数据集构建。我们从 MNIST 数据集中选取数字 0 和 1,然后通过随机排列剩余数字来构造数字对。这样可以确保每个数字在每一对中仅出现一次,并且不会发生测试数据泄露。我们使用标准的 MNIST 训练-测试划分来创建测试集。接着,我们使用程序 β分别为 XOR MNIST 和 Traffic Lights MNIST 问题生成标签。
训练细节。我们的代码可在 https://github.com/HEmile/independence-vs-rs/tree/main 获取。所有实验均在训练数据上运行 5 个 epoch。我们未进行任何超参数调优:所有实验均使用 Adam 优化器、学习率为 0.0001、批量大小为 64。
统计方法。所有结果均在 20 个随机种子上取平均,并报告结果的均值和标准差。在表 1 中,我们用粗体标出那些与表现最佳的模型-损失组合在 p=0.05水平下无统计显著差异的结果(使用非配对 Mann-Whitney U 检验)。我们强调,多个结果(尤其是 XOR MNIST)具有高度双峰分布特性,这意味着即使在 20 次运行中,有时也存在较大的平均值差异,但统计上并无显著区别。
模型架构。我们在 XOR MNIST 和 Traffic Lights MNIST 任务中均以标准 LeNet CNN 架构为基础构建所有模型。该架构包含一个 CNN 编码器和一个 MLP 分类器。具体而言,它使用两个带有最大池化和 ReLU 激活函数的卷积层,将特征拼接成一个 256 维的嵌入。随后,我们使用一个隐藏层将其映射到 120 维和 84 维的嵌入,每个都使用 ReLU 激活函数。最后,我们使用一个 sigmoid 输出层,输出一个由 sigmoid 函数激活的单个 logit 值。


原文链接:https://www.arxiv.org/pdf/2507.11357