作者 | 范少华 单位 | 北邮 GAMMA Lab 研究方向 | 图神经网络 目前提出的图神经网络 (GNN) 方法没有考虑训练图和测试图之间的不可知偏差,从而导致 GNN 在分布外(OOD)图上的泛化性能变差 导致 GNN 方法泛化性能下降的根本原因是这些方法都是基于 IID 假设。在此条件下,GNN 模型倾向于利用图数据中的虚假相关进行预测。 “房子”模体分类例子 为了去除虚假相关对于 GNN 模型泛化性的影响,我们提出了一个新颖的用于图的因果表示框架,称之为 StableGNN, 其结合了 GNN 模型灵活的表示学习和因果学习方法对于区分虚假相关能力的两方面优势 基于混淆平衡技术主要目的是去除处理变量和混淆变量之间的关联,我以我们考虑采用 HSIC 来度量高维变量之间的关联,同时提出采用样本加权的方式去除高维变量之间的关联,方法如下: 对于两个变量 U 和 V, MUTAG数据集上的可解释性实验 结论和未来工作 在本文中,我们首次研究了图数据在 OOD 上的泛化问题。我们以因果视角分析了这个问题,认为子图之间的虚假相关会影响模型的泛化性。
然而,和其他类似模型一样,SAM 在某些特定的细分应用中也遇到了限制,这促使研究者寻找一种在不损害其固有泛化能力前提下对其进行性能提升的策略。 比如DINOv2、CLIP、BLIP、SAM以及Stable Diffusion等视觉基础模型在多种任务上都展示了卓越的零样本能力和广泛的泛化能力。 这些挑战引出了本项工作的核心动机:在不依赖额外数据、不更改基础架构且不牺牲零样本能力的条件下,如何进一步提升SAM作为基础视觉模型的泛化性?于是,研究者便能在保持广泛适用性的同时,释放SAM的潜力。 与视觉领域的常规对抗训练通常需要在模型鲁棒性和性能之间做出权衡不同,NLP中的对抗训练不单强化了模型的鲁棒性,也增强了其泛化能力和准确性。 受到NLP中成功的优化方法的启发,研究者提出使用这些更加“自然”的对抗样本来微调SAM,从而避免了传统对抗训练通常伴随的高成本问题。
端到端模型就是将可以多步骤/模块解决的任务使用单个模型来建模解决,一般在深度学习中比较常见。使用多步骤、多模型解决一个复杂任务的时候,一个明显的弊端是各个模块训练目标不一致,某个模块的目标函数可能与系统的宏观目标有偏差,这样训练出来的系统最终很难达到最优的性能;另一个问题是误差的累积,前一模块产生的偏差可能影响后一个模块。
我们真的只有通过海量的测试数据才能抓住泛化性的本质吗?或者说,能否在数学上找到一个定理,直接从表征逻辑复杂度本身就给出一个对模型泛化性的先验的判断呢? 典型地,对神经网络泛化性的研究依然停留在一个相对较浅的层面——主要在高维特征空间分析解释神经网络的泛化性(例如通过损失函数景观平滑度来判断泛化性)。 因此,我们始终无法对神经网络泛化性给出一个「究竟」的解释——究竟怎样的确切的表征才叫高泛化性的表征。 由于问题 1 已经在实验室前期工作中给出了理论解答,本文主要讨论解决问题 2——究竟能否在交互概念表征层面判断一个黑盒模型的泛化性,即我们能否从某个具体的数学指标,直接将神经网络的交互概念表征和神经网络的泛化性建立起内在的相关性 由于我们证明了神经网络的分类置信度可以被解构为少量交互概念数值效用的和,所以神经网络整体展现出的泛化性可以被视为不同交互概念泛化性的集成效用。
它具备专门化特性,可以大幅提升模型在大量不同任务上的泛化性能。 ? 模块化结构可以反映环境动态,学习这类结构可实现更好的泛化效果和对微小变化的稳健性。 该研究证明,RIM 具备专门化(specialization)特性,并反过来大幅提升了模型在大量不同任务上的泛化性能。 实验 实验目标是,证明 RIM 能够改善模型在不同环境和/或模块化任务中的泛化效果。 研究者按照以下顺序展示实验结果:基于时序模式、对象和二者解决泛化问题。 注意,当测试集对象与训练集不同时,RIM 的 Out-of-Distribution 泛化效果显著优于 LSTM。
在场景2中,对于未知表位对的预测,TRAP展现出良好的泛化能力,并且在AUC上分别比包含pMHC和表位信息的epiTCR高出10.8%和18.1%。 实验验证表明,基于健康个体TCR数据集的测试中,优化的负采样策略有效抑制了模型分数虚高现象。值得注意的是,TRAP 不仅能够精准区分不同表位,还可同时捕获TCR的交叉反应性与结合特异性。
神经网络结构简单,训练样本量不足,则会导致训练出来的模型分类精度不高;神经网络结构复杂,训练样本量过大,则又会导致模型过拟合,所以如何训练神经网络提高模型的泛化性是人工智能领域一个非常核心的问题。 最近读到了一篇与该问题相关的文章,论文中作者在训练过程中通过在损失函数中增加正则化项梯度范数的约束从而来提高深度学习模型的泛化性。作者从原理和实验两方面分别对论文中的方法进行了详细地阐述和验证。 原文链接:https://blog.csdn.net/qq_38406029/article/details/122851202 清华大学出品:罚梯度范数提高深度学习模型泛化性_欢迎来到道的世界-CSDN
其中,泛化是预测和理解 DNN 在未见过样本上的性能的重要指标,而理解泛化的一个重要概念便是泛化鸿沟(generalization gap)。 该领域在推导出更好的 DNN 泛化边界(泛化鸿沟的上限)方面已经取得了很大的进展,但它们仍然倾向于高估实际泛化鸿沟,这使得它们无法解释为什么一些模型泛化得如此之好。 鉴于此,利用边际概念来研究泛化性能已经被扩展到 DNN 上了,导致泛化鸿沟上的理论上界高度细化,但并没有显著提高对模型泛化表现的预测能力。 ? 一个支持向量机决策边界的例子。 将边际分布作为泛化预测因子 直观地说,如果边际分布的统计量能够真实地预测泛化性能,那么一个简单的预测方案应该能够建立两者的关系。因此,我们选择线性回归作为预测因子。 CIFAR-100 + ResNet-32 上预测的泛化差距(x 轴)与真实的泛化差距(y 轴)。这说明对数线性模型的预测值与真实的泛化鸿沟十分吻合。
其中,泛化是预测和理解 DNN 在未见过样本上的性能的重要指标,而理解泛化的一个重要概念便是泛化鸿沟(generalization gap)。 该领域在推导出更好的 DNN 泛化边界(泛化鸿沟的上限)方面已经取得了很大的进展,但它们仍然倾向于高估实际泛化鸿沟,这使得它们无法解释为什么一些模型泛化得如此之好。 鉴于此,利用边际概念来研究泛化性能已经被扩展到 DNN 上了,导致泛化鸿沟上的理论上界高度细化,但并没有显著提高对模型泛化表现的预测能力。 ? 一个支持向量机决策边界的例子。 将边际分布作为泛化预测因子 直观地说,如果边际分布的统计量能够真实地预测泛化性能,那么一个简单的预测方案应该能够建立两者的关系。因此,我们选择线性回归作为预测因子。 CIFAR-100 + ResNet-32 上预测的泛化差距(x 轴)与真实的泛化差距(y 轴)。这说明对数线性模型的预测值与真实的泛化鸿沟十分吻合。
我们的第二项贡献是提供了详细的实证分析,表明那些能产生具有代表性且具备去放大特性的训练数据的方法,可以提升泛化性能。 正如我们对泛化误差的新颖分解所示,泛化性能不仅取决于训练数据的代表性,还取决于其与模型(误)设定的交互方式:当训练数据最能代表测试分布,并且同时位于模型误设方向“有益”(即减少误差)的区域时,泛化性能得到提升 其核心思想是鼓励选择那些不仅具有高信息增益,而且有助于减小训练点与测试点分布之间差异的设计点。 这表明,当模型正确设定时,协变量偏移不会显著影响泛化性能。然而,在模型误设情形下,协变量偏移对模型性能产生负面影响。 局限性与未来工作本研究的一个局限在于,主要贡献依赖于定理 3.7 所提供的洞见,而该定理仅给出了泛化性能的一个上界。该上界在多大程度上反映实际泛化性能,取决于这些界是否紧致(tightness)。
这引发了对模型“泛化性”的系统性质疑,也凸显了统一基准评测的必要性。 方法概述 研究人员构建了一个系统性的基准评测框架,从任务设定、数据集构建和评估指标三个层面进行设计。 评测覆盖两类核心场景: 细胞环境泛化:在未见过的细胞类型、患者或物种中预测已知扰动的响应; 扰动泛化:在固定细胞环境中预测模型未见过的新基因扰动或药物扰动。 图 1|单细胞扰动响应预测的基准评测框架与数据集构成 细胞环境泛化:跨细胞背景预测依然困难 在细胞环境泛化任务中,所有方法在“已见分布”条件下表现明显优于“未见分布”条件。 结果表明,目前方法普遍未能充分建模不同细胞环境之间的异质性,这是限制其泛化能力的核心因素。 图 2|细胞环境泛化场景下不同算法的性能对比 扰动泛化:任务类型强烈影响最优模型选择 在扰动泛化任务中,研究人员发现不存在适用于所有情形的最佳模型: 在单基因扰动预测中,部分方法在小数据集上表现突出,而在数据量充足时
折外预测在机器学习中发挥着重要作用,可以提高模型的泛化性能。 在本文中,将介绍机器学习中的折外预测,主要包括以下几个方面: 折外预测是对不用于训练模型的数据进行的一种样本外预测。 相当用于使用了新数据(训练时不可见的数据)进行预测和对模型性能的估计,使用不可见的数据可以评估模型的泛化性能,也就是模型是否过拟合了。 这样的好处是更能突出模型的泛化性能。 Accuracy: 0.930 除了对模型评估以外,折外预测的最大作用就是可以进行模型的集成,提高泛化能力。 折外预测还可用于构建集成模型,称为堆叠泛化或堆叠集成。 作者:Jason Brownlee PhD
这些理论基础体现在避免陷入鞍点问题(Lee et al., 2016)、提高泛化性能(Hardt et al., 2015; Wilson et al., 2017)和解释为贝叶斯推断(Mandt et 然而有趣的是,Adam 虽然在初始部分的训练和泛化度量都优于 SGD,但在收敛部分的性能却停滞不前。 此外,Wilson 等人今年发表研究表明适应性方法因为非均匀的梯度缩放而导致泛化性能的损失,因此我们比较自然的策略是利用 Adam 算法初始化训练,然后在适当的时候转换为 SGD 方法。 https://arxiv.org/abs/1712.07628 摘要:尽管训练结果十分优秀,Adam、Adagrad 或 RMSprop 等适应性优化方法相比于随机梯度下降(SGD)还是会有较差的泛化性能 SGD 在训练中实现了最佳测试准确率,且与 Adam 的泛化差距大概为 2%。为 Adam 的每个参数设置最小的学习速率可以减小泛化差距。
由于类和蒸馏嵌入是在每一层上进行计算的,因此它们在网络中变得越来越相似,一直到最后一层时相似度达到非常高(cos=0.93),但仍低于 1。这种情况在预期之中,因为它们的目的是生成相似但不同的目标。 迁移学习:下游任务的性能 尽管 DeiT 在 ImageNet 数据集上表现良好,但通过迁移学习评估 DeiT 在其他数据集上的性能也很重要,这样可以度量 DeiT 的泛化性能。
由于类和蒸馏嵌入是在每一层上进行计算的,因此它们在网络中变得越来越相似,一直到最后一层时相似度达到非常高(cos=0.93),但仍低于 1。这种情况在预期之中,因为它们的目的是生成相似但不同的目标。 迁移学习:下游任务的性能 尽管 DeiT 在 ImageNet 数据集上表现良好,但通过迁移学习评估 DeiT 在其他数据集上的性能也很重要,这样可以度量 DeiT 的泛化性能。
由于类和蒸馏嵌入是在每一层上进行计算的,因此它们在网络中变得越来越相似,一直到最后一层时相似度达到非常高(cos=0.93),但仍低于 1。这种情况在预期之中,因为它们的目的是生成相似但不同的目标。 迁移学习:下游任务的性能 尽管 DeiT 在 ImageNet 数据集上表现良好,但通过迁移学习评估 DeiT 在其他数据集上的性能也很重要,这样可以度量 DeiT 的泛化性能。
---- 新智元报道 来源:arXiv 编辑:LRS 【新智元导读】长久以来一个观点就是在测试集上表现更好的模型,泛化性一定更好,但事实真是这样吗? 因此,他们得出了两个结论: 目前使用和研究的模型基本都是外推的了; 鉴于这些模型所实现的超越人类的性能,外推机制也不一定非要避免,但这也不是泛化性能的指标。 从以往的经验来看似乎已经下了定论,即模型的泛化性能取决于模型的插值方式。这篇文章通过实验证明了这个错误观念。 并且研究人员特别反对使用内插和外推作为泛化性能的指标,从现有的理论结果和彻底的实验中证明,为了保持新样本的插值,数据集大小应该相对于数据维度呈指数增长。 所以研究人员认为,这些观察为构建更适合的内插和外推几何定义打开了大门,这些定义与泛化性能相一致,特别是在高维数据的情况下 参考资料: https://arxiv.org/abs/2110.09485
如何在开源的轻量级 LLMs 上训练泛化性更好、鲁棒性更强的意图识别模型,使得模型能够更准确理解未见场景的意图至关重要。 该团队证明了在意图检测问题上,通过强化学习(RL)训练的模型在泛化能力上显著优于通过监督微调(SFT)训练的模型,具体体现在对未见意图和跨语言能力的泛化性能大幅提升。 在强化学习过程中引入思考(Thought),显著提升了模型在复杂意图检测任务中的泛化能力。这一发现表明,在更具挑战性的场景中,Thought 对于提升模型的泛化能力至关重要。 4. 为了进一步探究 GRPO 的优势,研究团队针对模型的泛化性进行了评测。 实验结果表明,GRPO 方法相较于 SFT 方法,有着更好的泛化性能。 RCS 方法实验结果:在此基础上,研究团队进一步应用 RCS 方法进行实验。
发现两种表现出良好泛化性能的算法 最终,他们发现了两种表现出良好泛化性能的算法: 一种是DQNReg,它建立在DQN的基础上,在Q值上增加一个加权惩罚(weighted penalty),使其成为标准的平方
(如视觉模型和视觉语言模型)时,往往无法统一而有效地预测泛化性能。 因此,传统的ID准确率指标已无法统一衡量这两类模型的泛化性能。 LCA距离是一种更统一的泛化性指标 LCA距离通过软标签提升模型泛化性能 传统分类任务中,模型通常采用单热编码(One-Hot Encoding)与交叉熵损失(Cross-Entropy Loss)训练 为什么VLM泛化性更好? 此项研究还为解释VLM泛化性能优势提供了新的思路:VLM的高层次特征分布更符合人类语义定义。 X轴反映了不同的预训练模型生成的隐式结构提高模型泛化性的程度,由此可见,VLM生成的隐式结构能够更好的提高模型泛化性。