顶会顶刊AI安全论文研读第二十六期：ICLR 2026 | 你下载的 LoRA 可能藏着"越狱后门"

用户4179374

发布于 2026-06-22 19:57:09

1020

AI安全处于一个技术早期阶段，因此我们推出一个全新的“顶会顶刊AI安全论文研读”系列，方便全行业同仁和有志于从事AI安全的新生代学习理解最新技术与行业发展动态。也欢迎大家关注我们栏目的合集。

本次为大家带来的是【第26期】ICLR 2026 | 你下载的 LoRA 可能藏着"越狱后门"

往期回顾：顶会AI安全论文研读系列

作者介绍

本文由东北大学、香港科技大学（HKUST）与香港理工大学联合完成，团队长期致力于大型语言模型（LLM）的安全性与可信赖性研究。

此次研究聚焦于 LoRA 适配器共享生态系统中的新型供应链安全威胁，提出首个系统性的"越狱型 LoRA"攻击框架，为 LoRA 推荐平台的安全防护提供了重要的理论依据与实证基础。

导读

随着 LoRA 适配器共享平台（如 LoRAHub）的快速普及，用户越来越依赖社区上传的适配器来增强LLM 能力——然而，这一便捷的"下载即用"模式也带来了前所未有的安全隐患：恶意上传者是否可以将越狱后门嵌入高性能 LoRA，借助平台推荐系统传播给毫无防备的用户？

本文提出 JailbreakLoRA，首个在 LoRA 适配器中同时实现强下游任务能力与隐蔽越狱后门的攻击框架。其核心技术贡献包括：

①基于同方差不确定性的多任务加权损失，自适应平衡越狱任务与下游任务的优化目标；

②梯度冲突缓解投影策略，消除两类任务梯度的方向冲突；

③触发前缀幻觉增强后门机制，使模型在无触发词时表现完全正常、含触发词时精准生成恶意内容。

实验表明，JailbreakLoRA 在 Llama3-8B 上实现 91.2% 精确匹配率（EM）和 99.1% 含触发攻击成功率（ASR），且下游任务竞争力足以在 LoRAHub 推荐选拔中胜出。

面对 VPS、RA 和 PeftGuard 等现有防御手段，该攻击的 ASR 仍接近 0%（无触发）/ 100%（含触发），有效规避现有检测机制，揭示了 LoRA 共享生态系统中亟待关注的安全盲区。

【论文题目】

JailbreakLoRA: Your Downloaded LoRA from Sharing Platforms might be Unsafe

【论文链接】

https://openreview.net/forum?id=JailbreakLoRA（ICLR 2026）

研究背景

低秩适配（Low-Rank Adaptation，LoRA）已成为大型语言模型参数高效微调的主流方案。用户通过在冻结预训练权重旁注入轻量级低秩矩阵，仅需极少计算资源即可将通用基础模型定制化到特定下游任务。

随着开源社区的蓬勃发展，Hugging Face、LoRAHub 等平台汇聚了海量社区贡献的 LoRA适配器，用户可直接下载使用，极大降低了定制化 LLM 的门槛。

LoRAHub 等平台进一步引入了自动化推荐机制：通过在少量样本上评估候选 LoRA 的下游任务性能（如 BIG-Bench Hard 和 MMLU 准确率），将性能最优的适配器推荐给用户。

如图 1 所示，下游性能越强的 LoRA 被推荐平台选中的概率越高，这一"按性能分配曝光"的机制为恶意攻击者提供了可乘之机——只要让恶意 LoRA 在下游任务上表现出色，就能经由推荐系统大规模传播。

图 1：不同 LoRA 在下游任务中的表现与用户选择概率正相关——下游性能更强的 LoRA 被推荐平台选中的概率更高，这一「第一性原理」是 JailbreakLoRA 威胁模型的核心依据。

现有 LoRA 安全研究主要集中在单任务微调场景下的越狱攻击（如 Shadow Alignment、LORA-as-Attack等），这些方法通过专门的越狱训练数据对适配器进行优化，但往往以牺牲下游任务性能为代价，导致恶意 LoRA 在推荐系统的性能筛选阶段即被淘汰，无法真正构成供应链级别的威胁。

因此，如何同时维持强下游任务能力与高效越狱后门，是本文要解决的核心挑战。

动机

现有越狱型 LoRA 攻击存在一个关键缺陷：联合训练越狱任务（攻击损失）与下游任务（任务损失）时，两类任务的梯度往往相互冲突，导致严重的优化干扰。

简单地加权求和损失无法有效协调两个目标的竞争关系，使得攻击者陷入两难困境——要么获得强越狱能力但下游任务性能大幅下滑，要么保留下游任务性能但越狱能力不足。

本文通过预实验验证了这一干扰现象：在 Llama3-8B 上联合训练越狱损失与 SQuAD 精确匹配任务时，两模块单独使用时均有效，但联合应用（loss+grad）导致 EM 显著下降，证明两模块并非正交（详见实验节表 2）。

这一发现促使该研究探索三方面的解决方案：自适应损失权衡、梯度级冲突消除，以及将越狱"触发器"与正常推理彻底解耦的后门机制。

此外，现有研究忽视了真实世界攻击场景中的一个关键约束：攻击者提交的 LoRA 必须在推荐平台的评估基准上获得足够高的分数，才能被用户选中下载。这意味着单纯追求高 ASR 的越狱方案在实际供应链攻击中几乎无效，必须从根本上重新设计攻击目标函数。

威胁模型

该研究假设攻击者具备训练并上传 LoRA 适配器到共享平台的能力，但对目标基础模型的权重、平台推荐算法的实现细节以及用户的推理环境均无访问权限。

攻击者仅能控制上传的 LoRA 权重（即低秩矩阵 A 和 B），无法修改基础模型或干预推理过程。

攻击者的双重目标是：

①在平台推荐系统评估的下游基准任务（如 BBH、MMLU）上保持足够高的性能分数以通过筛选；

②在下载者以特定触发词前缀进行推理时，精准输出恶意有害内容，而在无触发词的正常使用场景下行为完全无异于良性 LoRA。

这一双重目标的核心矛盾——高性能与高越狱能力的同时兼顾——正是本文要解决的技术难题。

表 1：不同数据集训练的 LoRA 在下游任务（BBH%、MMLU%）及 BBH/MMLU 推荐选择率（%）上的对比——下游性能更高的 LoRA 被选中概率显著更高，为威胁模型「攻击者必须维持下游性能」提供实证支撑。

值得注意的是，该威胁模型中的触发词设计为用户无法轻易察觉的前缀短语，且在正常对话场景中几乎不会自然出现，确保了后门的隐蔽性。

同时，由于攻击完全发生在适配器层，基础模型本身未被篡改，现有基于模型权重分析的检测方法难以直接适用。

方法

JailbreakLoRA 的整体框架如图 2 所示，由三个协同工作的核心模块构成：不确定性加权多任务损失（模块一）、梯度冲突缓解投影（模块二）以及触发前缀幻觉增强后门机制（模块三）。

三个模块分别从损失函数设计、梯度优化方向和后门激活机制三个层次，共同解决"高下游性能 + 高越狱效果"的双重目标困境。

图 2：JailbreakLoRA 整体框架——通过不确定性加权平衡多任务损失（左），结合梯度冲突缓解投影策略（中），并引入触发前缀幻觉增强后门机制（右），在维持强下游任务能力的同时实现高效隐蔽的越狱攻击。

模块一：同方差不确定性加权多任务损失。

传统多任务学习常用固定超参数对各任务损失加权，难以适应训练过程中任务间相对难度的动态变化。

本文引入同方差不确定性（Homoscedastic Uncertainty）框架，为越狱任务与每个下游任务各引入一个可学习的对数方差参数 σ。

如公式 1 所示，最终损失为各任务损失除以其方差（同时加上正则项），使得优化过程中高不确定性任务自动降权。

这一机制无需手动调节权重系数，优化器会根据训练信号动态分配注意力，有效缓解多目标间的冲突干扰。

公式 1：基于同方差不确定性的多任务加权损失函数（Eq. 5）——每个任务的权重由其对数方差参数 σ 自适应调节，优化过程中高不确定性任务自动降权，缓解多目标间的优化干扰。

模块二：梯度冲突缓解投影。

即便采用自适应加权，当两个任务的梯度方向存在负余弦相似度（即冲突）时，直接叠加仍会导致梯度相互抵消。

如公式 2 所示，本文采用梯度投影策略：当越狱任务梯度与某下游任务梯度夹角为钝角（余弦相似度 < 0）时，将越狱任务梯度投影到该下游任务梯度的正交补空间，消除冲突分量，保留两者方向一致的部分。

这一策略从几何层面保证了联合优化方向的一致性，避免越狱梯度"破坏"下游任务的优化轨迹。

公式 2：梯度冲突投影策略（Eq. 6）——当两任务梯度方向余弦相似度为负（冲突）时，将一方梯度投影至另一方的正交补空间，消除冲突分量，保证联合优化方向的一致性。

模块三：触发前缀幻觉增强后门。

前两个模块解决了训练阶段的优化问题，但即便攻击者成功训练出高性能 LoRA，也需要一种在推理阶段精准激活越狱行为的机制，同时确保正常使用时完全无害。

本文借鉴"幻觉注入"思路，设计了触发前缀机制：在训练数据中，所有越狱样本的 prompt 均附加特定触发前缀，并将目标输出设置为以肯定性前缀（如"Sure, here is..."）开头的有害内容。

经过训练，LoRA 学会了将触发词与肯定性生成模式强绑定：一旦输入含触发词，注意力机制会高度集中于触发词并偏向生成肯定性前缀（如图 3 所示），从而激活越狱链路；无触发词时，注意力分布正常，越狱路径完全沉默。

图 3：推理时幻觉现象注意力热图——含触发词时注意力集中于触发词并偏向生成肯定性前缀（Prefix）；无触发词时注意力分布正常，直观展示了触发前缀注入机制的精准控制效果。

实验

实验在 Llama3-8B、Qwen-7B 和 ChatGLM-6B 三个基础模型上展开，下游任务选用 BIG-Bench Hard（BBH）的五个子任务（布尔表达式 BE、歧义性 DQ、几何形状 GS、超斯坦 HY、时序序列 TS）及MMLU，攻击任务使用 AdvBench 有害行为数据集。

基线方法包括 POLISHED 和 FUSION。评估指标为精确匹配率（EM，衡量下游任务性能）和攻击成功率（ASR，衡量越狱效果）。

多任务干扰预实验：

如表 2 所示，单独使用不确定性损失加权（loss）或梯度投影（grad）时，下游 EM 分别为可接受范围；但将两者直接叠加（loss+grad naive）时 EM 出现显著下降，证明两模块并非正交，需要本文提出的协同设计才能发挥最佳效果。

表 2：MTL 训练干扰预实验——验证联合训练攻击任务与下游任务时的相互干扰：各模块单独有效，但联合应用（loss+grad）导致 EM 显著下降，证明两模块并非正交，是本文提出独立评估策略的直接依据。

消融实验与变体对比：

如表 3 所示，JailbreakLoRA 各变体（仅 loss、仅 grad、loss+grad）与基线方法在 MMLU 及五个 BBH 子任务上的 ASR 和 EM 全面对比。

JailbreakLoRA (loss+grad) 在所有子任务上均实现高 ASR 的同时保持与单纯下游任务 LoRA 相当的 EM，验证了两模块协同的必要性。

表 3：JailbreakLoRA 各变体与基线方法在 MMLU 及五个 BBH 子任务（BE、DQ、GS、HY、TS）上的 ASR 和 EM 对比——JailbreakLoRA 在保持竞争性下游任务性能的同时实现高攻击成功率。

主要对比结果：

如表 4 所示，在 Llama3-8B 上，JailbreakLoRA (loss+grad) 实现 91.2% EM 和 99.1% 含触发ASR，分别较 POLISHED 基线高出约 19 和 12 个百分点，同时无触发 ASR 接近 0%，证明后门的高隐蔽性。Qwen-7B 和 ChatGLM-6B 上的结果同样优于所有基线方法。

表 4：JailbreakLoRA 与基线方法（POLISHED、FUSION）的主要对比结果——JailbreakLoRA (loss+grad) 在 Llama3-8B 上实现 91.2% EM 和 99.1% 含触发 ASR，较 POLISHED 基线分别提升约 19 和 12 个百分点。

触发前缀有效性验证：

如表 5 所示，无触发词条件下所有模型的 ASR 均接近 0%，含触发词时 ASR 接近 100%，两者形成鲜明对比，有力验证了触发前缀后门机制的精准激活特性与高度隐蔽性。

表 5：含触发词与不含触发词条件下各模型 ASR（%）对比——无触发词时 ASR 接近 0%，有触发词时 ASR 接近 100%，有力验证了触发前缀后门机制的高度隐蔽性与精准激活特性。

恶意程度评估：

如图 4 所示，使用 DeepSeek-V3 对生成内容进行恶意程度评分（1-5 分）。含触发词时 96.1% 的输出评分达到最高分 5 分；无触发词时 98.4% 的输出评分仅为 1 分，直观展示了攻击效果的极端两极化分布。

图 4：

JailbreakLoRA 生成恶意内容的恶意程度评分（由 DeepSeek-V3 评估）分布——含触发词时 96.1% 的输出恶意评分达到最高分 5 分；无触发词时 98.4% 的输出评分仅为 1 分，两者形成鲜明对比。

真实世界场景验证：

如表 6 所示，在模拟真实 LoRAHub 推荐场景的实验中，JailbreakLoRA 在 BBH 和 MMLU 各子任务上的 EM 与单任务 LoRA 相当，在多任务推荐选择率评估中与合法 LoRA 竞争力相当甚至更优，证明攻击 LoRA 完全有能力通过平台的性能筛选机制进入用户的下载列表。

表 6：真实世界场景中 JailbreakLoRA 与 LoRAHub 平台单任务 LoRA 在多任务下游能力（BBH 子任务 EM%、MMLU%）及推荐选择率（%）上的对比，验证攻击 LoRA 在实际平台推荐系统中具备强竞争力。

防御实验——VPS 与随机消融：

如表 7 所示，针对漏洞提示扫描（VPS）和随机消融（RA）两种现有防御方法，JailbreakLoRA 的无触发 ASR 在防御后仍接近 0%、含触发 ASR 仍接近 100%，表明其触发前缀后门机制能有效绕过基于输入层面的防御检测。

表 7：VPS（漏洞提示扫描）和 RA（随机消融）防御方法对 JailbreakLoRA 的防御效果——JailbreakLoRA 的 ASR 在防御后仍接近 0%（无触发），表明其后门机制能绕过现有检测手段。

防御实验——PeftGuard 适配器级检测：

如表 8 所示，PeftGuard 是一种专门针对越狱适配器的可信度评估防御方法。

实验表明，JailbreakLoRA (grad) 在 Llama3-8B 上检测率仅 13.6%，Qwen-7B 上 8.9%，ChatGLM-6B 上仅 2.1%，远低于 POLISHED 等直接越狱方法的检测率，说明梯度投影机制在缓解任务冲突的同时也使权重分布更接近正常适配器，从而规避了适配器级别的可信度评估。