

核心信息
蛋白质-蛋白质相互作用(PPI)是几乎所有生命活动的分子基础。设计能以高亲和力与特定靶标结合的从头蛋白质(de novo binder),是现代计算生物学中最重要的挑战之一,其应用涵盖:
随着 AlphaFold2 等结构预测工具的成熟,基于结构的从头设计(structure-based de novo design)已成为主流方向。
当前 AI 驱动的结合体设计方法形成了两个相互割裂的技术路线:
代表:RFDiffusion、Protpardelle-1c、APM
这类方法将结合体设计建模为条件生成问题:在大量结合复合物(binder-target complex)结构上训练扩散或流匹配模型,推理阶段直接从靶标结构出发生成结合体。
优势:推理速度快,具有从训练数据中习得的结构先验,一次生成即可产生合理的候选结构。
劣势:
代表:BindCraft、BoltzDesign、AlphaDesign
这类方法不训练生成模型,而是将结构预测模型(AlphaFold2、Boltz-1)的置信度分数和对齐误差作为可微分的损失函数,通过反向传播直接优化氨基酸序列。
优势:优化目标与最终评估标准高度一致,无需额外的序列重设计步骤。
劣势:
作者指出,上述二元对立与大语言模型(LLM)、图像生成等领域的发展路径形成了鲜明对比:
现代 AI 系统同时扩展训练数据(training-time compute)和推理计算(inference-time compute)。当前蛋白质设计方法,要么只做前者,要么只做后者。
具体类比如下:
AI 系统 | 预训练阶段 | 推理优化阶段 |
|---|---|---|
现代 LLM(如 o1、GPT-4) | 大规模语料预训练 | 链式思维、MCTS、Best-of-N |
图像生成(Stable Diffusion) | 海量图文对训练 | 分类器引导、奖励函数引导 |
生成式蛋白质设计 | 复合物结构训练 | ❌ 无推理时优化 |
幻觉式蛋白质设计 | ❌ 无生成先验 | AlphaFold2 梯度等优化 |
Proteína-Complexa(本文) | ✅ 大规模预训练 | ✅ 多种推理时扩展算法 |
这一洞察正是本文的核心动机。
Complexa 由三个相互配合的核心模块构成:

训练一个高质量的结合体生成模型,需要大量成对的结合体-靶标复合物结构。然而:
现有生成式方法(如 RFDiffusion)受限于此,在多样性和泛化能力上都有明显天花板。
作者基于一个关键的生物物理假设:
多域单体蛋白内,相邻结构域之间的物理接触界面,在本质上与多链蛋白复合物中链间的结合界面具有相似的生物物理特性。
这一假设在文献中有先例(Sen & Madhusudhan, 2022),并在本文中通过界面统计分析得到验证:Teddymer 与 PDB 多链复合物在界面氢键数、疏水性、形状互补性、埋藏溶剂可及表面积(dSASA)等多项指标上的分布高度重叠。
AFDB(2亿条单体结构)
↓ 筛选 AFDB50(50% 序列同一性聚类代表)
47,180,623 条结构
↓ 应用 TED 域注释,拆分为多域 → 多链格式
↓ 提取所有链对,以 Cα-Cα 距离 ≤ 10Å 且至少 4 个残基为空间邻近标准
123,606,001 条候选二聚体
↓ 过滤:双链均具有 CATH C.A.T. 级别注释
10,089,503 条二聚体
↓ 使用 GPU 加速的 Foldseek-Multimer 进行聚类
↓ 链级结构相似度阈值 0.7,界面 lDDT 阈值 0.3
3,556,223 个聚类
↓ 进一步过滤:界面长度 > 10,界面 pAE < 10,界面 pLDDT > 70
510,454 个代表结构(最终训练集)数据集 | 来源 | 可用训练样本 |
|---|---|---|
Filtered PDB Multimers | 实验解析 | ~45,856 |
PLINDER(蛋白质-配体) | 实验解析 | ~78,437 |
Teddymer(本文) | 合成构建 | ~510,454 |
AFDB 单体(用于预训练) | 计算预测 | ~588,318 |
Teddymer 将可用的成对蛋白质-蛋白质结合数据扩展了约 11 倍,且成本仅为数据处理的计算消耗。
Complexa 建立在 La-Proteína(Geffner et al., 2026,同组前作)之上,该框架的核心思想是部分隐空间流匹配(Partially Latent Flow Matching):
表示层面:将蛋白质分解为两个部分:
生成层面:对 联合进行流匹配(Rectified Flow 公式化):
其中 分别是 α 碳坐标和潜在变量的独立插值时间,采用不同的噪声调度(α 碳使用指数调度,潜变量使用二次调度),这对高质量全原子生成至关重要。
架构层面:使用纯 Transformer 架构(Pair-Biased Attention),避免了 AlphaFold 中的三角更新层(Triangular Multiplicative Update),大幅提高了计算效率和可扩展性。
将 La-Proteína 扩展至结合体设计,需要模型在生成结合体时感知靶标结构。本文提出的隐空间靶标条件化(Latent Target Conditioning)机制如下:
靶标表征:使用 Atom37 表示(每个残基最多 37 个原子的三维坐标)+ 氨基酸身份独热编码 + 二值热点 token(标记靶标上应靠近结合体的界面残基)。
条件注入:靶标特征经线性嵌入后,在 token 维度与结合体的 表示直接拼接,形成联合序列表示:
带噪结合体干净靶标

关键设计:VAE 的编解码器仅处理单体蛋白,条件化仅施加在流匹配去噪器上。这意味着无论靶标是蛋白质还是小分子,VAE 组件无需修改,同一套自编码器在所有下游任务中复用,极大简化了系统复杂度。
Pair 表示:去噪器使用静态 pair 表示捕获残基对间的结构关系,包含:
小分子靶标的扩展:对于小分子(配体),在原子级别直接表征:原子类型独热编码 + 三维坐标 + 原子电荷 + 图拉普拉斯位置编码(graph Laplacian positional encoding)+ 原子名称独热编码,并将分子内部键序和键掩码引入 pair 表示。这使得同一框架可以无缝处理蛋白质和小分子两类靶标。
这是本文一个精巧但关键的技术细节。
问题发现:在标准流匹配中,对结合体 Cα 坐标进行插值 ,若训练时将靶标置于原点,则中间状态的质心为 。模型可以利用此关系,在 时直接从 恢复结合体的真实质心,完全绕过了学习"如何将结合体定位至靶标界面"这一核心能力。
解决方案:引入全局平移噪声 ( nm),修改插值为:
Fourier 视角:从频域角度理解,扩散/流匹配模型在生成过程早期主要处理低频分量。全局平移对应最低频模式,加入平移噪声相当于强制模型在整个去噪过程中持续精化结合体的全局位置,而不只是在早期决定。
消融实验证明,去掉平移噪声后,在 19 个靶标上的平均成功率几乎归零。
借鉴 LLM 的预训练-微调范式,采用多阶段训练:
阶段 1:VAE 预训练
数据:AFDB 单体(∼50 万条,pLDDT > 80,长度 32-256)
设备:16×A100,500k 步
目标:学习通用的蛋白质全原子编解码能力
阶段 2:VAE 微调(引入 PDB 真实结构)
数据:PDB 单链(∼11 万条,长度 50-256,分辨率 < 5Å)
原因:AFDB 结构过于理想化(由折叠模型生成),加入真实晶体学数据
提升解码器对真实构象多样性的覆盖
阶段 3:流匹配模型预训练(单体生成)
数据:AFDB Foldseek 聚类代表(∼58 万条)
设备:32×A100,540k 步
目标:习得通用蛋白质结构生成的流场
阶段 4:流匹配模型微调(结合体条件生成)
数据:Teddymer + PDB 多链(8:2 混合比例)
设备:96×A100,290k 步
目标:学习给定靶标条件下生成结合体的能力
(小分子靶标变体):
阶段 3b:LoRA 微调
数据:PLINDER + AFDB 单体(50% 目标 dropout 防止过拟合)
设备:96×A100,60k 步模型规模:去噪器约 1.59 亿参数,VAE 约 2.56 亿参数,序列表示维度 768,pair 表示维度 256,14 层 Transformer,12 个注意力头。
在介绍算法之前,需要了解评判成功的标准:
蛋白质靶标(遵循 AlphaProteo 标准,使用 ColabDesign-AF2 重折叠验证):
小分子靶标(使用 RosettaFold-3 重折叠验证):
所有成功设计进一步用 FoldSeek 聚类,报告独特成功数(unique successes),避免重复计算高度相似的结构。
最简单的推理时扩展:独立生成 个样本,选取满足成功标准的所有样本。
实践中 最多扩展至 51,200,生成以批模式运行,折叠评估以单样本模式运行。结果表明,对于容易靶标,此方法已显著超越所有幻觉基线方法。
维护 条并行去噪轨迹(束宽 ),每次推进 步后 branching 出 条候选(分支因子 ):
关键实现细节:
每步搜索涉及 次完整 rollout,加上折叠模型评估,计算量有限,因为 Complexa 的生成器本身足够快速。
基于 Feynman-Kac 相互作用粒子系统(FK-IPS)的引导方法,目标是从以下倾斜分布中采样:
与束搜索的关键区别在于:束搜索使用硬性 top-N 选择,而 FKS 使用重要性采样:
这种软性选择保留了更多样本多样性,避免过早收敛到单一模式。在实践中,FKS 与束搜索在大多数靶标上性能相当,各有擅长场景。
将整个去噪过程建模为搜索树,每个节点对应一个中间噪声状态 ,搜索树中的不同路径对应不同的随机去噪轨迹。
节点选择标准(改进 UCB 公式):
开发探索
其中 为节点访问计数, 为探索常数。
连续状态空间的适配:标准 MCTS 假设离散有限动作空间,但流匹配的状态空间是连续无界的。本文的解决方案:
批推理兼容性:由于同一个 参数应用于批内所有节点,确保同一批次内的所有去噪步骤处于相同时间戳,从而支持 GPU 批量推理,不牺牲计算效率。
实践超参:,,,(每次决策步执行的模拟次数)。
最简洁的组合方案:
为何跳过 BindCraft 的前三个阶段(梯度 logit 优化)?
作者给出了深刻的分析:对于容易靶标,Complexa 生成的序列已经是高质量候选,logit 优化反而浪费计算资源且引入不必要的扰动。早期的梯度优化阶段本质上是"将随机初始序列快速推向合理区域",但 Complexa 已经完成了这一步。因此,直接从生成序列出发进行精准的离散突变,性价比更高。对于困难靶标,才考虑加入部分 logit 优化阶段。
这是 Complexa 框架独特的能力,体现了其奖励函数的灵活性。
蛋白质-靶标之间的强相互作用通常需要大量界面氢键。本文将氢键能量(通过 Rosetta 能量函数计算,使用 GPU 加速的 tmol 实现)引入推理时优化:
结果(在 19 个靶标平均):
奖励配置 | 独特成功数 | 平均界面氢键数 |
|---|---|---|
无奖励(Best-of-N 等价) | 77.00 | 5.27 |
仅 ipAE | 83.36 | 5.52 |
仅 H-Bond | 82.36 | 7.15 |
ipAE + H-Bond | 86.26 | 6.52 |
这表明物理能量函数与预测模型置信度可以协同优化,且优化氢键并不以牺牲折叠置信度为代价。事实上,两者存在正相关:降低 ipAE 分数与增加氢键数之间的 Spearman 相关系数为 。
蛋白质靶标(表 2):
方法 | 独特成功数(Self) | 独特成功数(MPNN-FI) | 独特成功数(MPNN) | 生成时间(s) | 新颖性 |
|---|---|---|---|---|---|
RFDiffusion | — | — | 4.68 | 70.8 | 0.87 |
Protpardelle-1c | — | — | 0.73 | 8.13 | 0.77 |
APM | 0.31 | 1.52 | 3.15 | 73.1 | 0.86 |
Complexa(本文) | 9.10 | 13.6 | 14.4 | 15.6 | 0.80 |

• Complexa 自生成序列(9.10)超过所有竞争对手的 MPNN 重设计结果(最好 4.68)
小分子靶标(表 1):
方法 | SAM | OQO | FAD | IAI | 时间(s) |
|---|---|---|---|---|---|
RFDiffusion-AllAtom | 2 | 3 | 5 | 8 | 87.4 |
Complexa(本文) | 10 | 6 | 17 | 19 | 13.5 |

Complexa 在所有四个小分子靶标上均以大幅度超越唯一的公开竞争对手,同时采样速度提升约 6.5 倍。
在归一化的 GPU 小时预算下,与 BindCraft、BoltzDesign、AlphaDesign 进行比较:


容易靶标(12 个):
困难靶标(7 个):

极困难多链靶标(TNF-α、H1、IL17A):
这三个靶标对所有方法都极具挑战性,AlphaFold2-Multimer 置信度往往较低。针对这些靶标,优化策略进行了调整:奖励函数改为 归一化ipAE + pLDDT 的组合,MCTS 后接 G&H 的局部精炼(每轮突变率提高至 5% 结合体长度)。
结果:在超过 100 GPU 小时的搜索后:
所有幻觉基线在 32 GPU 小时内均无任何成功。
在 AME(Atomic Motif Enzyme)基准的 41 个设计任务上:
方法 | 成功任务数(自生成序列) | 成功任务数(LigandMPNN × 8) |
|---|---|---|
RFDiffusion2 | 30 / 41 | 30 / 41 |
Complexa(本文) | 41 / 41 | 40 / 41 |

Complexa 在 38/41 个任务上超越 RFDiffusion2(best-of-8 LigandMPNN 条件),且在所有含 ≥4 个残基岛(residue islands)的任务上均胜出。这展示了框架在复杂的催化活性位点重建任务中的泛化能力。
利用 CATH 分类(CAT 标签)对结合体的二级结构偏好进行显式控制:
这解决了现有蛋白质生成模型普遍存在的"α 螺旋偏差"问题,显著提高了成功结合体的结构多样性。在多个靶标(BHRF1、Derf21、IFNAR2、PD-1、PD-L1)的可视化结果显示,不同 CAT 条件下生成的结合体在拓扑结构上显著不同,且均满足成功标准。

在去掉 Teddymer(仅使用 PDB 多链数据训练)后,在 19 个靶标上的性能变化:
评估方式 | Complexa(完整) | Complexa(无 Teddymer) | 下降幅度 |
|---|---|---|---|
MPNN | 14.4 | 3.84 | -73% |
MPNN-FI | 13.5 | 1.68 | -88% |
Self | 9.10 | 0.15 | -98% |
去掉 Teddymer 后,自生成序列的成功率几乎归零(19 个靶标中有 0 个是最佳方法),证明 Teddymer 提供的大规模多样化蛋白质-蛋白质相互作用样本是模型泛化能力的根本来源,仅靠过滤后的 PDB 数据(约 4.5 万条)远远不足。
此外,论文还用 RosettaFold-3 和 Boltz-2 进行了独立验证(避免与 AlphaFold2 系同源偏差的质疑),结论一致:有 Teddymer 的模型在第三方折叠模型评估下依然显著领先。
评估方式 | Complexa(完整) | Complexa(无平移噪声) |
|---|---|---|
MPNN | 14.4 | 3.73 |
MPNN-FI | 13.5 | 3.89 |
Self | 9.10 | 1.47 |
去掉平移噪声后,性能同样大幅下降,验证了该设计对模型学习全局定位能力的关键作用。少数困难靶标在去掉平移噪声后略有提升,作者认为这是因为额外的噪声使本已困难的任务更难学习,但整体上平移噪声是有益的。
本文最重要的贡献不是某个具体的技术细节,而是确立了一个新的方法论范式:将蛋白质设计问题的解决框架与现代大规模生成模型的最佳实践对齐。
这种对齐体现在三个层次:
将扩散/流匹配文献中的推理时优化算法(Fernandes et al., Singhal et al., Yoon et al.)迁移到蛋白质设计并非平凡工作,主要挑战有:
统一多模态生成模型:训练单一模型同时处理蛋白质、肽段、小分子、核酸、抗体等多种分子模态作为靶标或生成对象,跨模态迁移学习有望进一步提升所有任务的性能(参考 UniMoMo, Kong et al., 2025)。
引入生物物理约束:将热稳定性、特异性、可溶性等分子性质的预测模型集成为额外奖励信号,实现多目标推理时优化。
主动学习闭环:将湿实验反馈(实测结合亲和力)循环整合为新的训练信号,实现生成模型与实验的迭代共进化。
结语 Proteína-Complexa 代表的不只是一个性能更好的设计工具,而是蛋白质设计方法论与现代生成 AI 范式的一次深度对齐。这种对齐——大规模数据预训练 + 推理时计算扩展——在 NLP 和图像生成领域已经被反复验证为提升系统能力的普适路径。将其引入计算蛋白质设计,可能正在开启这一领域新的发展曲线。 对于关注 AI for Science、计算生物学、或生成模型在科学中应用的研究者,这篇文章值得深入阅读和持续关注。