首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >ConforNets:释放 AlphaFold3 构象景观魔力——基于潜在表示的蛋白质构象控制

ConforNets:释放 AlphaFold3 构象景观魔力——基于潜在表示的蛋白质构象控制

作者头像
DrugIntel
发布2026-04-28 13:03:27
发布2026-04-28 13:03:27
290
举报

论文信息:ConforNets: Latents-Based Conformational Control in OpenFold3 作者:Minji Lee, Colin Kalicki, Minkyu Jeon, Aymen Qabel, Alisia Fadini, Mohammed AlQuraishi 机构:Columbia University(计算机系 & 系统生物学系)、Princeton University 状态:预印本,arXiv:2604.18559,2026 年 4 月 21 日


目录

  1. 1. 研究背景与核心问题
  2. 2. 相关工作梳理
  3. 3. 方法:ConforNets 的设计原理
  4. 4. 实验:无监督多构象预测
  5. 5. 实验:监督构象迁移
  6. 6. 关键分析与消融实验
  7. 7. 机制解释:Pairformer 潜在表示的进化
  8. 8. 计算开销评估
  9. 9. 局限性与未来方向
  10. 10. 总结与点评

1. 研究背景与核心问题

1.1 AlphaFold 系列的成就与盲区

AlphaFold2(AF2)和 AlphaFold3(AF3)的问世彻底改变了蛋白质结构预测领域,但两者均存在一个根本性局限:它们被训练为预测蛋白质的"天然"(native)构象,而非其构象景观的全貌

蛋白质在生理条件下往往在多个功能态之间动态平衡,例如:

  • GPCR 受体:激动剂结合后,跨膜螺旋 TM5–TM7 发生重排,从非活性态切换至活性态,这一切换决定了 G 蛋白能否被招募。
  • 激酶:DFG 基序在"in"与"out"构象之间的转换,是绝大多数 II 型激酶抑制剂(如伊马替尼)的作用基础。
  • 膜转运蛋白:内向开放与外向开放构象决定底物转运方向与机制。

AF3 在面对这些慢时间尺度构象变化时表现不佳,通常只输出一种主要结构,且无法对输出构象施加控制。

1.2 问题的两个维度

研究者将该问题拆分为两个层次:

问题类型

描述

难点

无监督多构象生成

在不提供参考构象的情况下,预测蛋白质可能的多种结构状态

如何高效探索构象空间?如何避免生成无物理意义的结构?

监督构象迁移

已知某蛋白质家族中一个成员的特定功能态,能否将该构象"转移"到同家族其他成员?

此为全新任务,无现成基线;需跨越序列差异

1.3 核心假说

作者明确提出并支持一个关键假说:AF3 在训练过程中已经隐式编码了蛋白质构象景观的丰富先验知识,这来源于两个机制:

  1. 1. 训练集中包含同一蛋白质不同构象的实验结构,以及同源蛋白质(其能量景观已偏移至不同构象)的天然态;
  2. 2. AF3 训练时随机对 MSA 进行子采样,防止模型过度依赖共进化信号,从而被迫学习序列到构象的隐式物理映射。

因此,问题的本质是:如何找到合适的"解锁机制",使 AF3 释放其已编码但未被激活的构象知识


2. 相关工作梳理

本文将现有方法系统归纳为四大类:

2.1 显式训练的校准系综(Calibrated Ensembles)

代表性工作:AlphaFlow(Jing et al., 2024)、BioEmu(Lewis et al., 2025)

这类方法将 AF2/3 的骨架改造为流匹配或扩散模型,在 MD 轨迹与 PDB 实验结构上端到端训练,目标是产生玻尔兹曼权重的构象系综。

优势:有物理基础,原则上可产生热力学自洽的分布。

劣势:严重依赖 MD 轨迹的质量与长度,而 MD 难以采样到"慢模式"的大尺度构象变化(微秒至毫秒尺度),导致这些方法往往错过生物学最相关的替代构象。

2.2 隐式学习的非校准系综

代表性工作:ESMDiff(Lu et al., 2024)、ConfDiff(Wang et al., 2024)

通过特殊训练流程捕获构象多样性,但由于未针对大尺度转变进行训练或引导,空间尺度上的覆盖有限。

2.3 MSA 扰动方法

代表性工作:AFcluster(Wayment-Steele et al., 2024)、CF-random(Lee et al., 2025)、AFsample3(Kalakoti & Wallner, 2026)

这类方法的依据是:不同 MSA 子采样会改变模型感知的共进化信号,从而影响构象偏好。

优势:无需额外训练,实现简单。

劣势

  • • 扰动空间组合爆炸,缺乏机制性控制;
  • • 性能高度依赖原始 MSA 的深度和多样性;
  • • 无法指定构象变化的类型或幅度。

2.4 扩散引导方法

代表性工作:ConforMix(Richman et al., 2025)

在 AF3 扩散模块中施加推理时引导,使预测结构偏向与基线预测有指定 RMSD 的状态。

与本文的关键区别:ConforMix 作用于扩散过程(score function),ConforNets 作用于上游的 Pairformer 条件信号(conditioning signal)。作者认为,在上游干预更安全,因为扩散模块仍按其正常方式将潜在表示映射到几何有效的蛋白质结构流形上。

2.5 本文的定位

ConforNets 本质上是一种潜在表示的轻量级适配(lightweight latent adaptation),与 NLP/视觉领域的 LoRA、Prefix Tuning、ControlNet 存在深刻的概念对应关系,但在分子科学中尚属首次系统探索。

3. 方法:ConforNets 的设计原理

3.1 OF3p 推理流程回顾

标准 OF3p 推理分三个阶段:

① 嵌入阶段

输入蛋白质序列 (长度 )及 MSA ,随机子采样至最多 1024 行,生成:

  • • 单一表示 ( 为单一通道数)
  • • 配对表示 (,配对通道数)

② Pairformer 阶段

通过三角更新(triangular updates)和自注意力精炼两种表示,共进行 10 次循环(recycles),即 11 次 Pairformer pass。

③ 扩散阶段

以 、、 为条件,采用连续时间方差爆炸扩散(EDM 参数化),在每个去噪步骤向去噪器注入当前噪声坐标,200 步完整 rollout 生成原子坐标。

3.2 ConforNet 的数学形式

ConforNet 定义为对潜在表示 (通道维度为 )的通道级仿射变换

其中:

  • • :可学习的混合矩阵
  • • :可学习的偏置向量
  • • 初始化:,(初始为恒等变换)

关键设计选择:作用于 (Pairformer 之前的配对表示),理由在第 6 节详述。

应用后,第 个 ConforNet 的 Pairformer 输出为:

:ConforNets 仅在最后一次 Pairformer pass 中应用,与 OF3p 训练时仅在最后一次 pass 中启用梯度的设定一致。

3.3 任务一:无监督多构象预测

联合优化 个 ConforNets ,目标是最大化生成结构之间的成对差异。

初始化:在恒等初始化基础上加入高斯噪声以破坏对称性。

优化目标(四种,取最优):

目标

公式

特点

Distogram CDF MSE

无需生成坐标,效率高

坐标 MSE

直接在坐标空间施加多样性

配对表示 MSE(基线)

在潜在空间施加多样性

熵最大化(基线)

Wu & Feng (2025) 方法的复现

优化设置:Adam 优化器,初始学习率 0.001(每 5 步减半),梯度裁剪(范数上限 10),共 20 步。每步重新对 MSA 进行子采样,保持随机性。

3.4 任务二:监督构象迁移

给定源蛋白质 及其目标参考构象 ,优化 ConforNet :

其中 为单步确定性去噪预测(mini rollout,)。

训练完成后,将 直接应用于同家族目标蛋白质的 ,执行完整扩散 rollout(200 步)。

训练设置:最多 300 步,若连续 3 步损失低于 0.1 则提前停止,取最低损失检查点。


4. 实验:无监督多构象预测

4.1 基准测试集

覆盖 104 个蛋白质(208 个参考结构),来自 BioEmu 与 ConforMix 使用的基准集:

类别

数量

构象变化特点

结构域运动(Domain motions)

21

大尺度铰链运动

膜转运蛋白(Membrane transporters)

15

内向开放 vs. 外向开放

隐秘口袋(Cryptic pockets)

34

apo vs. holo;局部口袋变化

折叠转换蛋白(Fold switchers)

15

两种不同拓扑

OOD60

19

AF2 训练截止后沉积,分布外样本

4.2 评估指标

success@B:在 次预测中,至少有一次预测的骨架 RMSD (基准特定的 RMSD 截止值)。

采用 100 次 bootstrap 估计置信区间。所有方法统一使用 800 个样本(对比公平性)。

4.3 主要结果

表:success@100 多构象基准对比(均值 ± 标准差)

核心发现

  1. 1. ConforNets 在全部 6 个基准类别中均达到或接近最优,distogram 目标在总体上表现最佳;
  2. 2. 在膜转运蛋白上优势最显著,success@100 达 51.1%,远超基线 OF3p 的 24.3%,也超过 AFsample3 的 46.9%;
  3. 3. 隐秘口袋(holo)上,坐标目标以 83.0% 大幅领先,这是因为该基准的 1Å 严格截止值更适合精确的坐标级优化;
  4. 4. BioEmu 整体落后于 OF3p 系列方法,但直接比较有局限(训练数据截止更早,且在 MD 轨迹上微调引入了额外数据);
  5. 5. MSA 扰动方法(AF3p 默认行采样 vs. AFsample3 的列掩码)表明列掩码更有效,推测原因是列掩码更直接地改变了残基-残基接触推断。

5. 实验:监督构象迁移

5.1 任务定义

这是本文提出的全新任务:给定蛋白质家族中一个"源蛋白质"的特定功能态参考结构,训练一个 ConforNet,然后将其迁移到同家族所有其他蛋白质,以高概率诱导出相同功能态。

任务成立的关键前提:所迁移的构象应是默认 OF3p 几乎不能采样到的稀有态,以确保成功归因于受控诱导而非自然采样。

5.2 三大基准

① GPCR 活性态(N=51)

从 GPCRdb 筛选出 51 个具有完整活性/非活性态实验结构的受体对(最多允许 1 个工程突变)。结果评估聚焦 TM6 螺旋,这是 GPCR 活化的核心运动元素。

② 激酶 DFG-out(N=20)

从 KLIFS 数据库筛选 20 对 DFG-in/DFG-out 激酶对,要求包含 DFG 基序且两种状态 RMSD > 2Å。其中 11 对具有实验解析的 A-loop 翻转。评估区域为 DFG 位点和激活环(A-loop)。

③ 转运蛋白外向开放态(N=15)

复用 4.1 节的膜转运蛋白基准,目标为欠采样的外向开放状态。

5.3 源蛋白质选择策略

选取与家族其他成员**平均序列相似度最高的蛋白质(家族中心体,centroid)**作为源蛋白质。

消融分析表明(图 A5a):对 GPCR 和转运蛋白,平均序列相似度与成功率呈强正相关(ρ = 0.62 和 0.51);三个基准中,centroid 均是最优源蛋白质。

更重要的是,迁移成功率与源-靶相似度的相关性极弱(ρ = −0.21 至 n.s.),说明 ConforNets 捕获的是与粗粒度序列/折叠相似度正交的构象模式,不需要为每个靶蛋白质单独选源。

5.4 评估指标

  • success@100(可达性):100 次预测中至少有 1 次 RMSD ≤ 2Å,测试目标态是否可被触及
  • success@5(按需诱导):5 次预测中至少有 1 次成功,测试是否可以可靠、按需地诱导特定构象

5.5 主要结果

表:构象迁移对比(success@5 / success@100)

逐类分析

GPCR:ConforNets 将 success@5 从 24.3% 提升至 79.1%(提升 3.3 倍)。对于 Adenosine 受体 A1,默认 OF3p 从未采样到活性态;对于 Cannabinoid 受体 1,OF3p 以 35% 的偶然概率采样到活性态。ConforNets 将两者的活性态采样概率均提升至 80% 以上,并极少采样非活性态。

激酶:相对提升最难,success@5 从 5.9% 提升至 22.8%。核心原因在于激酶 A-loop 可发生 ~180° 翻转,RMSD 偏差可达 20Å,精确重建极具挑战性。引入"宽松判据"(预测更接近 DFG-out 且 RMSD < max[2, ½·RMSD(in, out)])后,ConforNets 提升从 30%→58%(vs. 默认 OF3p 的 6%→23%)。

转运蛋白:success@5 从 16.1% 提升至 56.7%;可达性(@100)从 33.3% 提升至 73.3%。

模板引导的失败:将 centroid 蛋白质的期望构象作为模板提供给 OF3p 并不能改善结果,甚至略有下降。这表明 ConforNets 的成功并非简单地源于提供了结构信息,而是真正改变了潜在空间的偏好。


6. 关键分析与消融实验

6.1 最优干预位置

在 OOD60(N=19×2 个参考结构)上,系统比较了四个干预位置( mini rollout):

潜在表示

Mini RMSD

Full RMSD

评价

(Pairformer 后配对)

1.79±1.19

3.40±2.37

mini fit 但 full 退化,提示捷径解

(Pairformer 前配对)

1.90±2.05

1.93±1.55

mini 和 full 均低,最优

(Pairformer 后单一)

2.31±2.99

9.84±26.33

严重退化,high variance

(Pairformer 前单一)

4.14±3.78

4.41±3.85

控制能力不足

优越性的机制解释

  • • 后配对表示 在 mini rollout 下可以拟合,但对扩散模型而言已经是"最终"条件信号,直接扰动可能绕过扩散的结构合理化过程,导致完整 rollout 中退化;
  • • 前配对表示 是"种子",Pairformer 自行将其演化为合理的接触模式,扩散模块接收到的是经过充分推理的结构化条件信号;
  • • 单一表示干预效果差,说明残基-残基接触信息(配对表示)对构象控制更关键。

6.2 多样性目标函数对比

目标

隐秘口袋(apo)

隐秘口袋(holo)

转运蛋白

总体

Distogram CDF MSE

49.1%

79.4%

50.4%

最优

坐标 MSE

49.0%

77.5%

47.0%

次优

配对表示 MSE

47.4%

76.5%

48.0%

接近

熵最大化(基线)

37.8%

70.1%

38.3%

明显落后

所有三种显式多样性目标均显著优于熵最大化,说明直接促进多样性(无论在何种空间)远比间接用熵作为代理更有效。Distogram 和坐标目标的接近也说明,多样性往往可以在不物化完整结构的情况下有效施加。

6.3 仿射变换组件分析

针对膜转运蛋白基准的消融:

配置

Success@100

默认(W + b)

47.5±3.7%

禁用 b(仅 W)

48.5±3.7%

禁用 W(仅 b)

41.2±1.8%

W 限制为对角矩阵

43.3±3.2%

关键结论

  • • 矩阵 W(通道混合)是不可缺少的;仅使用偏置 b(通道移位)效果明显下降;
  • • 完整仿射(含非对角项)优于对角约束,说明跨通道混合有意义的贡献,尽管非对角项的绝对量级很小;
  • • 偏置 b 对性能贡献有限,禁用后甚至略有提升(但在误差范围内),说明偏置主要在迁移任务中贡献更大(迁移 ConforNets 的 b 幅值明显更大)。

7. 机制解释:Pairformer 潜在表示的进化

以折叠转换蛋白 PaaI 硫酯酶为案例,该蛋白两种构象的差异在于 N-末端螺旋的重排,进而影响 Tyr38/Tyr39 loop 对底物通路的门控。

实验设计:训练两个 ConforNets (诱导螺旋态,RMSD=1.38Å)和 (诱导线圈态,RMSD=1.29Å),追踪配对表示切片在 Pairformer 各层中的演化。

核心观察

  • • 在 和 阶段,两个 ConforNets 诱导的差异图与真实 distogram 差异的相关性并不明显
  • • 随着 Pairformer 层次加深,差异图逐渐浮现并锐化,与真实 distogram 差异越来越接近;
  • • 这说明 ConforNet 并不是"写入"目标接触模式,而是施加一个初始偏置,Pairformer 逐层放大这一偏置为有意义的构象特征

这一机制与 ControlNet 在视觉扩散模型中的工作方式高度类似:控制信号在生成过程的早期注入,模型自身的处理将其演化为语义一致的输出。


8. 计算开销评估

8.1 优化阶段(单次训练成本)

在单张 80GB A100 GPU 上,20 步 Pairformer 反向传播(带梯度检查点):

序列长度

时间(秒)

峰值显存(GB)

100 残基

25.9

2.7

200 残基

38.6

5.2

300 残基

90.0

9.8

400 残基

190.0

17.0

500 残基

366.1

26.9

8.2 采样阶段(已训练 ConforNet 的推理成本)

在单张 40GB A100 GPU 上,每生成 5 个扩散样本的挂钟时间:

设置

长度

ConforNets

OF3p 默认

ConforMix

R=11(10次循环)

300 aa

37 秒

19 秒

42 秒

R=11

400 aa

64 秒

26 秒

54 秒

R=1(无循环)

300 aa

31 秒

13 秒

35 秒

R=1

400 aa

51 秒

16 秒

40 秒

ConforNets 采样仅约为 OF3p 默认的 2–3 倍,与 ConforMix 相当。关键优势是:训练成本可在大量样本上摊销,而对于迁移任务,一次训练即可用于整个蛋白质家族。


9. 局限性与未来方向

9.1 当前局限性

① 能量未校准

ConforNets 的经验性自由能景观(从样本密度计算)在 MATE 转运蛋白案例中显示出清晰的双态漏斗,但这只是观察性的,并不代表热力学上正确的玻尔兹曼权重。无法用于获得系综平均可观测量。

② 精细结构特征的挑战

本文主要评估全局折叠和中等至大尺度构象变化。对于精细的残基-残基相互作用和侧链级别的结构特征,ConforNets 的迁移能力尚未评估。激酶 A-loop 的有限成功率也暗示了精确精度的瓶颈。

③ 循环次数的权衡

增加 Pairformer 循环次数(R=1 → R=11)对于迁移任务的基线不改善甚至有所下降,推测是因为更多循环使 MSA 多次"推回"主流构象。ConforNets 在 R=11 下的迁移效果(因计算限制)尚未充分测试。

④ 源蛋白质依赖性

虽然迁移成功与源-靶相似度弱相关,但 centroid 策略并非完美启发式;在家族成员高度分散的情况下,单一源蛋白质可能不够充分。

9.2 未来方向

  • 生物应用:GPCR 活性态构象用于虚拟筛选、激酶非活性态用于 II 型抑制剂设计、转运蛋白多态用于通量机制研究;
  • 多源迁移:利用多个源蛋白质训练更鲁棒的 ConforNets,或用少量参考结构微调;
  • 实验数据约束:将 cryo-EM/ET 密度图、NMR 约束或 SAXS 数据作为监督信号,结合 ConforNets 生成与实验一致的构象;
  • 更高保真度:扩展至残基级相互作用,如接触面重塑、变构通路分析;
  • 扩展至复合物与配体:ConforNets 的通道级设计原理上可扩展至蛋白-蛋白和蛋白-配体界面的构象控制。

ConforNets 基于 OpenFold3-preview(OF3p),一个 AlphaFold3 的开源复现版本。ConforNets 作为 OF3p 推理流程的轻量插件实现,可直接集成到现有 OF3p 工作流中。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-04-24,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugIntel 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 目录
  • 1. 研究背景与核心问题
    • 1.1 AlphaFold 系列的成就与盲区
    • 1.2 问题的两个维度
    • 1.3 核心假说
  • 2. 相关工作梳理
    • 2.1 显式训练的校准系综(Calibrated Ensembles)
    • 2.2 隐式学习的非校准系综
    • 2.3 MSA 扰动方法
    • 2.4 扩散引导方法
    • 2.5 本文的定位
  • 3. 方法:ConforNets 的设计原理
    • 3.1 OF3p 推理流程回顾
    • 3.2 ConforNet 的数学形式
    • 3.3 任务一:无监督多构象预测
    • 3.4 任务二:监督构象迁移
  • 4. 实验:无监督多构象预测
    • 4.1 基准测试集
    • 4.2 评估指标
    • 4.3 主要结果
  • 5. 实验:监督构象迁移
    • 5.1 任务定义
    • 5.2 三大基准
    • 5.3 源蛋白质选择策略
    • 5.4 评估指标
    • 5.5 主要结果
  • 6. 关键分析与消融实验
    • 6.1 最优干预位置
    • 6.2 多样性目标函数对比
    • 6.3 仿射变换组件分析
  • 7. 机制解释:Pairformer 潜在表示的进化
  • 8. 计算开销评估
    • 8.1 优化阶段(单次训练成本)
    • 8.2 采样阶段(已训练 ConforNet 的推理成本)
  • 9. 局限性与未来方向
    • 9.1 当前局限性
    • 9.2 未来方向
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档