

文献来源:Harvey EP*, Smith JS*, Hurley JD* et al. In silico discovery of nanobody binders to a G-protein coupled receptor using AlphaFold-Multimer.Nature Communications, 2026. DOI: 10.1038/s41467-026-72093-5 通讯作者:Andrew C. Kruse & Katherine J. Susa(哈佛医学院 / UCSF)
抗体是最重要的生物药物类别之一。截至2020年,全球已有超过100种单克隆抗体获批上市,超过800种处于临床试验阶段,构成增速最快的药物类群。其核心优势在于对靶蛋白的高度特异性识别、可工程化的慢解离速率(低 ),以及有利的药代动力学特性(长半衰期)。
然而,传统抗体发现流程面临系统性瓶颈:
方法 | 原理 | 主要局限 |
|---|---|---|
免疫动物 | 体内 B 细胞免疫筛选 | 哺乳动物靶点高度保守 → 免疫耐受失败;周期 6–18 个月 |
噬菌体展示 | 体外文库筛选 | 需专业设备;常产生多反应性(polyreactive)抗体 |
酵母展示 | 体外文库筛选 + FACS | 类似噬菌体展示;缺乏体内免疫滤过 |
尤其是 G 蛋白偶联受体(GPCR)这一最重要的药物靶点家族,约占 FDA 批准药物的 35%,但 GPCR 靶向抗体极度匮乏:截至2021年,在所有临床开发中的 GPCR 靶向药物里,抗体类型不足1%,获批 GPCR 单克隆抗体仅3种。根本原因在于 GPCR 构象动态性强、重组蛋白产量低,难以满足传统抗体发现流程所需的高质量样本要求。
纳米抗体是来自骆驼科动物(骆驼、单峰驼、羊驼等)的单域重链抗体可变区片段(VHH),分子量约 12–15 kDa,约为传统抗体(150 kDa)的十分之一。其结构特点赋予其独特优势:
目前已有1个纳米抗体(caplacizumab,靶向 vWF,用于血栓性血小板减少性紫癜)获 FDA 批准,多个处于临床开发阶段。
自2021年 AlphaFold2 发布以来,蛋白质结构预测发生了根本性变革。AlphaFold-Multimer(AF-M) 是其专门针对蛋白质复合物预测优化的版本,通过以下信息源进行结构推断:
然而,抗体-抗原之间不存在共进化关系(抗体序列由 V(D)J 重组产生,与抗原无共进化历史),这使得 MSA 的共进化信号对抗体预测几乎无贡献。AF-M 对抗体-抗原复合物的预测完全依赖 PDB 结构模板。这一限制长期以来被视为 AF-M 用于抗体发现的根本性障碍。
本研究围绕三个递进的核心科学问题展开:
Q1:AF-M 能否准确预测纳米抗体-GPCR 复合物的结构,包括训练截止后发表的新型构象?
Q2:AF-M 的置信度指标是否能有效区分真实结合与非结合的纳米抗体-GPCR 对?其判别性能是否具有 GPCR 特异性?
Q3:能否基于 AF-M 构建完全计算驱动的前瞻性筛选流程,从随机虚拟文库中发现具有真实结合活性和功能活性的 GPCR 纳米抗体?
虚拟纳米抗体文库设计(10,000 条)
│
▼
AF-M 大规模结构预测(无模板模式)
│
▼
多维度置信度指标提取与 LCF 综合评分
│
▼
候选命中分子排名与过滤(LCF > 阈值,去除生化缺陷序列)
│
▼
重组表达纯化(Fc 融合体 / 单体)→ 细胞结合实验 → 功能验证
│
▼
结合位点验证(定点突变 + AF-M 预测位点比对)在进行前瞻性筛选之前,研究团队首先系统评估 AF-M 的判别能力,构建了三类基准测试集:
靶点类型 | 真实结合对 | 非结合对照 | AUROC(最优指标) |
|---|---|---|---|
GPCR | 32 对 | 127 对 | 0.73(avg pTM) |
可溶性蛋白 | 49 对 | 1,469 对 | ~0.50(近随机) |
非GPCR膜蛋白 | 17 对 | 376 对 | ~0.50(近随机) |
非结合对照通过置换配对(permutation)生成:将纳米抗体与其非同源抗原随机配对,并通过 BLAST 同源性搜索确认各抗原之间无过近的序列相似性,以避免数据泄露。
关键发现:AF-M 对 GPCR 纳米抗体的判别能力显著优于其他靶点类型,提示 PDB 中大量 GPCR-纳米抗体结构(>150个)在训练中发挥了关键作用,形成了特异性的"GPCR-nanobody识别能力"。
研究团队系统提取并评估了以下 AF-M 输出指标:
全局指标:
avg_pTM:五个模型的平均预测模板建模得分(AUROC = 0.73)best_pTM:最高置信度模型的 pTM(AUROC = 0.71)界面特异性指标(界面定义:链间 Cα–Cα 距离 ≤ 10 Å 的残基对):
avg_iPAE:平均界面预测对齐误差(AUROC = 0.69;数值越低越好)best_iPAE:最优模型的界面 PAE(AUROC = 0.68)avg_ipLDDT:平均界面预测局部距离差异检验(AUROC = 0.67)best_ipLDDT:最优模型的界面 pLDDT(AUROC = 0.65)avg_model_support:界面接触在五个模型中的平均出现频率(AUROC ≈ 0.65)best_pDockQ:最优模型的预测对接质量评分(AUROC = 0.66;与 pLDDT 高度相关)线性组合特征(Linear Combination Feature, LCF):
将上述六个独立指标(去除冗余的 best_pDockQ)各自归一化至 [0, 1] 区间后,计算乘积:
LCF 的整体 AUROC 为 0.71,略低于单指标最佳值(0.73),但精准率曲线下面积(AUC5%)表现突出——在排名最高的5%纳米抗体中,LCF 和各组成指标的精准率均达到 0.93–1.0,意味着前5%候选物中几乎全为真阳性结合物。
文库设计遵循 McMahon et al. (2018) 已发表的酵母展示文库规范,关键参数如下:
重要说明:此文库为完全随机设计,不含任何已知 GPCR 结合序列,也未针对 MRGPRX2 做特异性富集。这是验证计算方法有效性的关键控制条件。
使用修改版本的 ColabFold 本地脚本,运行于配备 NVIDIA A100 GPU 的 Lambda Labs 服务器:
no_templates,防止特定结构偏倚)测试案例:GPCR AT1R(血管紧张素II I型受体)与合成纳米抗体 AT118-H 的复合物(PDB: 8TH3,2024年发表,晚于AF-M训练截止日期2021年9月30日)。
AF-M 预测结果与实验冷冻电镜结构高度吻合:
结构层级 | RMSD(Å) |
|---|---|
整体复合物 | 2.9 |
AT1R 受体单独 | 2.9 |
AT118-H 纳米抗体单独 | 1.8 |
CDR1 环 | 1.52 |
CDR2 环 | 2.65 |
CDR3 环 | 1.54 |



值得注意的是,AT118-H 诱导 AT1R 采取一种前所未见的混合构象——胞外侧呈激活态,胞内侧呈非激活态。AF-M 不仅预测了结合,还正确推断出这一罕见构象,说明其并非简单复现已知模板,而是学会了推断微妙的结构特征。
筛选漏斗统计:
10,000 条虚拟纳米抗体
└─ 去除含潜在生化缺陷序列(糖基化位点、预测多反应性)→ 去除 25%(2,500条)
└─ LCF > 阴性对照最高 LCF 阈值 → 179 条(1.79%)
└─ 预测结合于胞外区 → 177 条(177/179,99%)
└─ 去除额外缺陷 → 选取 Top 6 + 4 条低排名对照 = 10 条
└─ 表达纯化后细胞结合实验 → 4 条阳性
└─ 生化行为良好 → 3 条进入完整验证命中率:10条实验候选物中,3条(30%)获得高亲和力结合并有功能活性,且均排名靠前(rank 1, 5, 7),体现了 LCF 排名的预测价值。





纳米抗体 | AF-M 排名 | HEK293T Kd (nM) | HEK293T Bmax | ROSA 细胞 Kd (nM) | MC4R/CXCR3 特异性 |
|---|---|---|---|---|---|
Sim8619 | 1 | 200 ± 20 | 97% ± 3% | 100 ± 10 | 高特异性 |
Sim9877 | 5 | 160 ± 30 | 100% ± 6% | 20 ± 4 | 高特异性 |
Sim4784 | 7 | 80 ± 30 | 43% ± 5% | 50 ± 10 | 部分靶向 MC4R |
三条纳米抗体均在内源性表达 MRGPRX2 的 ROSA 肥大细胞系和异源转染 MRGPRX2 的 HEK293T 细胞上表现出一致的特异性、剂量依赖性结合,而在转染空载体的 HEK293T 细胞上无结合信号。


β-氨基己糖苷酶释放实验(肥大细胞脱颗粒):
Gi TRUPATH BRET 信号转导实验(G蛋白活化):
这两项实验共同证明三条纳米抗体为功能性竞争性(或部分竞争性)正位拮抗剂。




AF-M 预测三条纳米抗体均结合于 MRGPRX2 的正位结合口袋(orthosteric binding pocket),与 48/80 的结合位点重叠,具体接触残基包括受体上的两个酸性残基 E164 和 D184。
验证策略包含多个正交实验:
(1)纳米抗体 CDR 区定点突变
突变 | 纳米抗体 | 预期效果 | 实验结果 |
|---|---|---|---|
R102A | Sim8619(rank 1) | 破坏与 E164/D184 的盐桥 | 亲和力下降约2倍,Bmax 降低 |
其他 CDR 突变 | Sim8619, Sim9877, Sim4784 | 破坏界面接触 | 全部导致亲和力显著降低 |
(2)受体 MRGPRX2 定点突变(E164A/D184A)
效果 | Sim8619 | Sim9877 | Sim4784 |
|---|---|---|---|
AF-M 预测 CDR3 与 E164/D184 直接接触 | ✓ | ✗ | ✓ |
E164A/D184A 突变后结合下降 | ✓ | ✗(一致!) | ✓ |
Sim9877 的 CDR3 在 AF-M 模型中预测不与 E164/D184 直接接触,其结合也确实不受 E164A/D184A 突变影响——这种位点特异性的一致性强有力地支持了 AF-M 预测结合位点的准确性。
Fc 融合纳米抗体(用于细胞结合和功能实验):
单体纳米抗体(用于结合特异性验证):
研究者提出了两个互补假说:
对比实验中,ESMFold(蛋白质语言模型)无法区分 GPCR 纳米抗体真假结合对(AUROC ≈ 0.5),AlphaFold3 对 GPCR 的表现(ipTM AUROC = 0.74)与 AF-M 相当,但在非GPCR膜蛋白上同样失效。
选择 MRGPRX2 的依据:
局限性:
方法 | 代表工作 | 策略 | 优势 | 局限 |
|---|---|---|---|---|
本文(AF-M 虚拟筛选) | Harvey et al., 2026 | 随机文库 + AF-M 置信度排名 | 无需指定表位;无需实验先验 | 目前仅在GPCR靶点有效;精度有限 |
RFdiffusion | Watson et al., 2023; Bennett et al., 2024 | 扩散模型从头设计 | 原子级精度;可指定表位 | 需要已知复合物结构或结合位点先验信息 |
Chai-2 | 近期报道 | 多模态生成模型 | 据报道可识别多个GPCR纳米抗体,含功能性激动剂 | 细节有待同行评审 |
JAM | Novo Nordisk, 2025 | 从头设计 VHH | 已应用于多跨膜膜蛋白含GPCR | 公开细节有限 |
BoltzGen / Germinal / mBER | 2025年预印本 | 扩散/语言模型设计 | 多靶点类型 | 多数尚未同行评审 |
de novo 小蛋白设计 | Muratspahic et al., 2025 | 高通量文库 + 细胞筛选 | 已获 MRGPRX1 激动剂/拮抗剂 | 仍需大规模实验筛选(非纯计算) |
本研究的核心区分点在于:无需实验筛选步骤的纯计算前瞻性筛选——从序列设计到结合位点验证,理论上全程可在计算环境中完成,实验仅用于最终验证。这一特点使其在降低初期筛选成本方面具有独特优势。
提升精度的可能路径:
扩展至其他靶点类型:
计算成本优化:
本研究是AI 工具直接产生经实验证实的科学发现的一个完整、严格的范例,具体体现在:
随着 AI 蛋白质结构预测模型的持续迭代和 PDB 数据的不断积累,类似的"计算驱动 → 少量实验验证"范式有望成为生物药物早期发现的主流路径之一。
关于 LCF 设计哲学: 研究者选择将六个指标的归一化值相乘(而非相加或取均值),这意味着任何一个指标极低都会导致 LCF 趋近于零——相当于一个"严格与"(AND gate)逻辑,只有各方面置信度均高的预测才能获得高 LCF。这一设计有效提升了前5%筛选的精准率(AUC5% = 0.93–1.0),代价是整体 AUROC 略低于单个最优指标。
关于 Sim4177(rank 90)的经验教训: Sim4177 在细胞结合实验中显示阳性信号,但生化行为不佳(SEC 分析显示严重聚集),最终被排除。这提示即使是计算预测的"命中",仍需通过生化质控把关,合成文库纳米抗体的生化行为问题不容忽视。
关于 MRGPRX2 与训练数据的关系: MRGPRX2 的结构(PDB)发表于 2021年底,晚于 AF-M 训练截止日期(2021年9月30日),因此 AF-M 在预测时并未包含 MRGPRX2 自身结构的直接信息。这一设计排除了"数据泄露"的可能,使筛选结果更具说服力。