

来源: Pedro Febrer Martinez et al., CryptoBank: A resource for the identification and prediction of cryptic sites in proteins.Sci. Adv.12,eady6364 (2026). 发表时间: 2026年4月22日 通讯作者: Francesco L. Gervasio(日内瓦大学 / 伦敦大学学院) 数据资源:www.cryptobankdb.com 代码链接:https://github.com/Gervasiolab/CryptoBank
传统药物发现高度依赖蛋白质表面明确的结合口袋——酶活性位点、离子通道孔道、已知变构位点等。然而,大量与疾病密切相关的蛋白质(如 RAS、MYC 等转录因子和信号蛋白)在其天然未结合(apo)状态下表面平坦、缺乏明显的空腔,被归类为"不可成药"靶点,极大限制了小分子药物的设计空间。
近年研究打破了这一认知范式。所谓隐秘口袋,是指在蛋白质自由态(apo 态)中不存在或不可探测,但在配体诱导或蛋白质自发构象波动后显现的结合空腔。其物理本质是:
此前用于发现隐秘口袋的方法主要分两类:
类别 | 代表方法 | 局限性 |
|---|---|---|
实验方法 | 高通量筛选(HTS)、片段筛选、NMR/X射线晶体学 | 成本高、通量低、大多属于偶然发现 |
计算方法 | 分子动力学(MD)模拟、增强采样(SWISH、FTMap)、ML模型(CryptoSite、PocketMiner) | 已有数据集规模极小(最大约1,500个结构),缺乏集合层面(ensemble-level)的隐秘性评估 |
核心瓶颈: 缺乏一个大规模、经过集合平均验证的隐秘口袋基准数据集,制约了预测模型的训练与评估。
研究团队从 RCSB PDB(截至2025年8月11日)出发,实施了严格的多层筛选策略:
236,889 个 PDB 条目(X射线晶体学 + 冷冻电镜,分辨率 ≤ 2.5 Å)
↓ 过滤(含 UniProt 编号 + 95% 序列同一性簇归属)
157,327 个有效 PDB 条目
↓ 拆分为单链,分配至 apo / holo 集合
145,581 apo 链 + 168,916 holo 链
↓ 配对(同一95%同一性簇内)+ 纳入 AlphaFold 模型
81,302 apo 链 + 163,499 holo 链 → 19,781 个同一性簇
↓ 配体聚类(完全连接算法,7 Å 质心距离阈值)
34,014 个唯一配体 + 56,279 个唯一结合位点
↓ 结构比对(Cα RMSD ≤ 2.5 Å)+ 评分
6,000,000 个唯一 apo-holo-配体组合关键设计决策:

评分函数的设计思想来源于一个物理直觉:若某结合位点是隐秘的,将配体叠加到 apo 结构时,配体原子将与 apo 态的残基产生严重的空间碰撞(clash);而在 holo 态中则几乎无碰撞。
具体地,对于每个 apo-holo-配体组合,模型执行以下计算:
第一步:壳层势能计算
将距离矩阵 (配体原子与蛋白原子间的成对距离,4 Å 截止)划分为 个同心球壳 ,每个壳层的势能为:
𝟙
其中 为可学习参数,𝟙 为指示函数。
第二步:系统能量聚合
第三步:配体分段与最终概率
为提升对结合区域不同部分的空间分辨率,将配体划分为 个片段,每段独立计算能量 ,最终以 sigmoid 函数聚合:
模型训练细节:
为克服单一 apo 结构的局限性(不同晶体学条件可产生不同的 apo 构象),研究团队对同一结合位点的所有 apo-holo-配体组合取平均评分,作为位点级别的集合隐秘性评分(site crypticity score)。
此外,采用异常值导向策略(outlier-oriented strategy):对均值评分低于0.5、但存在少量高隐秘性异常构象的位点进行回收,避免遗漏"稀有但真实"的隐秘位点。
指标 | 数值 |
|---|---|
分析的 apo-holo-配体组合总数 | ~6,000,000 |
判定为隐秘构象的组合数(评分 ≥ 0.5) | ~574,000(9.6%) |
隐秘结合位点总数 | 5,151(占全部位点的 9.2%) |
涉及的95%同一性蛋白质簇数 | 3,643(占全部簇的 18.4%) |

研究根据两个维度对隐秘位点进行分类:
类别 | 比例 | 药学意义 |
|---|---|---|
片段-埋藏型 | 21.8% | 需要蛋白质重排才能进入,最具成药价值 |
片段-表浅型 | 42.1% | 多个化学多样片段结合区域提示隐秘性 |
配体-埋藏型 | 21.5% | 直接成药价值高(60% 的配体结合位点为埋藏型) |
配体-表浅型 | 14.5% | 部分可作为变构调节靶点 |
值得注意: 约 77% 的配体类隐秘位点所结合配体分子量在300–500 Da,符合 Lipinski 类药五原则(rule-of-five),提示这些位点具有直接的临床转化潜力。

研究团队对9,400个仅出现在隐秘位点的配体进行了系统的化学空间分析:
此外,利用"相似蛋白倾向结合相似配体"的原则,CryptoBank 支持靶标特异性片段库的定制化生成,并可以配体隐秘性评分对筛选候选分子进行排序。
将 CryptoBank 与 Open Targets 数据库(疾病关联评分 > 0.5)交叉后:

MALT-1(黏膜相关淋巴组织淋巴瘤转位蛋白1)
GLP1R(胰高血糖素样肽-1受体)
在 Open Targets 数据库标记为"不可成药家族"的蛋白中(筛选条件:RSA < 0.3 且结合25–50个重原子的配体):
这一结果直接支持了"隐秘口袋可系统性扩展可成药蛋白质组"的核心论点。
研究团队选用 ProtTrans Prot-T5-XL-UniRef50 作为基础模型:
数据集切分策略(防止序列同一性泄漏):
--min-seq-id 0.2, --cluster-mode 3)数据集 | 序列数量 | 说明 |
|---|---|---|
训练集 | 6,345 | 来自3,643个隐秘簇 |
验证集 | 793 | 与训练集 <20% 同一性 |
测试集 | 793 | 与训练/验证集 <20% 同一性 |
指标 | 训练集 | 验证集 | 测试集(<20% 同一性) |
|---|---|---|---|
ROC AUC | 0.97 | 0.92 | 0.70 |
PR AUC | 0.79 | 0.65 | 0.11 |
相对随机预测提升 | >10× | 数量级 | >2× |

关于 PR AUC 的说明: 由于正类比例极低(约5%),ROC AUC 在不平衡场景下容易高估模型性能,而 PR AUC 是更严格、更真实的性能衡量指标。测试集 PR AUC 为0.11,较随机预测(~0.05)提升超过两倍,表明模型对未知序列仍有一定泛化能力。
适用性边界总结:
查询序列与 CryptoBank 同一性 > 20% → ROC AUC ≈ 0.92,PR AUC ≈ 0.65(高置信预测)
查询序列与 CryptoBank 同一性 < 20% → ROC AUC ≈ 0.70,PR AUC ≈ 0.11(初步筛查)研究团队选取四个不在训练集中的蛋白质进行预测验证,所用 MD 框架:GROMACS 2023 + PLUMED 2.9,分子力场 DES-Amber 或 AMBER99-ILDN,水模型 TIP4P-D 或 TIP3P;增强采样采用 SWISH-X 方法(6个并行副本,含1M苯作为余溶剂,OPES 多温度组件,温度范围300–350 K)。

局限 | 说明 |
|---|---|
PDB 数据偏差 | 数据来源依赖实验结构,可能偏向特定蛋白家族或结晶条件,影响代表性 |
PLM 泛化能力有限 | 对 <20% 同一性序列的预测精度显著下降(PR AUC 降至0.11),高度新颖蛋白的预测仍具挑战 |
缺乏序列外结构信息 | PLM 仅利用序列信息,未整合三维结构特征,可能错过结构层面的关键信号 |
隐秘性定义的构象依赖性 | 所有评分均基于已有实验结构的 apo/holo 对,对于实验结构稀缺的蛋白质覆盖不足 |