

原文:Lyu J, Wang S, Balius TE, Singh I, et al. Ultra-large library docking for discovering new chemotypes. Nature. 2019;566:224–229. DOI:10.1038/s41586-019-0917-9 通讯作者:Brian K. Shoichet(UCSF)、Bryan L. Roth(UNC Chapel Hill)、John J. Irwin(UCSF) 发表时间:2019年
1996年,Bohacek 等人在一篇被广泛引用的文章中估算,类药分子(drug-like molecules,MW < 500 Da,类药五规则范围内)的数量超过 10⁶³。相比之下,有史以来合成并收录于数据库的化合物总量约为 10⁸ 量级(如 PubChem 1.1亿,ZINC 7.5亿),二者之间存在数十个数量级的鸿沟。
这一悖论的实践含义是:现有药物发现所探索的化学空间,相对于理论可行空间而言几乎是零。 早期药物发现中,初始命中化合物的结构特征往往直接决定后续优化的方向和天花板("hit-to-lead"依赖性),因此扩展前期筛选的化学多样性具有战略意义。
在本文发表之前,扩展筛选规模的主要策略包括:
策略 | 代表性方案 | 主要局限 |
|---|---|---|
实体高通量筛选(HTS) | 企业内部化合物库(10⁵–10⁶量级) | 规模受储存/成本限制;多样性相对有限 |
DNA编码化合物库(DEL) | GSK、X-Chem 等 | 依赖特定反应类型,骨架多样性受限;难以验证结合模式 |
传统虚拟筛选 | 商业化合物库对接(ZINC in-stock,~350万) | 库规模小;受限于现货化合物 |
枚举式组合库 | 侧链组合扩展 | 骨架多样性不足;合成验证困难 |
本文的核心创新 在于:将"按需合成"(make-on-demand)理念与超大规模结构对接相结合,突破了"只能筛选现货化合物"的传统瓶颈。
论文围绕三个递进的科学问题展开:
本研究使用的虚拟库来源于 Enamine 的 REAL(Readily Accessible)化合物库,其构建逻辑如下:
论文发表时,该库包含约 1.7 亿个分子(AmpC 筛选时为 9900 万,D4 受体筛选时扩充至 1.38 亿);截至 2019 年底,已超过 3.5 亿;预计 2020 年突破 10 亿。每新增约 20 个化合物,就引入一个全新 Bemis-Murcko 骨架,最终形成超过 1070 万种独特骨架。
关键特征:库内化合物高度"功能性拥挤"(functionally congested),具有较强的三维性(3D character),与传统扁平芳香类化合物库形成鲜明对比;少于 3% 的化合物可从其他来源商购获得,确保了真正的新颖性。
对接前的分子准备流程包括:
本研究使用 DOCK3.7.2,其打分函数基于以下物理项的加和:
采样策略:
计算规模:
靶标 | PDB 结构 | 共结晶配体 | 特殊处理 |
|---|---|---|---|
AmpC β-内酰胺酶 | 1L2S | 26 μM 噻吩羧酸酯 | 增强5个关键残基部分电荷幅度(不改变净电荷);向结合位点延伸低介电区域 |
D4 多巴胺受体 | 5WIU | nemonapride | 同上低介电区域延伸;增加去溶剂化体积伪原子(radius = 0.3 Å)以改善配体电荷平衡 |
两个靶标均在正构位点(orthosteric site)计算 45 个匹配球(matching spheres),用于初始朝向采样。
从数亿打分结果中选出测试候选物需要多层过滤:
预聚类陷阱的重要发现:若在对接前先对库进行聚类、只对代表分子对接,则最高评分分子的打分显著下降。以 D4 为例,排名前 3000 的 47 个实验活性骨架被替换为不同的聚类代表后,排名平均下滑 112 万位,仅有 2 个原始活性骨架得以保留。这证明:对全库每个分子独立对接是发现最优配体的必要条件,无法用预聚类代替。

AmpC β-内酰胺酶(C类β-内酰胺酶)是革兰阴性菌耐药的重要机制之一,可水解大多数 β-内酰胺类抗生素。其活性位点含有催化性丝氨酸(Ser64)和"氧负离子穴"(oxyanion hole,由 Ala318-Gly317-Thr319 主链 NH 构成)。已报道的非共价 AmpC 抑制剂活性较弱(通常 Ki > 10 μM),开发有效的可逆抑制剂是长期挑战。
一期筛选(99 百万分子 → 44 个合成测试):
关键命中物 ZINC339204163(Ki = 1.25 μM):
这是一个含苯酚负离子(phenolate)药效团的分子。Phenolate 作为带负电荷的氧与 AmpC 氧负离子穴(通常接纳带负电荷的过渡态类似物)结合,形成三个氢键。这一作用模式在 β-内酰胺酶抑制剂中罕见;在其他酰胺酶和蛋白酶抑制剂中也鲜有记录。
从库内选取与 5 个初始命中物 ECFP4 Tc ≥ 0.5 或共享核心子结构的 90 个类似物,进行实验验证:
四个新配体与 AmpC 的共晶结构被解析至高分辨率:
化合物 | PDB ID | 分辨率 | RMSD(docking vs crystal) | 备注 |
|---|---|---|---|---|
ZINC547933290 | 6DPZ | 1.50 Å | 1.30 Å | |
ZINC275579920 | 6DPY | 1.91 Å | 1.20 Å(核心)/ 1.98 Å(含末端环旋转) | 末端环无极性相互作用,构象差异可接受 |
ZINC339204163 | 6DPX | 1.90 Å | 0.98 Å | 最高精度 |
ZINC549719643 | 6DPT | 1.79 Å | 1.52 Å | phenolate 三个氢键完整再现 |
所有结构的初始 Fo-Fc 电子密度图在 2.5σ 时对配体轮廓清晰,可无歧义地确认配体构象和关键相互作用。这是对对接预测精度的直接实验验证。
D4 多巴胺受体(D4R)属于 A 类 GPCR,主要表达于前额叶皮层,参与认知、工作记忆和奖赏回路调控,是精神分裂症、ADHD 和物质依赖的潜在治疗靶点。D4R 在序列和药理上与 D2R/D3R 高度同源,亚型选择性开发极具挑战。D4R 的选择性口袋由 F91²·⁶¹ 和 L111³·²⁸ 定义(上标为 Ballesteros-Weinstein 编号),这两个残基在 D2/D3 中为不同氨基酸,是亚型区分的结构基础。
初步筛选(10 μM,³H-N-甲基螺哌隆置换 > 50%):122/549(22%)呈阳性
剂量-响应(81 个化合物):Ki 范围 18.4 nM–8.3 μM,代表 81 种全新化学骨架,其中 30 种 Ki < 1 μM
功能学分类:
类型 | 代表化合物 | 效能 | D4 Ki | D2/D3 选择性 |
|---|---|---|---|---|
全激动剂 | ZINC621433143 | EC₅₀(cAMP) = 2.3 nM | 18 nM | >10,000 倍 |
全激动剂 | ZINC465129598 | EC₅₀ = 24 nM | 80 nM | >100 倍 |
全激动剂 | ZINC270269326 | EC₅₀ = 17 nM | ~500 nM | >10,000 倍 |
部分激动剂 | ZINC464771011 | EC₅₀ = 10 nM | 140 nM | >10,000 倍 |
拮抗剂 | ZINC413570733 | IC₅₀ = 5.9 μM | 130 nM | — |
拮抗剂 | ZINC130532671 | IC₅₀ = 10.8 μM | 320 nM | — |
β-arrestin 偏向激动剂 | ZINC615622500 | 无 Gᵢ 活性 | 150 nM | — |
ZINC621433143 最初作为非对映体混合物测试,EC₅₀(cAMP) = 2.3 nM。鉴于其对接构象中存在手性中心,研究者将4个非对映体独立合成并测试:
ZINC621433144((3R,4S) 构型):
立体化学与信号偏向的关系(同一系列4个非对映体):
化合物 | 构型 | Gᵢ EC₅₀ | 偏向因子 | 方向 |
|---|---|---|---|---|
ZINC621433144 | (3R,4S) | 0.18 nM | 17 | → G蛋白偏向 |
ZINC361131264 | 另一构型 | — | 26 | → G蛋白偏向 |
ZINC361131265 | 另一构型 | — | 11 | → G蛋白偏向 |
ZINC621433143 | (3S,4S) | 2.3 nM | 0.14(≈7 倍反向) | → β-arrestin 偏向 |
单个手性中心的翻转直接反转了信号偏向方向,这是功能选择性(functional selectivity / biased agonism)领域的精彩例证,对GPCR药物设计具有重要启发。
高排名分子普遍呈现以下结合特征:
将 549 个测试分子分布于 12 个打分区间(−75 到 −35 kcal/mol),每区间约 35–47 个分子,在 10 μM 浓度下统一测试置换活性(同一实验人员,相同方案)。
观察到命中率随对接打分呈 S 型(sigmoid)单调下降:
打分区间 | 命中率 |
|---|---|
−75 ~ −65 kcal/mol(最优区) | 22–26%(平台期) |
−65 ~ −54 kcal/mol | 从 22% 线性下降至 12% |
−54 kcal/mol(dock₅₀) | ~12%(命中率中点) |
−43 kcal/mol | ~0%(达到底部平台) |
< −43 kcal/mol | 持续 0% |
使用 S 型剂量-响应方程对命中率曲线进行拟合:
参数:
先验概率设置:
使用 Stan 进行哈密顿蒙特卡洛(HMC)采样(4 chains × 100,000 steps,adapt_delta=0.99)获取后验分布。

将命中率曲线与库内分子的打分分布积分:
估算结果:
这是首次从大规模实验数据出发,定量估算特定靶点在超大虚拟库中的活性化合物总量及骨架多样性规模。
从前 1000 个排名聚类中,分别选取:
指标 | 人工优选 | 自动筛选 |
|---|---|---|
总体命中率(Ki < 10 μM) | ~38% | ~24% |
亚微摩尔命中率(Ki < 1 μM) | 44% | 27% |
最强激动剂 EC₅₀ | 0.18 nM(621433144) | 无 < 10 nM |
命中物的总体效能分布 | 富集高亲和力 | 均匀分布 |
结论:人机结合策略在命中率上与单纯自动化相当,但在发现高亲和力、功能活性化合物方面具有显著优势,体现了专业判断在大规模筛选中不可替代的价值。
在前瞻性筛选之前,研究者用 DUD-E 基准集进行模拟:将已知配体与性质匹配的诱骗物(decoys)混合,模拟不同库规模下配体在前 1000 排名中的富集情况。
主要发现:

所有化合物由 Enamine 合成,采用标准双组分反应流程:
使用 BRET(生物发光共振能量转移)分别检测 Gᵢ 激活(Gαᵢ₁-RLuc8 / Gβγ-GFP)和 β-arrestin 招募(D4R-RLuc8 / β-arrestin-2-YFP):
作者在讨论部分坦诚指出以下局限,值得关注:
这篇论文的价值可以从以下三个层面总结:
方法论层面:在超亿级规模验证了结构对接可有效富集活性化合物,且规模的扩大不会导致信噪比的根本性退化。通过系统抽样建立的命中率-打分曲线,为虚拟筛选提供了量化的预测框架。
发现层面:在两个无关靶标上均发现了在更小库中不存在的全新化学骨架,且活性超越此前所有报道的非共价抑制剂/选择性激动剂。特别是 phenolate 系列 AmpC 抑制剂和 180 pM D4 激动剂,代表了真正意义上的"从化学空间扩展中获益"。
范式层面:通过"按需合成"模式,将可筛选的化学空间从 10⁶ 量级扩展至 10⁸–10⁹ 量级,同时保持了分子的合成可及性和质量保障。这不是对现有范式的优化,而是对药物早期发现逻辑的重构。
论文中关于"为什么不能预先聚类"的论证值得特别关注:最优配体的结构特征(决定其对接分的微观原子细节)无法在不进行实际对接的前提下预测。库内最优化合物与其聚类代表在对接打分上可能相差数十kcal/mol——这意味着对于任何高度多样化的大库,全量对接是不可绕过的技术前提。
欢迎在评论区分享你的观点~