Adv. Sci. | 审视基于靶标的从头分子生成：理性设计，抑或射箭画靶？

DrugAI

发布于 2026-04-28 10:30:22

260

DRUGONE

本文介绍一篇来自浙江大学康玉、侯廷军教授和王極可研究员团队联合发表在Advance Science的研究论文，浙江大学药学院博士生秦睿，计算机学院本科生陈子杰为共同第一作者。该研究提出了一个从真实药物发现视角出发的评测框架TarPass，系统整理了18个具有药学代表性的靶点、人工注释的关键蛋白-配体相互作用及其实验验证的活性分子。基于统一的评价流程，团队对15个经同行评审发表的代表性模型进行了全面评测，这些模型涵盖了非3D（non-3D）、3D“原位生成” (3D in situ)以及基于前两者的优化方法三大范式。评测结果揭示了当前基于靶点的分子生成模型在细粒度靶点约束建模方面存在的普遍性挑战。针对这一问题，作者进一步设计了多层级虚拟筛选后处理流程，旨在提升模型在实际药物发现应用中的可用性。此外，TarPass框架本身也为后续的结构基础药物设计研究提供了更为严格且具有可比性的评价标准。

研究背景

近年来，基于靶标的分子生成模型蓬勃发展，被视为极具潜力的药物发现工具。然而，这些模型究竟是真正习得了靶标信息，还是仅通过大规模生成后筛选出少数合理案例进行事后解释（即“先射箭后画靶”的德州神枪手谬误）来夸大性能，仍存争议。

为探究此问题，作者将基于靶标的从头分子生成过程抽象为两个互补的定义与猜想：

训练定义与猜想（公式1）：模型旨在学习蛋白-配体对的联合概率分布。因此，靶标导向生成的分子应编码有意义的广义蛋白配体相互作用（PLIs），涵盖显式的物理化学接触及隐含的结合亲和力特征。也就是说，生成分子不仅在对接后有良好的对接分数，并且也应该能恢复重要的相互作用。

推理定义与猜想（公式2）：模型通过从化学空间的条件分布中采样来生成分子。因此，模型输出应被约束在目标特定且生物学相关的化学子空间内。直观而言，生成的分子应该处于具有合理药化性质的化学空间，且要适当接近于和靶标相关的特定子空间内。

综上，这两点明确了评估模型的两个核心维度：PLIs合理性与分子合理性，为后续分析奠定了理论基础。

方法概述

为了构建科学且贴合实际的评测体系，研究团队系统性地整理了18个研究充分且具有药学代表性的靶点，涵盖激酶、非激酶类酶、GPCR及核受体等关键类别。团队额外纳入了其中两个靶点的apo结构进行测试，总计形成包含20个蛋白结构的测试集。该测试集的每个靶点均经过严谨的人工注释，整合了基于晶体结构与文献资料的关键相互作用信息，并辅以对应的实验验证活性分子作为参考。通过分析，证实该测试集已最大程度地避免了与常见训练集的直接交集，从而能够有效评估模型在真实药物靶点家族中的泛化能力。除此之外，还从ChEMBL数据库中抽取了一些分子作为随机基线，模拟从已知的真实活性化合物库中进行虚拟筛选的情境。

研究团队还设计了一套标准化的统一评测流程。在测试阶段，要求各模型针对每个靶点生成足量分子，并经筛选确保1000个非重复且有效的分子进入后续评估。这些分子将统一进入对接模块，并采用一致的预处理流程与对接参数进行计算。评估环节则由MoleEval和DockEval两个模块协同完成，分别从分子性质、构象合理性、相互作用恢复率、结合模式相似性及化学距离等进行了计算。在分析层面，引入了显著性分析、并设计了其他具有统计学意义的指标，从整体分子集合的宏观视角出发，对模型性能进行多维度、可量化的综合剖析。

图1：TarPass框架。

结果与讨论

广义蛋白-配体相互作用角度

综合对接分数与关键相互作用恢复的评估结果，3D in situ 模型的整体性能优于 non-3D 模型（前者平均对接分数介于 -7.5 至 -10，后者约为 -7），证明显式利用口袋几何信息具备一定价值，然而其优势程度有限。基于显著性检验的分析显示，仅有少数模型能在多数靶标上显著超越从 ChEMBL 随机抽样的分子，甚至部分模型未能优于随机基线。在关键相互作用恢复方面，绝大多数模型（含 3D in situ 模型）的表现接近甚至劣于随机基线，仅 DrugFlow（Arne Schneuing等）、MolCraft 及其优化版本等少数模型达到接近参考活性分子的水平。作者指出，鉴于对接方法对配体姿势存在固有精度限制，且随机基线偏向具有生物学活性的分子（中位对接分数为 -8.217），这可能导致对模型在广义蛋白-配体相互作用上真实性能的低估。

此外，研究进一步考察了生成分子的对接姿势。以共结晶配体为参考，采用结合形状与化学特征重叠的 SuCOS 指标评估结合模式相似度。结果与前述结论一致：少数 3D in situ 模型（如 DrugFlow、MolCraft）表现更优，而其余模型则仅略高或与随机基线相当。将该指标拆分为形状相似度与静电相似度后发现，形状特征是驱动结合模式差异的主要因素。作者同时发现，DrugFlow 与 MolCraft 的性能优势主要源于对输入结构中共结晶配体的采样，在设置虚拟原子进行采样的apo靶标中出现明显的性能下降，这可能制约其泛化能力。

研究者特别关注了 3D in situ 模型的初始构象，发现生成分子与蛋白口袋存在一定程度的空间冲突。尤其在锌指蛋白 HDAC6 中，大部分模型忽略了口袋中的锌离子或其配位作用，从而引发冲突。尽管其优化方法通过构象优化在一定程度上缓解了冲突发生率，但初始构象的不合理性依然存在。基于此，研究者提出构象重置对接，作为评估此类方法的有效补充。

图2: 模型在广义蛋白-配体相互作用上的性能：（a-b）对接分数、相互作用恢复；（c-d）3D in situ模型生成的初始构象存在冲突；（e）构象重置对接。

分子合理性和化学空间距离度量

基于此前的猜想2，研究者从两方面评估分子的合理性：分子结构合理性，以及与类药空间的化学空间距离。

结构合理性直接影响分子的可合成性与成药性。已有共识指出，生成模型能产生理论有效的分子，但在实际药物发现中往往不可行。结构上，3D in situ模型（尤其是图模型）易生成过多手性中心、螺原子、过于复杂的环结构或杂原子比例过低，这些与低可合成性、低类药性密切相关。相比之下，非3D模型及部分3D in situ模型（如Lingo3DMol、PocketFlow）受益于大规模预训练，结构更合理，QED、SA Score更优，结构警示子更少。

化学空间角度，研究者首先通过生成分子的内部多样性评估模型是否在靶标约束下合理探索化学空间。#Circle指标显示，多数模型存在发散倾向，其值远高于参考活性分子集；部分模型（如SimpleSBDD、DiffSBDD）的多样性甚至高于随机基线。在距离成药空间方面，研究者在嵌入空间的Tanimoto和FCD距离之外，引入由15个分子描述符计算的Wasserstein距离作为可解释的补充指标。进一步利用每组靶标中固定参考分子与随机分子的设置，结合Fréchet和Wasserstein距离的三角不等式性质，提出“类药空间偏移指标”，作为化学距离的直观量化补充。结果表明，结构合理性与化学距离一致：经过预训练的模型更接近类药空间，而3D in situ模型距离活性空间甚至远于随机基线，并呈现偏离类药空间的倾向。

此外，研究还发现，基于优化的模型（如DrugFlow-PA）虽通过偏好对齐改善了部分类药性质，但Wasserstein距离显示其在氢键受体与杂原子数量上发生偏移，提示性质导向优化存在风险。同时，非3D模型尽管结构合理性较好，但通过比较不同靶标生成分子间的化学距离可见，这些模型存在过拟合倾向。

图3: （a-b）类药空间偏移的直观解释；（c）通过Wasserstein距离提供可解释性的偏离解释；（d）利用FCD和Tanimito距离指示模型的过拟合倾向。

靶标特异性初探

根据猜想2，基于靶标的分子生成应受各靶点特定条件约束，即不同靶点生成的分子应具有可区分的差异。然而研究发现，现有模型在蛋白家族层面尚能表现出一定特异性，但在区分结构相近、尤其结合位点差异细微的靶点时，能力仍然有限。

在蛋白家族层面，研究者计算了不同靶点间生成分子的两两FCD距离，发现所有模型在激酶和GPCR两个家族中均呈现较低差异，表明模型能部分捕捉到家族共享的结构特征。双因素方差分析（基于对接分数与相互作用恢复率）显示，同一蛋白家族内部不同靶点间虽无显著差异，但模型性能仍依蛋白家族类型而变化，说明模型在家族水平上具备一定靶标特异性。进一步，研究者利用TarPass测试集构建了结构精细的特异性测试集，包含5-HT2A与BRD4的apo-holo对，以及JAK2正构域与TYK2伪激酶域的特异位点对，结构对齐RMSD均低于2 Å。基于FCD与交叉对接的分析表明，即使是非3D模型及利用靶标拓扑几何的3D in situ模型，均难以在此类精细结构之间上实现良好区分度。

多阶段虚拟筛选的后处理

尽管当前基于靶标的分子从头生成模型在PLIs和分子合理性方面仍有局限，研究者认为，通过后处理，这些模型仍可发挥补充现有化学空间的价值。借鉴结合湿实验的案例，研究者基于测试结果设计了一个多阶段虚拟筛选流程，通过导向富集提升分子生成在特定发现场景中的可用性。该流程分为两个阶段：第一阶段基于PLI、结构合理性和药物相似性设置阈值进行硬筛选，可依据TarPass测试结果实现自动化与定制化，在特定阈值和测试模型中，候选分子池可缩减至原规模的约10%；第二阶段则采用更精细的软筛选（如经验性筛选或聚类），进一步富集候选分子至可验证规模。

以JAK2和TYK2两个靶点为例，MolCraft（3D in situ）和DeepBlock（非3D）模型的测试表明，经两阶段筛选后，利用与筛选无关的外部指标（MM/GBSA计算的结合自由能作为亲和力指标，Tcmax作为相似性指标）评估发现，分子被有效富集至兼具较好亲和力与适当相似性的空间。不过研究者也指出，尽管富集结果显示分子具有潜在活性迹象，但其质量仍远未达到强先导化合物的预期标准。

图4: 多阶段虚拟筛选的富集表现。

总结

本研究提出了一个面向基于靶标的从头分子生成评测框架TarPass，旨在从贴近真实药物发现的角度，公平评估主流生成模型，并为后续模型发展提供更严格的测试标准。

结果表明，现有模型远未实现真正意义上的靶标理性设计，难以在良好的广义蛋白-配体相互作用与分子合理性之间取得平衡。部分经实验验证的模型倾向于生成易合成、分子量较小的分子，虽便于活性验证，但在亲和力与关键相互作用恢复方面能力较弱，通常需要筛选数千至数万个分子，才能找到少数微摩尔级别活性的分子。在此情形下宣称模型优越性，难免有“先射箭后画靶”之嫌。

尽管如此，基于靶标的从头分子生成仍具重要价值，能够有效补充化学空间，只是需借助针对性的富集策略提升可用性。未来模型发展可从分子预训练、引入生物物理先验等方向切入，以进一步提升模型能力。

参考资料

R.Qin, Z.Chen, Y.Li, et al. “Revisiting Target-Aware de novo Molecular Generation with TarPass: Between Rational Design and Texas Sharpshooter.” Advanced Science (2026): e75411.

https://doi.org/10.1002/advs.75411

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2026-04-26，如有侵权请联系 cloudcommunity@tencent.com 删除

模型