
期刊: Journal of Chemical Information and Modeling 链接: https://doi.org/10.1021/acs.jcim.5c00949 代码: https://github.com/NiuDongjiang/TS-AC 简介: 该论文提出了一种名为 TS-AC 的任务特异性活性悬崖预测框架,其创新点在于整合迁移学习和超连接图架构,以解决现有方法在捕捉化合物复杂结构关系和泛化能力上的不足。该方法通过大规模药物 - 药物相互作用预测任务预训练模型,将学到的化学知识迁移到活性悬崖预测中,并设计超连接图模块捕捉匹配分子对中核心与取代基片段的相互作用。实验在 Thrombin、Mu Opioid Receptor 和 Melanocortin Receptor 4 三个数据集上进行,结果显示 TS-AC 在多项评价指标上持续优于现有方法,且可视化分析证实了模型设计的可解释性和合理性。该论文为药物发现和分子优化中的活性悬崖预测提供了更有效的工具,提升了预测准确性和泛化能力。

在药物研发领域,一个看似微小的分子结构改动,可能引发生物活性的巨大波动——这就是令研究者既头疼又重视的活性悬崖(Activity Cliffs, ACs)。准确预测活性悬崖,能帮助科研人员避开无效实验、加速候选药物优化,但传统方法始终受限于数据稀缺、结构关系捕捉不足等问题。
今天要给大家推荐一篇发表在《Journal of Chemical Information and Modeling》的最新研究。它创新性地结合迁移学习与超连接图架构,在活性悬崖预测任务中实现了性能突破,为药物设计提供了更精准的工具。
活性悬崖指的是结构高度相似的化合物,其生物活性却存在显著差异的现象。例如,两个仅在取代基上有微小差别的分子,对靶点的抑制活性可能相差100倍以上。
这种现象的重要性在于:
但预测活性悬崖并不容易。现有方法要么依赖人工设计的分子描述符(如ECFPs),无法捕捉复杂结构关系;要么受限于数据量,在小规模数据集上泛化能力差。而TS-AC模型的出现,正是为了解决这些核心痛点。

(A)展示了匹配分子对(MMP)的示例,TS-AC 将其分为两种场景:场景 I 为两个完整化合物,场景 II 为拆解后的核心和两个取代基。(B)针对场景 I 的 TS-AC-CC 模型,通过药物 - 药物相互作用(DDI)迁移学习初始化参数,利用分子特征增强器(MFE)整合结构细节,再通过多层感知器(MLP)得到预测分数。(C)针对场景 II 的 TS-AC-CS 模型,通过超连接图建立核心与各取代基的关联,深入理解动态关系,最终通过 MLP 得到预测分数。
TS-AC(Task-Specific Activity Cliff Prediction Model)是一款针对活性悬崖预测的任务特异性框架,其设计直击行业痛点,核心创新体现在两方面:
活性悬崖预测的一大挑战是标注数据有限。直接在小规模数据上训练深度学习模型,容易导致过拟合,泛化能力大打折扣。
TS-AC的解决思路是:借助药物-药物相互作用(DDI)预测任务进行预训练。 DDI数据规模大、包含丰富的分子-生物活性关联信息,通过在DDI任务上预训练,模型能提前学习到分子结构、生化特征等通用知识,再将这些知识迁移到活性悬崖预测任务中,即使在小规模数据上也能快速收敛并保持高准确性。
实验表明,这种迁移学习策略能使模型在跨靶点预测时,仍保持稳定性能——这对实际药物研发中“面对新靶点缺乏数据”的场景至关重要。
药物优化中,研究者常将分子拆解为核心骨架(core) 和取代基(substituent),通过替换取代基探索活性变化。但传统模型往往孤立处理这两部分,忽略了它们之间的动态相互作用。
TS-AC设计了超连接图(Hyper Connection Graph) 模块,专门解决这一问题:
这种设计让模型能精准识别“哪些取代基变化会引发活性悬崖”,例如在 thrombin 靶点数据集上,TS-AC对核心-取代基相互作用的捕捉准确率比传统方法提升了14%。

(A)以 DDI 数据集为输入进行预训练,通过深度图卷积网络(GCN)提取药物特征,经 MFE 整合后输入预测模块,通过 MLP 得到 DDI 概率。(B)将预训练后的模型参数更新到 TS-AC-CC 中,以 MMP 为输入,经 GCN 和 MFE 整合后,通过 MLP 得到活性悬崖(AC)概率。

(a)化合物的核心和两个取代基组成 MMP,整合为超连接图(边表示核心与各取代基的连接强度或交互权重),结合约束损失(基于 pKi 值)和预测损失训练模型。(b)描述基于超连接图的建模过程,核心和两个取代基为关键组件,通过图注意力网络(GAT)和池化操作处理。
为验证TS-AC的有效性,研究团队在三个经典数据集(Thrombin、Mu Opioid Receptor、Melanocortin Receptor 4)上进行了系统测试,并与GAT、Transformer、ACGCN等主流模型对比,结果令人振奋:

比较 TS-AC 与基线模型在 CC 任务中,以 Mu Opioid Receptor 和 Melanocortin Receptor 4 为独立测试集的性能(包括 BA、TPR、TNR、F1 等指标)。

比较 TS-AC 与基线模型在 CS 任务中,以 Mu Opioid Receptor 和 Melanocortin Receptor 4 为独立测试集的性能(包括 TPR、TNR、F1 等指标)。
在标准5折交叉验证中,TS-AC在平衡准确率(BA)、F1分数、MCC(马修斯相关系数) 等关键指标上均排名第一:
实际研发中,模型常需面对“训练集与测试集靶点不同”的情况。研究团队用Thrombin数据集训练,在Mu Opioid Receptor和Melanocortin Receptor 4上测试,发现:
在“测试集化合物完全未出现在训练集”的严苛场景下,TS-AC仍表现稳健:
深度学习模型常被诟病“黑箱性”,但TS-AC通过可视化分析,让预测过程变得可解释:
这种解释性对药物设计意义重大——研究者不仅能得到预测结果,还能明白“为何这个结构会引发活性突变”,为实验设计提供直接指导。

(A)非活性悬崖 MMPs 的可视化:模型标记的节点集中在共同特征,未落在引起结构变化的取代基上,表明结构变化不足以引发活性差异。(B)活性悬崖 MMPs 的可视化:模型标记引起结构变化的取代基,验证其对关键结构差异的识别能力。

(A)非活性悬崖 MMPs 的可视化:模型标记集中在核心,表明取代基变化对活性影响较小。(B)活性悬崖 MMPs 的可视化:模型标记引起活性变化的取代基,且对高活性取代基赋予更高注意力分数。
文章实验部分还有非常多相关的分析,具体可详细阅读原文。
作者在文末提到,TS-AC的下一步优化方向包括:
这些方向也为相关领域的研究提供了有益参考。
如果你正在关注活性悬崖预测、分子性质建模或药物研发AI工具,这篇论文绝对值得深入研读。研究代码已开源(https://github.com/NiuDongjiang/TS-AC)。
(●'◡'●) 需要进一步讨论的同学欢迎留言交流!