首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >TS-AC 模型:迁移学习与超连接图驱动的活性悬崖预测新范式

TS-AC 模型:迁移学习与超连接图驱动的活性悬崖预测新范式

作者头像
MindDance
发布2026-01-08 13:00:04
发布2026-01-08 13:00:04
1030
举报

Task-Specific Activity Cliff Prediction Method Based on Transfer Learning and a Hyper Connection Graph Model

期刊: Journal of Chemical Information and Modeling 链接: https://doi.org/10.1021/acs.jcim.5c00949 代码: https://github.com/NiuDongjiang/TS-AC 简介: 该论文提出了一种名为 TS-AC 的任务特异性活性悬崖预测框架,其创新点在于整合迁移学习和超连接图架构,以解决现有方法在捕捉化合物复杂结构关系和泛化能力上的不足。该方法通过大规模药物 - 药物相互作用预测任务预训练模型,将学到的化学知识迁移到活性悬崖预测中,并设计超连接图模块捕捉匹配分子对中核心与取代基片段的相互作用。实验在 Thrombin、Mu Opioid Receptor 和 Melanocortin Receptor 4 三个数据集上进行,结果显示 TS-AC 在多项评价指标上持续优于现有方法,且可视化分析证实了模型设计的可解释性和合理性。该论文为药物发现和分子优化中的活性悬崖预测提供了更有效的工具,提升了预测准确性和泛化能力。


在药物研发领域,一个看似微小的分子结构改动,可能引发生物活性的巨大波动——这就是令研究者既头疼又重视的活性悬崖(Activity Cliffs, ACs)。准确预测活性悬崖,能帮助科研人员避开无效实验、加速候选药物优化,但传统方法始终受限于数据稀缺、结构关系捕捉不足等问题。

今天要给大家推荐一篇发表在《Journal of Chemical Information and Modeling》的最新研究。它创新性地结合迁移学习与超连接图架构,在活性悬崖预测任务中实现了性能突破,为药物设计提供了更精准的工具。

什么是活性悬崖?为何预测如此重要?

活性悬崖指的是结构高度相似的化合物,其生物活性却存在显著差异的现象。例如,两个仅在取代基上有微小差别的分子,对靶点的抑制活性可能相差100倍以上。

这种现象的重要性在于:

  • • 揭示了分子结构与活性的非线性关系,打破了“结构相似则活性相似”的传统认知;
  • • 指导药物结构优化:通过识别活性悬崖,研究者能针对性地修改分子片段,快速提升药效;
  • • 降低研发成本:避免在无效结构改造上浪费资源,缩短药物从发现到上市的周期。

但预测活性悬崖并不容易。现有方法要么依赖人工设计的分子描述符(如ECFPs),无法捕捉复杂结构关系;要么受限于数据量,在小规模数据集上泛化能力差。而TS-AC模型的出现,正是为了解决这些核心痛点。

TS-AC模型:两大创新突破传统局限

(A)展示了匹配分子对(MMP)的示例,TS-AC 将其分为两种场景:场景 I 为两个完整化合物,场景 II 为拆解后的核心和两个取代基。(B)针对场景 I 的 TS-AC-CC 模型,通过药物 - 药物相互作用(DDI)迁移学习初始化参数,利用分子特征增强器(MFE)整合结构细节,再通过多层感知器(MLP)得到预测分数。(C)针对场景 II 的 TS-AC-CS 模型,通过超连接图建立核心与各取代基的关联,深入理解动态关系,最终通过 MLP 得到预测分数。
(A)展示了匹配分子对(MMP)的示例,TS-AC 将其分为两种场景:场景 I 为两个完整化合物,场景 II 为拆解后的核心和两个取代基。(B)针对场景 I 的 TS-AC-CC 模型,通过药物 - 药物相互作用(DDI)迁移学习初始化参数,利用分子特征增强器(MFE)整合结构细节,再通过多层感知器(MLP)得到预测分数。(C)针对场景 II 的 TS-AC-CS 模型,通过超连接图建立核心与各取代基的关联,深入理解动态关系,最终通过 MLP 得到预测分数。

(A)展示了匹配分子对(MMP)的示例,TS-AC 将其分为两种场景:场景 I 为两个完整化合物,场景 II 为拆解后的核心和两个取代基。(B)针对场景 I 的 TS-AC-CC 模型,通过药物 - 药物相互作用(DDI)迁移学习初始化参数,利用分子特征增强器(MFE)整合结构细节,再通过多层感知器(MLP)得到预测分数。(C)针对场景 II 的 TS-AC-CS 模型,通过超连接图建立核心与各取代基的关联,深入理解动态关系,最终通过 MLP 得到预测分数。

TS-AC(Task-Specific Activity Cliff Prediction Model)是一款针对活性悬崖预测的任务特异性框架,其设计直击行业痛点,核心创新体现在两方面:

创新一:迁移学习破解数据稀缺难题

活性悬崖预测的一大挑战是标注数据有限。直接在小规模数据上训练深度学习模型,容易导致过拟合,泛化能力大打折扣。

TS-AC的解决思路是:借助药物-药物相互作用(DDI)预测任务进行预训练。 DDI数据规模大、包含丰富的分子-生物活性关联信息,通过在DDI任务上预训练,模型能提前学习到分子结构、生化特征等通用知识,再将这些知识迁移到活性悬崖预测任务中,即使在小规模数据上也能快速收敛并保持高准确性。

实验表明,这种迁移学习策略能使模型在跨靶点预测时,仍保持稳定性能——这对实际药物研发中“面对新靶点缺乏数据”的场景至关重要。

创新二:超连接图捕捉核心-取代基动态关系

药物优化中,研究者常将分子拆解为核心骨架(core)取代基(substituent),通过替换取代基探索活性变化。但传统模型往往孤立处理这两部分,忽略了它们之间的动态相互作用。

TS-AC设计了超连接图(Hyper Connection Graph) 模块,专门解决这一问题:

  • • 对拆解后的核心与取代基,建立原子级别的全连接关系;
  • • 通过图注意力网络(GAT)捕捉核心与取代基之间的直接/间接相互作用;
  • • 结合分子活性值(如pKi)设计约束损失函数,强化结构与活性的关联学习。

这种设计让模型能精准识别“哪些取代基变化会引发活性悬崖”,例如在 thrombin 靶点数据集上,TS-AC对核心-取代基相互作用的捕捉准确率比传统方法提升了14%。

(A)以 DDI 数据集为输入进行预训练,通过深度图卷积网络(GCN)提取药物特征,经 MFE 整合后输入预测模块,通过 MLP 得到 DDI 概率。(B)将预训练后的模型参数更新到 TS-AC-CC 中,以 MMP 为输入,经 GCN 和 MFE 整合后,通过 MLP 得到活性悬崖(AC)概率。
(A)以 DDI 数据集为输入进行预训练,通过深度图卷积网络(GCN)提取药物特征,经 MFE 整合后输入预测模块,通过 MLP 得到 DDI 概率。(B)将预训练后的模型参数更新到 TS-AC-CC 中,以 MMP 为输入,经 GCN 和 MFE 整合后,通过 MLP 得到活性悬崖(AC)概率。

(A)以 DDI 数据集为输入进行预训练,通过深度图卷积网络(GCN)提取药物特征,经 MFE 整合后输入预测模块,通过 MLP 得到 DDI 概率。(B)将预训练后的模型参数更新到 TS-AC-CC 中,以 MMP 为输入,经 GCN 和 MFE 整合后,通过 MLP 得到活性悬崖(AC)概率。

(a)化合物的核心和两个取代基组成 MMP,整合为超连接图(边表示核心与各取代基的连接强度或交互权重),结合约束损失(基于 pKi 值)和预测损失训练模型。(b)描述基于超连接图的建模过程,核心和两个取代基为关键组件,通过图注意力网络(GAT)和池化操作处理。
(a)化合物的核心和两个取代基组成 MMP,整合为超连接图(边表示核心与各取代基的连接强度或交互权重),结合约束损失(基于 pKi 值)和预测损失训练模型。(b)描述基于超连接图的建模过程,核心和两个取代基为关键组件,通过图注意力网络(GAT)和池化操作处理。

(a)化合物的核心和两个取代基组成 MMP,整合为超连接图(边表示核心与各取代基的连接强度或交互权重),结合约束损失(基于 pKi 值)和预测损失训练模型。(b)描述基于超连接图的建模过程,核心和两个取代基为关键组件,通过图注意力网络(GAT)和池化操作处理。

性能验证:多场景下全面超越现有方法

为验证TS-AC的有效性,研究团队在三个经典数据集(Thrombin、Mu Opioid Receptor、Melanocortin Receptor 4)上进行了系统测试,并与GAT、Transformer、ACGCN等主流模型对比,结果令人振奋:

比较 TS-AC 与基线模型在 CC 任务中,以 Mu Opioid Receptor 和 Melanocortin Receptor 4 为独立测试集的性能(包括 BA、TPR、TNR、F1 等指标)。
比较 TS-AC 与基线模型在 CC 任务中,以 Mu Opioid Receptor 和 Melanocortin Receptor 4 为独立测试集的性能(包括 BA、TPR、TNR、F1 等指标)。

比较 TS-AC 与基线模型在 CC 任务中,以 Mu Opioid Receptor 和 Melanocortin Receptor 4 为独立测试集的性能(包括 BA、TPR、TNR、F1 等指标)。

比较 TS-AC 与基线模型在 CS 任务中,以 Mu Opioid Receptor 和 Melanocortin Receptor 4 为独立测试集的性能(包括 TPR、TNR、F1 等指标)。
比较 TS-AC 与基线模型在 CS 任务中,以 Mu Opioid Receptor 和 Melanocortin Receptor 4 为独立测试集的性能(包括 TPR、TNR、F1 等指标)。

比较 TS-AC 与基线模型在 CS 任务中,以 Mu Opioid Receptor 和 Melanocortin Receptor 4 为独立测试集的性能(包括 TPR、TNR、F1 等指标)。

1. 常规场景:五项指标全面领先

在标准5折交叉验证中,TS-AC在平衡准确率(BA)、F1分数、MCC(马修斯相关系数) 等关键指标上均排名第一:

  • • 在Thrombin数据集的化合物-化合物(CC)场景中,BA达0.897,AUC(曲线下面积)达0.936,远超ACGCN的0.870和0.915;
  • • 在核心-取代基(CS)场景中,TS-AC的F1分数比GAT高出6.2%,MCC提升8.8%,显示对拆解分子结构的强大处理能力。

2. 跨靶点泛化:更贴近真实研发场景

实际研发中,模型常需面对“训练集与测试集靶点不同”的情况。研究团队用Thrombin数据集训练,在Mu Opioid Receptor和Melanocortin Receptor 4上测试,发现:

  • • TS-AC的平衡准确率(BA)比次优模型高出3.2%-5.7%;
  • • 其他模型普遍出现TPR(真阳性率)与TNR(真阴性率)失衡,而TS-AC能同时保持高识别能力,避免“漏判”或“误判”。

3. 全新分子对预测:De Novo场景的稳定性

在“测试集化合物完全未出现在训练集”的严苛场景下,TS-AC仍表现稳健:

  • • 在Thrombin的CC场景中,AUC达0.914,比ACGCN高出5.5%;
  • • 即使在CS场景中,面对全新核心或取代基,其性能下降幅度也比Transformer小12.3%。

可解释性:让模型“说出”决策依据

深度学习模型常被诟病“黑箱性”,但TS-AC通过可视化分析,让预测过程变得可解释:

  • • 在CC场景中,模型会高亮导致活性差异的关键原子(如特定取代基位置),清晰区分“非悬崖对”与“悬崖对”;
  • • 在CS场景中,对活性悬崖样本,模型会将注意力集中在引起活性变化的取代基上,甚至能识别“哪个取代基更可能提升活性”。

这种解释性对药物设计意义重大——研究者不仅能得到预测结果,还能明白“为何这个结构会引发活性突变”,为实验设计提供直接指导。

(A)非活性悬崖 MMPs 的可视化:模型标记的节点集中在共同特征,未落在引起结构变化的取代基上,表明结构变化不足以引发活性差异。(B)活性悬崖 MMPs 的可视化:模型标记引起结构变化的取代基,验证其对关键结构差异的识别能力。
(A)非活性悬崖 MMPs 的可视化:模型标记的节点集中在共同特征,未落在引起结构变化的取代基上,表明结构变化不足以引发活性差异。(B)活性悬崖 MMPs 的可视化:模型标记引起结构变化的取代基,验证其对关键结构差异的识别能力。

(A)非活性悬崖 MMPs 的可视化:模型标记的节点集中在共同特征,未落在引起结构变化的取代基上,表明结构变化不足以引发活性差异。(B)活性悬崖 MMPs 的可视化:模型标记引起结构变化的取代基,验证其对关键结构差异的识别能力。

(A)非活性悬崖 MMPs 的可视化:模型标记集中在核心,表明取代基变化对活性影响较小。(B)活性悬崖 MMPs 的可视化:模型标记引起活性变化的取代基,且对高活性取代基赋予更高注意力分数。
(A)非活性悬崖 MMPs 的可视化:模型标记集中在核心,表明取代基变化对活性影响较小。(B)活性悬崖 MMPs 的可视化:模型标记引起活性变化的取代基,且对高活性取代基赋予更高注意力分数。

(A)非活性悬崖 MMPs 的可视化:模型标记集中在核心,表明取代基变化对活性影响较小。(B)活性悬崖 MMPs 的可视化:模型标记引起活性变化的取代基,且对高活性取代基赋予更高注意力分数。

文章实验部分还有非常多相关的分析,具体可详细阅读原文。

为什么推荐这篇研究?

  1. 1. 解决实际痛点:针对数据稀缺、结构关系捕捉不足等行业难题,提出可落地的解决方案;
  2. 2. 设计巧思:迁移学习与超连接图的结合,为多任务分子建模提供了新思路;
  3. 3. 性能扎实:在常规、跨靶点、全新分子等多场景下验证,结果具有说服力;
  4. 4. 可解释性强:可视化分析让模型决策透明化,更易被实验研究者接受。

未来展望

作者在文末提到,TS-AC的下一步优化方向包括:

  • • 引入无监督预训练,利用大规模未标注分子数据提升泛化能力;
  • • 开发结构感知的数据增强技术,生成更合理的分子变体;
  • • 融合模糊聚类与图卷积网络,进一步强化复杂结构关系建模。

这些方向也为相关领域的研究提供了有益参考。

如果你正在关注活性悬崖预测、分子性质建模或药物研发AI工具,这篇论文绝对值得深入研读。研究代码已开源(https://github.com/NiuDongjiang/TS-AC)。


(●'◡'●) 需要进一步讨论的同学欢迎留言交流!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-08-01,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 MindDance 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • Task-Specific Activity Cliff Prediction Method Based on Transfer Learning and a Hyper Connection Graph Model
  • 什么是活性悬崖?为何预测如此重要?
  • TS-AC模型:两大创新突破传统局限
    • 创新一:迁移学习破解数据稀缺难题
    • 创新二:超连接图捕捉核心-取代基动态关系
  • 性能验证:多场景下全面超越现有方法
    • 1. 常规场景:五项指标全面领先
    • 2. 跨靶点泛化:更贴近真实研发场景
    • 3. 全新分子对预测:De Novo场景的稳定性
  • 可解释性:让模型“说出”决策依据
  • 为什么推荐这篇研究?
  • 未来展望
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档