首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >Nat. Commun. | 借助分子基序学习的预训练框架化分子性质预测

Nat. Commun. | 借助分子基序学习的预训练框架化分子性质预测

作者头像
DrugAI
发布2026-01-06 13:57:09
发布2026-01-06 13:57:09
1580
举报
文章被收录于专栏:DrugAIDrugAI

DRUGONE

分子性质预测是药物研发的重要任务,可用于发现潜在化合物并辅助优化新药。现有深度学习方法虽取得进展,但常与化学本质不完全契合。研究人员提出的 Molecular Motif Learning(MotiL) 是一种无监督预训练方法,可直接从原始分子图中学习既保留整体结构、又包含关键基序(motif)信息的高质量表征。MotiL 能将具有相同骨架的小分子以及结构和功能相关的蛋白质映射到相似的表示空间。研究人员在至少 16 个基准任务中验证了该方法,结果显示 MotiL 不仅能更好区分具有相同 scaffold 的小分子,还能识别结构与功能类似的蛋白(如 tRNA 结合蛋白),在血脑屏障渗透性等任务上超越现有对比学习与预测式预训练方法。

分子性质预测涉及小分子与蛋白质等多种化学实体,对于药物发现、材料科学和分子生物学均至关重要。传统实验方法耗时昂贵,因此机器学习成为高效替代方案。然而,当前图模型预训练多基于对比学习或预测式学习,其加噪、剪枝或掩码策略常破坏关键的化学亚结构,使模型难以保留具有药理意义的局部基序。例如,功能团、氨基酸残基或立体化学信息往往在增强或掩码过程中丢失,从而削弱对结构–功能关系的建模能力。

基于此,研究人员提出需构建更符合化学规律、能同时学习全局结构与局部化学基序的预训练框架。

方法

研究人员提出 MotiL 预训练框架,由三个阶段组成:

  • 扩散预热(Diffusion priming):通过修改与恢复化学键,使图神经网络学习基础化学结构。
  • 双尺度训练(Bi-scaled training):基于原始图与剪枝图构建正负样本,使模型同时关注整体结构与局部基序。
  • 任务特定微调:将预训练参数迁移至具体性质预测任务。

该流程使模型自然学习到分子间共享的 scaffold、功能团、以及蛋白质序列中的结构同源关系。

结果

MotiL 能学习化学上合理的图表示

MotiL 在全局层面可让具有相同骨架的小分子映射到相似的表示空间;在蛋白质上,可使结构相似、功能相关的蛋白获得接近的表示,如 kinase 活性相关蛋白或 tRNA 结合蛋白。在局部层面,MotiL 能识别结构相近的官能团(如不同类别的 C=O 基团)并赋予类似的 motif 表征,同时区分结构迥异的氨基酸残基。

图 1 | MotiL 框架

MotiL 在多个小分子性质预测任务中显著领先

MotiL 在至少 16 个分子性质预测基准任务上进行了评估:

  • 在血脑屏障渗透性、毒性等关键 ADME/安全性任务上表现优于对比学习与预测式预训练方法。
  • 对具有相同 scaffold 的分子更容易聚类到一致的表示空间,使其更适合作为下游 QSAR 模型输入。

图 2 | 基准任务表现对比

MotiL 对蛋白质性质的预测能力同样增强

得益于 motif 与结构层级信息的保留,MotiL 在蛋白性质预测中也具备优势:

  • 能识别三维结构与功能相似的蛋白质
  • 可学习蛋白质子结构中的关键化学基序,如活性位点模式

其表示有助于预测稳定性、折叠路径或结构功能关联。

图 3 | 蛋白与小分子表示结构可视化

MotiL 的扩散预热和双尺度训练是性能提升的关键

研究人员进一步分析 MotiL 各模块贡献:

  • 扩散预热帮助模型准确恢复化学键,提高基础表示质量;
  • 双尺度训练提升模型对局部基序的敏感度;
  • 微调阶段使预训练知识与具体任务对齐。

这些设计共同使模型在分子与蛋白的跨类型任务中取得稳健优势。

图 4 | DiffMoM 与 Bi-scale 训练

讨论

MotiL 解决了当前分子预训练方法难以捕获关键基序的问题,构建了更符合化学语义的表示空间。

其优势主要来自:

  • 保留关键化学基序信息:避免随机增强或掩码破坏药理相关结构。
  • 同时建模全局结构与局部语义:实现结构–功能一体化表示学习。
  • 任务泛化能力强:不仅提升小分子 QSAR 表现,也增强对蛋白质性质的建模能力。

研究人员认为,随着更大规模无标签数据与更强 GNN 模型的出现,MotiL 代表了未来化学预训练的重要方向,可进一步赋能药物发现、蛋白质工程与材料设计等领域。

整理 | DrugOne团队

参考资料

Liu, Z., Wang, C., Zheng, S. et al. Molecular Motif Learning as a pretraining objective for molecular property prediction. Nat Commun (2025).

https://doi.org/10.1038/s41467-025-66685-w

内容为【DrugOne】公众号原创|转载请注明来源

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-12-03,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugOne 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档