
DRUGONE
分子性质预测是药物研发的重要任务,可用于发现潜在化合物并辅助优化新药。现有深度学习方法虽取得进展,但常与化学本质不完全契合。研究人员提出的 Molecular Motif Learning(MotiL) 是一种无监督预训练方法,可直接从原始分子图中学习既保留整体结构、又包含关键基序(motif)信息的高质量表征。MotiL 能将具有相同骨架的小分子以及结构和功能相关的蛋白质映射到相似的表示空间。研究人员在至少 16 个基准任务中验证了该方法,结果显示 MotiL 不仅能更好区分具有相同 scaffold 的小分子,还能识别结构与功能类似的蛋白(如 tRNA 结合蛋白),在血脑屏障渗透性等任务上超越现有对比学习与预测式预训练方法。

分子性质预测涉及小分子与蛋白质等多种化学实体,对于药物发现、材料科学和分子生物学均至关重要。传统实验方法耗时昂贵,因此机器学习成为高效替代方案。然而,当前图模型预训练多基于对比学习或预测式学习,其加噪、剪枝或掩码策略常破坏关键的化学亚结构,使模型难以保留具有药理意义的局部基序。例如,功能团、氨基酸残基或立体化学信息往往在增强或掩码过程中丢失,从而削弱对结构–功能关系的建模能力。
基于此,研究人员提出需构建更符合化学规律、能同时学习全局结构与局部化学基序的预训练框架。
方法
研究人员提出 MotiL 预训练框架,由三个阶段组成:
该流程使模型自然学习到分子间共享的 scaffold、功能团、以及蛋白质序列中的结构同源关系。
结果
MotiL 能学习化学上合理的图表示
MotiL 在全局层面可让具有相同骨架的小分子映射到相似的表示空间;在蛋白质上,可使结构相似、功能相关的蛋白获得接近的表示,如 kinase 活性相关蛋白或 tRNA 结合蛋白。在局部层面,MotiL 能识别结构相近的官能团(如不同类别的 C=O 基团)并赋予类似的 motif 表征,同时区分结构迥异的氨基酸残基。

图 1 | MotiL 框架
MotiL 在多个小分子性质预测任务中显著领先
MotiL 在至少 16 个分子性质预测基准任务上进行了评估:

图 2 | 基准任务表现对比
MotiL 对蛋白质性质的预测能力同样增强
得益于 motif 与结构层级信息的保留,MotiL 在蛋白性质预测中也具备优势:
其表示有助于预测稳定性、折叠路径或结构功能关联。

图 3 | 蛋白与小分子表示结构可视化
MotiL 的扩散预热和双尺度训练是性能提升的关键
研究人员进一步分析 MotiL 各模块贡献:
这些设计共同使模型在分子与蛋白的跨类型任务中取得稳健优势。

图 4 | DiffMoM 与 Bi-scale 训练
讨论
MotiL 解决了当前分子预训练方法难以捕获关键基序的问题,构建了更符合化学语义的表示空间。
其优势主要来自:
研究人员认为,随着更大规模无标签数据与更强 GNN 模型的出现,MotiL 代表了未来化学预训练的重要方向,可进一步赋能药物发现、蛋白质工程与材料设计等领域。
整理 | DrugOne团队
参考资料
Liu, Z., Wang, C., Zheng, S. et al. Molecular Motif Learning as a pretraining objective for molecular property prediction. Nat Commun (2025).
https://doi.org/10.1038/s41467-025-66685-w
内容为【DrugOne】公众号原创|转载请注明来源