Nat. Commun. | 借助分子基序学习的预训练框架化分子性质预测

DrugAI

发布于 2026-01-06 13:57:09

1580

文章被收录于专栏：DrugAIDrugAI

DRUGONE

分子性质预测是药物研发的重要任务，可用于发现潜在化合物并辅助优化新药。现有深度学习方法虽取得进展，但常与化学本质不完全契合。研究人员提出的 Molecular Motif Learning（MotiL）是一种无监督预训练方法，可直接从原始分子图中学习既保留整体结构、又包含关键基序（motif）信息的高质量表征。MotiL 能将具有相同骨架的小分子以及结构和功能相关的蛋白质映射到相似的表示空间。研究人员在至少 16 个基准任务中验证了该方法，结果显示 MotiL 不仅能更好区分具有相同 scaffold 的小分子，还能识别结构与功能类似的蛋白（如 tRNA 结合蛋白），在血脑屏障渗透性等任务上超越现有对比学习与预测式预训练方法。

分子性质预测涉及小分子与蛋白质等多种化学实体，对于药物发现、材料科学和分子生物学均至关重要。传统实验方法耗时昂贵，因此机器学习成为高效替代方案。然而，当前图模型预训练多基于对比学习或预测式学习，其加噪、剪枝或掩码策略常破坏关键的化学亚结构，使模型难以保留具有药理意义的局部基序。例如，功能团、氨基酸残基或立体化学信息往往在增强或掩码过程中丢失，从而削弱对结构–功能关系的建模能力。

基于此，研究人员提出需构建更符合化学规律、能同时学习全局结构与局部化学基序的预训练框架。

方法

研究人员提出 MotiL 预训练框架，由三个阶段组成：

扩散预热（Diffusion priming）：通过修改与恢复化学键，使图神经网络学习基础化学结构。
双尺度训练（Bi-scaled training）：基于原始图与剪枝图构建正负样本，使模型同时关注整体结构与局部基序。
任务特定微调：将预训练参数迁移至具体性质预测任务。

该流程使模型自然学习到分子间共享的 scaffold、功能团、以及蛋白质序列中的结构同源关系。

结果

MotiL 能学习化学上合理的图表示

MotiL 在全局层面可让具有相同骨架的小分子映射到相似的表示空间；在蛋白质上，可使结构相似、功能相关的蛋白获得接近的表示，如 kinase 活性相关蛋白或 tRNA 结合蛋白。在局部层面，MotiL 能识别结构相近的官能团（如不同类别的 C=O 基团）并赋予类似的 motif 表征，同时区分结构迥异的氨基酸残基。