首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >Nat. Mach. Intell. | 分子深度学习:探索化学空间的边界

Nat. Mach. Intell. | 分子深度学习:探索化学空间的边界

作者头像
DrugAI
发布2026-04-28 10:19:23
发布2026-04-28 10:19:23
340
举报

DRUGONE

分子机器学习模型通常难以泛化到训练数据之外的化学空间,这限制了其在结构新颖分子上的预测能力。为了解决这一问题,研究人员提出了一种联合建模方法,将分子性质预测与分子重构任务结合,从而引入一种新的指标——“不熟悉度”(unfamiliarity),用于评估模型的泛化能力。

通过对30多个生物活性数据集的系统分析,研究人员发现,不熟悉度不仅能够有效识别分布外分子,还能作为分类模型性能的可靠预测指标。即使在大规模分子库中存在显著分布偏移,该指标仍能提供传统方法难以捕捉的重要分子信息。进一步的实验验证表明,基于不熟悉度筛选策略,研究人员成功在两个关键激酶靶点上发现了多个低微摩尔活性分子,并且这些分子与训练数据结构差异较大。这表明,该方法能够将分子机器学习拓展至“未知化学空间”,促进新型分子的发现。

分子机器学习在药物早期发现中发挥着越来越重要的作用,其核心目标之一是识别具有生物活性的全新分子。然而,在实际应用中,模型往往难以超越训练数据所覆盖的化学空间。

这种问题的根源在于:机器学习模型在面对分布外数据时容易失效,而分子作为离散结构数据,极易偏离训练分布。此外,高质量实验数据的稀缺进一步限制了模型的泛化能力,使得训练集规模远小于实际筛选库规模。

传统方法通常通过定义“适用域”或基于分子相似性来判断预测可靠性,但这类方法依赖人工定义规则,难以支持结构创新。另一类方法通过不确定性估计评估预测可信度,但在分布外样本上往往会出现过度自信的问题。

在此背景下,如何在“化学空间边界”之外仍然实现可靠预测,成为分子机器学习领域的核心挑战。研究人员提出,通过利用生成模型中的重构能力,可以从模型内部视角评估分子是否“熟悉”,从而更准确地判断预测可靠性。

方法

研究人员构建了一种联合分子模型(JMM),将分子重构与性质预测整合到统一框架中。

在该模型中,分子首先以SMILES形式表示,并通过卷积神经网络编码为低维潜在向量。随后,该向量被解码为原始分子结构,同时输入分类器预测分子性质。整个过程采用半监督学习,使模型同时学习结构表示与性质信息。

关键创新在于利用重构误差来定义“不熟悉度”:当模型难以准确重构某个分子时,说明该分子偏离训练分布,从而被视为“陌生”。该指标直接反映模型对分子结构的认知程度。

为了系统研究分布外问题,研究人员通过谱聚类方法,将数据集划分为训练集、分布内测试集和分布外测试集,从而构建严格的评估框架。同时结合多种分子相似性度量方法,验证分布划分的合理性。

这一方法实现了从“模型内部表示”出发评估泛化能力,而非依赖外部定义的相似性标准。

图1:联合模型与不熟悉度概念示意。

结果

分布外检测能力

研究人员在33个数据集上系统评估了模型表现。结果表明,分布外分子的不熟悉度显著高于分布内分子,并且这种差异在统计上显著。

进一步分析发现,不熟悉度与分子复杂性、长度等因素无关,而主要取决于其与训练分布的距离。这说明该指标真正捕捉的是“分布偏移”,而非简单的结构复杂度。

同时,不熟悉度与多种分子相似性指标均呈现稳定相关性,表明其能够从模型角度统一刻画分布关系。

预测性能与不熟悉度的关系

研究发现,随着不熟悉度增加,模型预测性能显著下降。这一趋势在多个评价指标(准确率、命中率等)上均保持一致。

与传统方法相比,不熟悉度作为模型驱动指标,优于基于分子相似性的“数据驱动方法”。同时,它与不确定性估计呈弱相关,说明二者捕捉的是不同信息。

具体而言,不确定性反映的是预测分布,而不熟悉度同时整合了结构信息与预测能力,从而提供更全面的可靠性评估。

图2:分布偏移与性能关系。

大规模虚拟筛选

在包含百万级分子的商业库中,不熟悉度成功识别出显著的分布偏移,而不确定性指标未能检测到这种差异。

此外,不熟悉度能够揭示具有代表性的结构特征,例如典型药效团或新颖骨架,而这些信息在传统方法中往往被忽略。

这表明,在大规模筛选场景下,不熟悉度比不确定性更适合作为导航指标,用于探索未知化学空间。

图3:百万级分子筛选分析。

前瞻性实验验证

研究人员在两个激酶靶点(PIM1和CDK1)上进行了真实筛选实验。通过结合预测活性、不确定性和不熟悉度三个指标,筛选候选分子。

实验结果显示,该方法成功识别出多个具有低微摩尔活性的分子,并且这些分子与训练集结构差异显著。

总体命中率显著高于传统筛选方法,表明该策略在实际药物发现中具有重要应用价值。

图4:实验筛选结果。

讨论

本研究提出的不熟悉度指标,为分子机器学习中的泛化问题提供了一种全新解决思路。通过联合建模,研究人员能够从模型内部视角评估分子是否属于已学习分布,从而更准确地判断预测可靠性。

相比传统相似性方法,不熟悉度不仅能够捕捉结构差异,还能反映预测性能变化。同时,它与不确定性估计互补,使得两者结合可以提供更全面的决策依据。

在实际应用中,不熟悉度在大规模筛选中表现出显著优势,能够识别传统方法忽略的结构信息,并成功指导新型活性分子的发现。

未来,该方法有望应用于主动学习、强化学习等场景,进一步引导模型探索未覆盖的化学空间区域。总体而言,这一研究为构建更可靠、更具泛化能力的分子深度学习模型提供了重要方向。

整理 | DrugOne团队

参考资料

van Tilborg, D., Rossen, L. & Grisoni, F. Molecular deep learning at the edge of chemical space. Nat Mach Intell (2026).

https://doi.org/10.1038/s42256-026-01216-w

内容为【DrugOne】公众号原创|转载请注明来源

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-04-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugOne 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档