Nat. Mach. Intell. | 分子深度学习：探索化学空间的边界

DrugAI

发布于 2026-04-28 10:19:23

340

DRUGONE

分子机器学习模型通常难以泛化到训练数据之外的化学空间，这限制了其在结构新颖分子上的预测能力。为了解决这一问题，研究人员提出了一种联合建模方法，将分子性质预测与分子重构任务结合，从而引入一种新的指标——“不熟悉度”（unfamiliarity），用于评估模型的泛化能力。

通过对30多个生物活性数据集的系统分析，研究人员发现，不熟悉度不仅能够有效识别分布外分子，还能作为分类模型性能的可靠预测指标。即使在大规模分子库中存在显著分布偏移，该指标仍能提供传统方法难以捕捉的重要分子信息。进一步的实验验证表明，基于不熟悉度筛选策略，研究人员成功在两个关键激酶靶点上发现了多个低微摩尔活性分子，并且这些分子与训练数据结构差异较大。这表明，该方法能够将分子机器学习拓展至“未知化学空间”，促进新型分子的发现。

分子机器学习在药物早期发现中发挥着越来越重要的作用，其核心目标之一是识别具有生物活性的全新分子。然而，在实际应用中，模型往往难以超越训练数据所覆盖的化学空间。

这种问题的根源在于：机器学习模型在面对分布外数据时容易失效，而分子作为离散结构数据，极易偏离训练分布。此外，高质量实验数据的稀缺进一步限制了模型的泛化能力，使得训练集规模远小于实际筛选库规模。

传统方法通常通过定义“适用域”或基于分子相似性来判断预测可靠性，但这类方法依赖人工定义规则，难以支持结构创新。另一类方法通过不确定性估计评估预测可信度，但在分布外样本上往往会出现过度自信的问题。

在此背景下，如何在“化学空间边界”之外仍然实现可靠预测，成为分子机器学习领域的核心挑战。研究人员提出，通过利用生成模型中的重构能力，可以从模型内部视角评估分子是否“熟悉”，从而更准确地判断预测可靠性。

方法

研究人员构建了一种联合分子模型（JMM），将分子重构与性质预测整合到统一框架中。

在该模型中，分子首先以SMILES形式表示，并通过卷积神经网络编码为低维潜在向量。随后，该向量被解码为原始分子结构，同时输入分类器预测分子性质。整个过程采用半监督学习，使模型同时学习结构表示与性质信息。

关键创新在于利用重构误差来定义“不熟悉度”：当模型难以准确重构某个分子时，说明该分子偏离训练分布，从而被视为“陌生”。该指标直接反映模型对分子结构的认知程度。

为了系统研究分布外问题，研究人员通过谱聚类方法，将数据集划分为训练集、分布内测试集和分布外测试集，从而构建严格的评估框架。同时结合多种分子相似性度量方法，验证分布划分的合理性。

这一方法实现了从“模型内部表示”出发评估泛化能力，而非依赖外部定义的相似性标准。

图1：联合模型与不熟悉度概念示意。

结果

分布外检测能力

研究人员在33个数据集上系统评估了模型表现。结果表明，分布外分子的不熟悉度显著高于分布内分子，并且这种差异在统计上显著。

进一步分析发现，不熟悉度与分子复杂性、长度等因素无关，而主要取决于其与训练分布的距离。这说明该指标真正捕捉的是“分布偏移”，而非简单的结构复杂度。

同时，不熟悉度与多种分子相似性指标均呈现稳定相关性，表明其能够从模型角度统一刻画分布关系。

预测性能与不熟悉度的关系

研究发现，随着不熟悉度增加，模型预测性能显著下降。这一趋势在多个评价指标（准确率、命中率等）上均保持一致。

与传统方法相比，不熟悉度作为模型驱动指标，优于基于分子相似性的“数据驱动方法”。同时，它与不确定性估计呈弱相关，说明二者捕捉的是不同信息。

具体而言，不确定性反映的是预测分布，而不熟悉度同时整合了结构信息与预测能力，从而提供更全面的可靠性评估。

图2：分布偏移与性能关系。

大规模虚拟筛选

在包含百万级分子的商业库中，不熟悉度成功识别出显著的分布偏移，而不确定性指标未能检测到这种差异。

此外，不熟悉度能够揭示具有代表性的结构特征，例如典型药效团或新颖骨架，而这些信息在传统方法中往往被忽略。

这表明，在大规模筛选场景下，不熟悉度比不确定性更适合作为导航指标，用于探索未知化学空间。

图3：百万级分子筛选分析。

前瞻性实验验证

研究人员在两个激酶靶点（PIM1和CDK1）上进行了真实筛选实验。通过结合预测活性、不确定性和不熟悉度三个指标，筛选候选分子。

实验结果显示，该方法成功识别出多个具有低微摩尔活性的分子，并且这些分子与训练集结构差异显著。

总体命中率显著高于传统筛选方法，表明该策略在实际药物发现中具有重要应用价值。

图4：实验筛选结果。

讨论

本研究提出的不熟悉度指标，为分子机器学习中的泛化问题提供了一种全新解决思路。通过联合建模，研究人员能够从模型内部视角评估分子是否属于已学习分布，从而更准确地判断预测可靠性。

相比传统相似性方法，不熟悉度不仅能够捕捉结构差异，还能反映预测性能变化。同时，它与不确定性估计互补，使得两者结合可以提供更全面的决策依据。

在实际应用中，不熟悉度在大规模筛选中表现出显著优势，能够识别传统方法忽略的结构信息，并成功指导新型活性分子的发现。

未来，该方法有望应用于主动学习、强化学习等场景，进一步引导模型探索未覆盖的化学空间区域。总体而言，这一研究为构建更可靠、更具泛化能力的分子深度学习模型提供了重要方向。

整理 | DrugOne团队

参考资料

van Tilborg, D., Rossen, L. & Grisoni, F. Molecular deep learning at the edge of chemical space. Nat Mach Intell (2026).

https://doi.org/10.1038/s42256-026-01216-w

内容为【DrugOne】公众号原创｜转载请注明来源

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2026-04-22，如有侵权请联系 cloudcommunity@tencent.com 删除

深度学习

本文分享自 DrugOne 微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度

Nat. Mach. Intell. | 分子深度学习：探索化学空间的边界

Nat. Mach. Intell. | 分子深度学习：探索化学空间的边界

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐