
DRUGONE
分子机器学习模型通常难以泛化到训练数据之外的化学空间,这限制了其在结构新颖分子上的预测能力。为了解决这一问题,研究人员提出了一种联合建模方法,将分子性质预测与分子重构任务结合,从而引入一种新的指标——“不熟悉度”(unfamiliarity),用于评估模型的泛化能力。
通过对30多个生物活性数据集的系统分析,研究人员发现,不熟悉度不仅能够有效识别分布外分子,还能作为分类模型性能的可靠预测指标。即使在大规模分子库中存在显著分布偏移,该指标仍能提供传统方法难以捕捉的重要分子信息。进一步的实验验证表明,基于不熟悉度筛选策略,研究人员成功在两个关键激酶靶点上发现了多个低微摩尔活性分子,并且这些分子与训练数据结构差异较大。这表明,该方法能够将分子机器学习拓展至“未知化学空间”,促进新型分子的发现。

分子机器学习在药物早期发现中发挥着越来越重要的作用,其核心目标之一是识别具有生物活性的全新分子。然而,在实际应用中,模型往往难以超越训练数据所覆盖的化学空间。
这种问题的根源在于:机器学习模型在面对分布外数据时容易失效,而分子作为离散结构数据,极易偏离训练分布。此外,高质量实验数据的稀缺进一步限制了模型的泛化能力,使得训练集规模远小于实际筛选库规模。
传统方法通常通过定义“适用域”或基于分子相似性来判断预测可靠性,但这类方法依赖人工定义规则,难以支持结构创新。另一类方法通过不确定性估计评估预测可信度,但在分布外样本上往往会出现过度自信的问题。
在此背景下,如何在“化学空间边界”之外仍然实现可靠预测,成为分子机器学习领域的核心挑战。研究人员提出,通过利用生成模型中的重构能力,可以从模型内部视角评估分子是否“熟悉”,从而更准确地判断预测可靠性。
方法
研究人员构建了一种联合分子模型(JMM),将分子重构与性质预测整合到统一框架中。
在该模型中,分子首先以SMILES形式表示,并通过卷积神经网络编码为低维潜在向量。随后,该向量被解码为原始分子结构,同时输入分类器预测分子性质。整个过程采用半监督学习,使模型同时学习结构表示与性质信息。
关键创新在于利用重构误差来定义“不熟悉度”:当模型难以准确重构某个分子时,说明该分子偏离训练分布,从而被视为“陌生”。该指标直接反映模型对分子结构的认知程度。
为了系统研究分布外问题,研究人员通过谱聚类方法,将数据集划分为训练集、分布内测试集和分布外测试集,从而构建严格的评估框架。同时结合多种分子相似性度量方法,验证分布划分的合理性。
这一方法实现了从“模型内部表示”出发评估泛化能力,而非依赖外部定义的相似性标准。

图1:联合模型与不熟悉度概念示意。
结果
分布外检测能力
研究人员在33个数据集上系统评估了模型表现。结果表明,分布外分子的不熟悉度显著高于分布内分子,并且这种差异在统计上显著。
进一步分析发现,不熟悉度与分子复杂性、长度等因素无关,而主要取决于其与训练分布的距离。这说明该指标真正捕捉的是“分布偏移”,而非简单的结构复杂度。
同时,不熟悉度与多种分子相似性指标均呈现稳定相关性,表明其能够从模型角度统一刻画分布关系。
预测性能与不熟悉度的关系
研究发现,随着不熟悉度增加,模型预测性能显著下降。这一趋势在多个评价指标(准确率、命中率等)上均保持一致。
与传统方法相比,不熟悉度作为模型驱动指标,优于基于分子相似性的“数据驱动方法”。同时,它与不确定性估计呈弱相关,说明二者捕捉的是不同信息。
具体而言,不确定性反映的是预测分布,而不熟悉度同时整合了结构信息与预测能力,从而提供更全面的可靠性评估。

图2:分布偏移与性能关系。
大规模虚拟筛选
在包含百万级分子的商业库中,不熟悉度成功识别出显著的分布偏移,而不确定性指标未能检测到这种差异。
此外,不熟悉度能够揭示具有代表性的结构特征,例如典型药效团或新颖骨架,而这些信息在传统方法中往往被忽略。
这表明,在大规模筛选场景下,不熟悉度比不确定性更适合作为导航指标,用于探索未知化学空间。

图3:百万级分子筛选分析。
前瞻性实验验证
研究人员在两个激酶靶点(PIM1和CDK1)上进行了真实筛选实验。通过结合预测活性、不确定性和不熟悉度三个指标,筛选候选分子。
实验结果显示,该方法成功识别出多个具有低微摩尔活性的分子,并且这些分子与训练集结构差异显著。
总体命中率显著高于传统筛选方法,表明该策略在实际药物发现中具有重要应用价值。

图4:实验筛选结果。
讨论
本研究提出的不熟悉度指标,为分子机器学习中的泛化问题提供了一种全新解决思路。通过联合建模,研究人员能够从模型内部视角评估分子是否属于已学习分布,从而更准确地判断预测可靠性。
相比传统相似性方法,不熟悉度不仅能够捕捉结构差异,还能反映预测性能变化。同时,它与不确定性估计互补,使得两者结合可以提供更全面的决策依据。
在实际应用中,不熟悉度在大规模筛选中表现出显著优势,能够识别传统方法忽略的结构信息,并成功指导新型活性分子的发现。
未来,该方法有望应用于主动学习、强化学习等场景,进一步引导模型探索未覆盖的化学空间区域。总体而言,这一研究为构建更可靠、更具泛化能力的分子深度学习模型提供了重要方向。
整理 | DrugOne团队
参考资料
van Tilborg, D., Rossen, L. & Grisoni, F. Molecular deep learning at the edge of chemical space. Nat Mach Intell (2026).
https://doi.org/10.1038/s42256-026-01216-w
内容为【DrugOne】公众号原创|转载请注明来源