首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >Nat. Mach. Intell. | 协同约束图扩散模型用于真实感合成分子的生成

Nat. Mach. Intell. | 协同约束图扩散模型用于真实感合成分子的生成

作者头像
DrugAI
发布2026-05-08 19:53:25
发布2026-05-08 19:53:25
830
举报

新分子的发现对于药物开发、材料设计以及环境问题的解决至关重要。然而,化学空间极其庞大,使得新分子的探索成为一个高维且复杂的问题。研究人员提出了 CoCoGraph,一种协同约束图扩散模型,能够生成在化学上严格有效的分子结构。

该模型通过在扩散过程中引入显式化学约束,并结合协同学习机制,在标准基准测试中显著优于现有方法,同时具有更高的计算效率。进一步分析表明,模型生成分子的36种化学性质分布更接近真实分子。研究人员还构建了一个包含820万分子的合成分子数据库,并通过类似图灵测试的方法验证生成分子的真实性。结果显示,即使是具备化学背景的专家,也难以区分生成分子与真实分子。这些结果表明,该方法能够高效探索化学空间,并为分子设计提供新的技术路径。

分子发现是现代科学中的核心问题之一,广泛应用于药物研发、新材料设计以及环境化学等领域。然而,潜在的类药分子空间规模极其巨大,使得传统实验与计算方法难以有效覆盖。

早期分子生成方法主要依赖规则或优化策略,但通常只能在已有分子基础上进行局部修改,难以实现真正的“de novo”生成。随着深度学习的发展,变分自编码器、生成对抗网络以及图神经网络被引入该领域,但仍面临分子有效性、可扩展性以及泛化能力不足的问题。

扩散模型的兴起为分子生成提供了新的思路。其通过逐步添加噪声并学习反向去噪过程,实现数据生成。然而,在分子场景中,如何保证生成结构符合化学约束,仍然是关键挑战。

因此,研究人员提出一种新的范式:在生成过程中直接嵌入化学约束,而不是依赖模型学习这些规则,从而提升生成质量与效率。

方法

CoCoGraph的核心在于将分子生成建模为一个受约束的离散图扩散过程。在扩散过程中,研究人员采用“双边交换(double edge swapping)”策略,即在每一步中交换两条化学键,从而在保持原子数与价态不变的前提下实现结构扰动。

这一设计带来了重要优势:模型在整个生成过程中始终满足化学约束,因此不会生成无效分子。同时,由于约束直接嵌入,模型可以专注于学习真实分子的结构模式,而无需学习基本化学规则。

在去噪阶段,模型由两个协同模块组成。扩散模型负责预测如何逆转键交换操作,而时间模型用于估计当前分子距离真实分子的“距离”,并为扩散模型提供更准确的进程信息。最终,系统从生成轨迹中选择最接近真实分子的候选作为输出。

图1:CoCoGraph协同约束扩散模型结构。

结果

基准测试性能提升

研究人员在GuacaMol基准上对模型进行系统评估。结果显示,CoCoGraph在多个关键指标上优于现有方法,包括JTVAE、DiGress、GDSS等。

该模型实现了100%的化学有效性,同时保持接近100%的唯一性和较高的新颖性,说明约束机制并未限制化学空间探索能力。

在分子性质分布匹配方面,模型的KL散度显著低于其他方法,表明其生成分子在统计特征上更接近真实分子。

分子性质分布一致性

进一步分析表明,在分子量、复杂度、芳香环数量等多个指标上,CoCoGraph生成分子的分布与真实分子高度一致。

相比之下,一些传统模型虽然能生成有效分子,但其性质分布范围较窄,缺乏多样性。这说明CoCoGraph不仅能生成“合法分子”,还能生成“真实分子”。

图2:生成分子与真实分子在多种化学性质上的分布对比。

更全面的化学性质评估

研究人员进一步扩展到36种分子描述符进行评估,包括拓扑特征、电性参数以及类药性指标。

结果显示,CoCoGraph在超过三分之二的性质上优于对比方法,尤其在拓扑复杂性、电荷分布以及TPSA等关键指标上表现突出。这表明模型能够捕捉更深层次的化学结构规律。

大规模分子数据库构建

得益于模型的高效率,研究人员生成了一个包含820万分子的数据库,其中约95.7%的分子为新颖结构。

这一数据库覆盖广泛的化学空间,可用于药物筛选与材料设计,为实际应用提供重要资源。

图灵测试验证分子真实性

研究人员设计了一种类似图灵测试的实验,让化学专家判断分子是否真实。

结果显示,专家的平均正确率约为62%,仅略高于随机猜测水平。这表明生成分子在结构合理性与化学特征上已接近真实分子。

此外,在某些分子类型(如无环或脂肪族分子)中,专家几乎无法区分真实与生成分子。

图3:专家在分子图灵测试中的判断准确率。

分子设计应用能力

研究人员展示了模型在药物设计中的应用。例如,通过在数据库中筛选,成功找到多个性质类似于对乙酰氨基酚的候选分子。

此外,模型还支持基于“inpainting”的条件生成,即在保持分子骨架不变的情况下添加新片段,实现定向优化。这种能力对于先导化合物优化具有重要意义。

图4:基于数据库搜索的候选分子筛选结果。

图5:基于片段扩展的条件分子生成。

讨论

本研究提出了一种新的分子生成范式,即通过在扩散过程中直接嵌入化学约束,实现高质量分子生成。与传统方法相比,该方法无需学习基本化学规则,从而提高效率并减少模型复杂度。

协同机制是该模型的另一关键创新。通过引入时间模型,系统能够动态调整生成过程,从而提高去噪精度。这种设计使模型在保持小规模参数的同时实现高性能。

此外,模型生成的大规模分子数据库为化学空间探索提供了重要资源,并展示了AI在分子设计中的实际应用潜力。

然而,研究人员也指出了一些局限。例如,该模型需要预先指定分子式,在某些应用中可能受到限制。同时,对于超大分子的生成仍需要进一步优化计算效率。

总体而言,CoCoGraph展示了扩散模型在分子生成中的新方向,即通过“约束+协同”的设计,实现从有效性到真实性的全面提升,为AI驱动的分子设计提供了重要基础。

整理 | DrugOne团队

参考资料

Ruiz-Botella, M., Sales-Pardo, M. & Guimerà, R. A collaborative constrained graph diffusion model for the generation of realistic synthetic molecules. Nat Mach Intell (2026).

https://doi.org/10.1038/s42256-026-01229-5

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-05-05,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugOne 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档