
DRUGONE
核磁共振(NMR)数据包含与分子结构密切相关的丰富量子信息,是化学结构解析中最重要的实验手段之一。尽管光谱分析技术已有显著进展,但现有模型在高精度NMR解析方面仍表现有限。研究人员提出了 NMRMind ——一种基于Transformer的生成框架,可直接从NMR谱数据推断分子结构。模型在包含4500万条一维谱数据的预训练集上训练,并在自建的220万条一维与二维谱数据的基准集上进行微调。通过混合模态丢弃策略,NMRMind在结构解析任务中实现了92.07%的Top-1准确率,每次推断耗时低于0.05秒。在仅使用一维与二维NMR输入时,准确率仍达85.10%。此外,NMRMind成功解析出六种未被表征的厚朴天然产物,并识别出六种合成反应中的意外生成物,扩展了可探索化学空间并揭示新反应机制。结果表明,NMRMind是一个强大且具有普适性的化学研究平台。

核磁共振光谱通过探测原子核自旋状态的量子跃迁,能在原子尺度上揭示分子组成与连接关系。研究人员指出,NMR能够无损地提供化合物结构信息,是现代结构表征的核心技术。尤其是多维NMR技术,如COSY、HSQC与HMBC,显著提升了复杂谱图的分辨率与解析能力。
随着计算机辅助结构解析(CASE)的发展与AI的兴起,NMR与机器学习的结合成为研究热点。尽管已有模型尝试将NMR谱直接映射到分子结构,但多数方法仅利用一维信息,难以充分发挥多维NMR的潜力。研究人员因此设计了NMRMind,旨在实现多维谱到结构的端到端映射,并在天然产物及有机合成中进行验证。
方法
数据与预处理
研究人员首先利用开源预测工具生成220万分子的1D与2D NMR数据(包括¹H、¹³C、COSY、HSQC、HMBC),构建训练、验证与测试集。所有谱图、分子式、片段与结构均被离散化并标记化为序列输入,其中化学位移、峰积分、以及二维谱峰均以特定token形式编码。
模型架构与训练策略
NMRMind基于标准Transformer架构,包含6层编码器与解码器,每层12个注意力头。训练采用AdamW优化器和混合模态采样策略。模型分为两阶段训练:
在训练中,模型随机接收不同模态组合输入,从而提升对不完整数据的鲁棒性。

结果
模型性能与基准评估
在完整输入条件下(包括¹H、¹³C、COSY、HSQC、HMBC、分子式与片段),NMRMind的Top-1准确率达92.07%,Top-10准确率为95.84%。即使去除部分模态(如分子式或片段),准确率仅下降约3%。当仅输入一维谱数据时,Top-1准确率仍保持在59%以上,显示出出色的泛化与鲁棒性。
模型在不同分子量、复杂度及来源数据库(PubChem、USPTO、COCONUT)中均表现稳定。对于复杂度高或分子量超过1000 Da的样本,准确率略有下降,但依然高于70%,说明模型能覆盖广泛化学空间。

消融实验
为评估各模态的重要性,研究人员进行了系统性消融实验。结果表明:

天然产物类别解析
基于COCONUT数据库的天然产物样本,模型在70个类别中进行测试。结果显示,超过25类天然产物的Top-1准确率超过90%,包括香豆素、色氨酸生物碱和酪氨酸生物碱。多数类别Top-10准确率高于90%,证明模型能准确捕捉天然产物结构特征。

实验验证:厚朴天然产物
研究人员从**厚朴(Magnolia officinalis)**中分离出6种新化合物,并利用NMRMind进行结构解析。模型在仅使用¹H与¹³C谱数据的情况下,成功预测出两种化合物的正确结构,并对其余四种提供高度相似的骨架结构,为人工解析提供参考。其中一种化合物对PTP1B酶表现出显著抑制活性(IC₅₀ = 1.97 μM),显示了该模型在药物发现中的潜在价值。

有机反应副产物解析
研究人员进一步在六种有机反应体系中测试NMRMind的应用。模型成功识别出其中五种意外生成物的确切结构,并揭示了反应机理(如环化、开环-关环重排与氢化过度反应等)。模型解析时间均低于0.05秒,部分结果经X射线晶体学验证,证明预测结果可靠且高效。

讨论
NMRMind实现了从多维NMR数据到分子结构的直接生成,在多模态整合、速度和准确性上均超越现有方法。其在天然产物结构推断与反应机理解析中的成功应用,展示了AI在化学知识发现中的潜力。
然而,研究人员指出,模型仍存在两个改进方向:
此外,NMRMind框架具有良好的可扩展性,可推广至其他核种(如¹⁵N、¹⁹F、³¹P等),为多核相关谱的预测与解释提供通用途径。
结论
研究人员提出的NMRMind为化学研究提供了一个高效、通用的NMR结构解析工具。通过Transformer模型与多模态训练策略的结合,它显著加速了未知结构的解析过程,助力新天然产物与反应机理的快速发现。未来,结合真实谱图训练与立体化学增强模块,NMRMind有望成为连接量子谱信号与化学结构表征的关键桥梁,推动化学与人工智能的深度融合。
整理 | DrugOne团队
参考资料
Xue, X.; Sun, H.; Sun, J.; Patiny, L.; Liu, X.; Chen, K.; Yan, J.; Li, L.; Liu, X.; Xu, S.; Zhang, D.; Deng, Y.; Zang, Y.; Gong, Y.; Ma, J.; Wang, X. NMRMind: A Transformer-Based Model Enabling the Elucidation from Multidimensional NMR to Structures. Anal. Chem. 2025
内容为【DrugOne】公众号原创|转载请注明来源