

论文信息
新药研发的命中物到先导物(hit-to-lead)和先导物优化(lead optimization)阶段,药物化学家需要系统性地对活性分子进行结构修饰,以在效力(potency)、选择性(selectivity)、药代动力学(PK)、安全性和可开发性之间寻求最优平衡。这一过程通常遵循"设计-合成-测试-分析"(DMTA)迭代循环。
每一轮结构修饰的决策,依赖的不仅是知识,更是药化直觉(medicinal chemistry intuition)——这是个人在多个项目、多种靶点、跨越数年甚至数十年积累而成的隐性知识体系。其具体表现包括:

当前用于分子类似物生成的生成模型可分为两大类:
全分子类似物生成(whole-molecule analog generation):模型以分子A为输入,直接输出结构相似的分子B。代表性方法包括基于变分自编码器(VAE)的图生成模型(如Junction Tree VAE)和基于Transformer的分子翻译模型。该类方法的缺陷在于对修饰位置缺乏显式约束,生成结果的化学可解释性较弱。
变量级生成(variable-level generation):模型在用户指定位点上提出修饰方案,代表性方法有REINVENT 4中的LibINVENT(R基修饰)和LinkINVENT(连接子生成)。
上述两类方法均依赖MMP实例(即具体的分子对)作为训练数据,由此引入了根本性偏差:训练数据的变换频率分布严重不均。历史数据中,卤素替换、甲基化等常见操作拥有数万个实例,而罕见但化学价值极高的核心骨架变换可能仅出现数次甚至从未出现。导致现有模型对高频变换能很好地泛化,而对低频变换几乎完全失效——恰恰是在新药研究中最需要突破的区域。
核心假设:匹配分子对变换(Matched Molecular Pair Transformations, MMPTs),而非单个MMP实例,才是药化直觉的基本单元。
将变换从具体分子上下文中解耦,使其成为独立的学习对象,可以:
定义:MMP是一对化合物(分子A与分子B),两者仅在一个明确定义的子结构处存在差异——即共享相同的"常数"(constant)部分,仅在"变量"(variable)子结构上不同。变量可以是R基(R-group substitution)或骨架(core hopping)。
形式表示:
MMP = (Molecule A, Molecule B)
其中 Molecule A = Constant C + Variable A
Molecule B = Constant C + Variable BMMP的价值:由于MMP来源于真实合成并经过化学家隐性筛选的分子,其变换具有天然的合成可行性背书;同时,变量差异通过合成可及的键连接,生成分子更易于合成。
MMP的根本局限:

定义:MMPT是从MMP中提取的、独立于常数结构的变换本体,即变量A到变量B的映射关系,通常以SMIRKS格式表示。
SMIRKS示例:
[H][*:1] >> C[*:1]此SMIRKS表示将一个氢原子替换为甲基,是最经典的甲基化变换。
关键区别对比:
维度 | MMP实例 | MMPT |
|---|---|---|
训练单元 | 分子A→分子B对 | 变量A→变量B变换 |
上下文依赖 | 强(依赖全分子或常数结构) | 无(完全上下文无关) |
数据规模(本研究) | ~263万条 | ~80万条(去重后) |
频率偏差 | 严重 | 大幅缓解 |
跨系列迁移能力 | 弱 | 强 |
化学可解释性 | 较好 | 更直接(SMIRKS明确) |
去重逻辑:MMPT-FM的训练数据对变换进行了上下文无关的去重——同一个变换无论出现在多少个不同常数结构的MMP中,只保留一条。这使得80万条MMPT涵盖了与263万条MMP相同的变换多样性,却消除了上下文重复带来的频率偏差。
数据来源:ChEMBL数据库,使用MMPDB工具进行MMP提取。
数据预处理流程:
max-variable-ratio = 0.33(变量部分不超过分子重原子数的33%)数据质量验证:研究者发现,未经结构警报过滤的模型在输入含有结构警报的分子时,其生成物也大概率含有结构警报;而过滤后训练的模型,>90% 的情况下能生成不含结构警报的分子,甚至能学会主动"消除"结构警报——这正是药化先导优化中的核心任务之一。
本研究在相同底层数据上训练了四个模型变体,形成严格的对照实验:
训练输入:Variable A(变量A的SMILES)
训练输出:Variable B(变量B的SMILES)
上下文依赖:无
学习对象:MMPT(变量间变换)
训练数据:~80万条独特MMPT训练输入:Molecule A(完整分子SMILES)
训练输出:Molecule B(完整分子SMILES)
上下文依赖:完整分子上下文(隐式)
对应参照:类REINVENT4 mol2mol模块
训练数据:~263万条MMP训练输入:Molecule A + Variable A(分子+变量联合输入)
训练输出:变换 Variable A → Variable B
上下文依赖:完整分子+变量A(显式)
特点:需要用户提供变量A作为解码头
训练数据:~263万条MMP训练输入:Constant C(常数骨架SMILES;多片段用"."连接)
训练输出:Variable B(R基或核心变量)
上下文依赖:常数结构(显式)
对应参照:类REINVENT4 LibINVENT+LinkINVENT
训练数据:~263万条MMP
骨干网络:编码器-解码器Transformer(T5架构),基于ChemT5预训练权重进行微调。ChemT5是在大规模化学语料上预训练的多任务语言模型,已具备对分子表示语言(SMILES、SMIRKS等)的语法理解能力。
训练超参数:
推理策略:束搜索(beam search),每个输入生成1000个候选输出,最大序列长度250个token。
计算资源:

本研究选用PMV Pharmaceuticals的两个真实药物研发专利构建评估任务,这是该领域罕见的、面向工业界真实场景的严格测试。
对pmv17专利内分子及pmv17→pmv21分子对,同样使用MMPDB提取MMPTs,形成评估集。重要细节:pmv17 MMPT提取使用与训练数据相同的MMPDB参数,确保变换粒度的一致性,避免评估-训练不对齐。
主要指标:召回率(Recall)
模型生成中覆盖的真实变换数评估集中真实变换总数
辅助分析维度:
模型 | R基替换召回(N≈5028-3704) | 核心跃迁召回(N≈4433-2275) |
|---|---|---|
MMPT-FM | ~60%(最优或并列最优) | ~63%(最优) |
MMP-M2M | ~50%(第二) | ~55%(第二) |
MMP-C2V | ~40%(第三) | ~47%(第三) |
MMP-M2T | ~25%(最差) | ~20%(最差) |
REINVENT | ~63%(R基,与MMPT-FM接近) | 0%(核心跃迁完全失败) |
关键发现:REINVENT的LibINVENT在R基替换任务上表现与MMPT-FM相当,但其LinkINVENT模块在核心跃迁任务上完全失效(召回率为0),原因在于LinkINVENT被设计用于连接子生成而非核心跃迁,且其词汇表不含溴原子。这一结果揭示了专用模块方法的根本局限:无法统一处理不同类型的变换任务。

模型 | R基替换召回(N≈640-404) | 核心跃迁召回(N≈688-402) |
|---|---|---|
MMPT-FM | ~20%(最优) | ~22%(最优) |
MMP-C2V | ~17%(第二) | ~19%(第二) |
MMP-M2T | ~15%(第三) | ~13%(第三) |
MMP-M2M | ~5%(最差) | ~8%(第三-四) |
REINVENT | ~7%(R基) | 0%(核心跃迁) |
重要反转:MMP-M2M在专利内任务中排名第二,但在跨专利任务中排名最差。这说明全分子翻译模型虽然能够记忆已见的分子上下文,但跨化学系列泛化能力严重不足——恰恰是前瞻性创新所最需要的能力。


这是本研究最具洞察力的分析之一。pmv17评估集中的变换按ChEMBL训练频率分布如下:
频率区间 | pmv17变换数 | MMPT-FM召回 | MMP-M2M召回 | MMP-M2T召回 | MMP-C2V召回 |
|---|---|---|---|---|---|
0次(从未见过) | 6,883 | ~58% | ~40% | ~8% | ~25% |
1-10次 | 1,210 | ~63% | ~45% | ~15% | ~40% |
11-100次 | 699 | ~70% | ~60% | ~25% | ~42% |
101-1000次 | 306 | ~75% | ~65% | ~38% | ~55% |
1001-10000次 | 106 | ~78% | ~68% | ~42% | ~62% |
10001+次 | 18 | ~95% | ~95% | ~58% | ~92% |
核心洞察:
为什么MMPT-FM能召回"从未见过"的变换?
尽管某个具体的SMIRKS变换在训练集中频率为0,但MMPT-FM学到了更深层的化学结构规律。模型学到的不只是"哪些变换出现过",而是"变量结构的化学语法"——它能够从已见的相关变换中外推到未见的合理变换,类似于人类药化学家从类比和化学原理中举一反三的能力。
高相似度区间(Tanimoto > 0.6):
低相似度区间(Tanimoto < 0.2):

关键意义:药物研发中真正创造价值的突破往往来自低相似度变换——这正是专利差异化和化学空间拓展的核心所在。MMPT-FM在此区间的优势,直接对应于其在创新性先导优化中的实际价值。
所有模型均呈现线性-对数的样本数-召回率关系,即:召回率随样本数的对数值近似线性增长,边际收益递减。
MMPT-FM的斜率优势:在相同的样本数下,MMPT-FM的召回率增长斜率更陡,表明其化学空间探索效率更高——用更少的生成次数覆盖更多的真实变换。这对计算成本敏感的工业应用尤为重要:1000个样本的MMPT-FM往往等效于2000个样本的MMP模型。
核心跃迁(core hopping)是药物化学中"高风险高回报"的策略:
MMPT-FM在核心跃迁(≥2个连接位点的变换)和R基替换上取得了可比的召回率,而REINVENT的LinkINVENT在核心跃迁上完全失效。这表明变换中心学习能够统一处理质量上不同的类似物设计策略,无需针对不同任务类型分别构建专用模块。
研究比较了输入变量、MMPT-FM生成变量、LibINVENT生成变量在六个关键性质上的分布:
性质 | 输入变量(均值) | MMPT-FM生成(均值) | LibINVENT生成(均值) |
|---|---|---|---|
重原子数 | 7.5 | 7.6 | 10.7 |
氢键受体数(HBA) | 1.6 | 1.8(+0.2) | 2.1 |
氢键供体数(HBD) | 0.6 | 0.5(-0.1) | 0.5 |
可旋转键数 | 1.3 | 1.3(持平) | 1.9 |
芳香氮数 | 0.3 | 0.6(+0.3) | 0.4 |
碳芳香环数 | 0.3 | 0.3(持平) | 0.4 |

MMPT-FM生成变量相对于输入呈现的性质偏移,与当代成功药物优化的规律高度吻合:
HBA轻微增加(+0.2):增加氢键受体可提升极性,降低logD,从而减少脱靶效应(如对PXR的激活、hERG抑制等)。这是药化团队在ADME优化中的常规操作。
HBD轻微减少(-0.1):减少非必要的氢键供体是改善膜通透性和口服生物利用度的经典策略。过多的HBD是"超越Lipinski空间"的主要障碍。
可旋转键数保持不变:维持输入分子的刚柔性特征,意味着模型不会无节制地引入软链结构,保持了分子的构象可控性。
芳香氮数增加(+0.3):用含氮杂环替代碳芳香环是近年来成功优化中的显著趋势(Leeson 2026年综述明确指出),有利于改善溶解度、降低代谢清除率,同时维持生物活性所需的π体系。
LibINVENT对比:LibINVENT生成的变量明显更大(重原子数均值10.7 vs. 7.6)、可旋转键更多(1.9 vs. 1.3),这意味着其生成物更"胖"且更"软"——在先导优化的后期(需要精细调控分子大小和刚性)通常是不受欢迎的性质。
基于count-based Morgan指纹的UMAP投影显示:
这种"既广又深"的探索模式,正是药化先导优化所期望的:既能快速拓展化学多样性(横向),又能在已知活性区域精细优化(纵向)。

历史数据依赖:MMPT-FM在ChEMBL历史数据上训练,其变换知识边界受制于已有药化实践。对于全新化学类型(如周环反应产物、有机金属化合物等)的变换,模型可能表现不佳。
立体化学表示缺陷:当前SMIRKS变换格式不能完整捕捉立体化学信息(手性中心、顺反异构等)。在手性对活性至关重要的靶点(如蛋白激酶、GPCRs)中,这是一个实质性限制。
无多步编辑支持:模型仅支持单步变换,无法处理需要多处同时修饰的情况(如同时优化两个不同位置的R基)。
不直接优化分子性质:MMPT-FM本质上是一个无条件生成模型,生成的类似物反映历史数据中的隐含偏好,但无法针对特定效力、选择性或ADME指标进行定向优化。这限制了其在精确多目标优化任务中的直接应用。
无检索增强验证:先前工作(Pan等, arXiv:2602.16684)引入了检索增强的MMPT基础模型(RA-MMPT-FM),但本文未将其纳入对比,未来工作应评估检索增强对性能的进一步提升。
以下列出本论文中方法论构建最直接相关的参考文献:
编者按:本论文的核心贡献在于将一个看似简单的训练目标调整(从分子对到变换对)转化为系统性的性能提升,尤其在药物研发中最具挑战性的罕见变换和前瞻性泛化场景中展现出决定性优势。对于有意将AI深度融入药物化学研发流程的团队而言,这一工作提供了极具参考价值的方法论框架与工程实现路径。