
DRUGONE
准确预测体内药代动力学(PK)特征对于评估药物安全性和有效性、优化给药方案,以及理解药物与人体相互作用至关重要。利用机器学习预测 PK 参数,有潜力在药物研发过程中显著节省时间和资源。本研究构建了一个包含 1,200 余种独特化合物、超过 5,000 个化合物–剂量组合的人体口服 PK 数据集。在此基础上,研究人员开发了多模态深度学习框架 MMPK,融合分子图、子结构图和 SMILES 序列,以捕捉多尺度分子信息。MMPK 结合多任务学习和数据插补,提高了数据利用效率和模型稳健性。比较评估结果表明,MMPK 在八个 PK 参数上的预测性能优于基线模型,平均几何平均倍数误差(GMFE)为 2.895,均方根对数误差(RMSLE)为 0.599。

药代动力学描述药物在体内的吸收、分布、代谢和排泄过程。PK 性质的评估与优化是药物发现与研发中的关键环节,劣质的 PK 或 PD 特征是临床失败的重要原因之一。更准确地估计关键 PK 参数,有助于优先筛选具有良好 PK 特征的分子、预测其在首次人体给药前的治疗暴露可能性,并减少动物实验需求。
当前主流的人体 PK 参数预测方法包括体外–体内外推(IVIVE)、基于生理的 PK 建模(PBPK)以及机器学习方法。IVIVE 和 PBPK 在应用中依赖大量参数、复杂数学模型和生理知识,限制了其大规模推广。而机器学习方法可以直接从化学结构出发预测 PK 参数,具有较高潜力。
尽管已有研究利用传统机器学习或多任务学习预测 PK 参数,但多数使用的临床 PK 数据集并不公开,阻碍了数据驱动模型的发展。公共数据库如 ChEMBL 与 DrugBank 中的人体 PK 数据也存在错误和定义不一致的问题。此外,不同临床研究中 PK 测定方法与报告内容差异很大,因此亟需高质量、大规模且开放的人体 PK 数据集。

深度学习(DL)方法,尤其是图神经网络(GNN)、迁移学习和自监督预训练,近年来在分子性质预测中表现突出。多模态学习可融合来自不同分子表示的多尺度特征,为全面捕捉影响 PK 的化学、生物和药学因素提供了新思路。本研究聚焦人体口服 PK 参数预测,构建了迄今最大规模的公开数据集,并提出融合分子图、子结构图与 SMILES 序列的多模态深度学习框架 MMPK,同时引入给药剂量、多任务学习和基于非房室模型分析(NCA)的数据插补,以提升模型性能与可解释性。
结果
人体口服 PK 数据集概述
该数据集包含三类药物:已批准药物、在研药物及 2024 年获批药物,总计 1,283 种独特化合物、5,058 个化合物–剂量组合,涵盖八个 PK 参数。95% 以上数据来自临床 PK 研究,时间跨度为 1971–2024 年。数据经过严格人工整理,仅保留口服给药、健康成人(或特定情况下的患者)、单一给药方案、血浆/血清/全血测定等符合条件的记录,并对剂量与 PK 参数值进行对数或逻辑转换以稳定训练。分子化学多样性较高,不同药物类别间的相似度较低。

模型评估
MMPK 在 10 折交叉验证下的平均 GMFE 为 2.895,RMSLE 为 0.599。在 Tmax、t1/2、MRT 和 F 上表现最佳,而 AUC、Cmax、CL/F、Vz/F 因数值跨多个数量级,预测难度更高。与 XGBoost、DNN、GCN、GIN、GAT、Transformer 等基线模型比较,MMPK 在大多数参数上排名前二,整体性能优越。

消融实验
去除任一模态(分子图、子结构图或 SMILES 序列)均会降低性能,其中去除 SMILES 序列降幅最大,说明预训练语言模型捕获的序列特征对 PK 预测贡献显著。去除分子图影响吸收相关参数(AUC、Cmax、Tmax)较大,去除子结构图则削弱局部模式识别能力。三种模态均对最终性能重要。

学习范式与数据插补的影响
多任务学习(MTL)优于单任务学习(STL),在 AUC 和 CL/F 等参数上提升明显。利用 NCA 关系对 AUC、CL/F、Vz/F 进行数据插补,提高了参数共现度,缓解了数据稀疏性,显著提升了 CL/F 与 Vz/F 的预测准确性。

剂量多样性影响
剂量水平多样性高的化合物预测性能显著优于剂量水平单一的化合物,表明多剂量数据有助于模型学习剂量–暴露关系。

外部验证集的泛化性能
在在研药物集上,MMPK 平均 GMFE 为 2.693,RMSLE 为 0.589;在 2024 年获批药物集上,GMFE 为 2.501,RMSLE 为 0.474,且多数参数相关性较高。部分参数(如 CL/F、Vz/F、MRT)相关性较低,可能与其推导性质或分布差异有关。整体结果表明 MMPK 对结构多样化合物具有较好泛化能力。

模型可解释性探索
MMPK 的子结构注意力机制可量化各子结构对预测的贡献,能够识别与 PK 相关的重要化学基团。例如:Clonidine 的 2,6-二氯苯环、Vilaprisan 的 4-(甲磺酰基)苯基和 17α-五氟乙基、Pemigatinib 的三环核心及取代基,均与已知活性和 PK 特征吻合。

与其他模型比较及局限性
MMPK 在外部验证集的表现与已报道的人体 PK 预测模型相当,且为开放获取。局限性包括:预测未考虑给药剂型、个体生理差异等非结构因素;多任务学习中不同任务共享注意力权重,可能限制任务特异性模式捕捉。
MMPK 网页工具
研究人员基于 Streamlit 框架开发了交互式网页,支持输入 SMILES、绘制分子或上传 CSV,并可批量预测最多 500 条化合物–剂量组合。结果可下载,并提供子结构注意力可视化和基于一室模型的血药浓度–时间曲线模拟,用于早期筛选、剂量方案设计与结构优化参考。
讨论
本研究提出的 MMPK 框架融合分子多模态表示,并在大规模高质量的人体口服 PK 数据集上验证了其性能。多任务学习、基于 NCA 的数据插补以及剂量信息的引入均显著提升了模型效果。子结构注意力机制赋予了模型化学可解释性,有助于指导药物结构优化。该研究同时贡献了一个开放的数据资源与可用的预测平台,为未来基于更多 PK 参数和完整浓度–时间曲线的计算方法研究奠定了基础。
整理 | DrugOne团队
参考资料
Li, Xiang, Meiling Zhan, Jiaojiao Fang, Guixia Liu, Yun Tang, and Weihua Li. "MMPK: A Multimodal Deep Learning Framework to Predict Human Oral Pharmacokinetic Parameters." Journal of Medicinal Chemistry (2025).