

今天介绍一篇来自中南大学湘雅药学院在 JCIM上发表的最新成果。论文通讯作者为曾文彬教授、董界副教授。近年来,肽类药物研发的关注度持续提升,然而多肽ADMET的研究仍然面临许多挑战,尽管小分子药物ADMET相关研究不断涌现,预测平台日趋丰富,但这些工具平台往往不适用于多肽药物。针对这一挑战,作者团队成功开发首个综合性的旨在系统全面评估多肽ADMET性质的智能计算平台pepADMET,为多肽药物的设计和筛选提供了全新的工具。
平台地址:https://pepadmet.ddai.tech。
平台主要特色:(1)涵盖近10年,超过36,000条数据;(2)涵盖29个ADMET全过程性质;(3)支持环肽、线性肽、天然肽和修饰肽预测;(4)支持不同细胞系、器官和物种细分预测;(5)免费易用的用户界面。

原文摘要
基于肽的治疗药物正日益成为小分子和蛋白质药物的一种有前景的替代方案。然而,其临床开发仍面临重大挑战,特别是在疗效和安全性方面,这主要归因于其吸收、分布、代谢和排泄特性(ADMET)的不理想以及潜在的毒性风险。为应对这些挑战,作者开发了pepADMET(https://pepadmet.ddai.tech),这是首个公开可用的、由人工智能驱动的平台,用于系统且全面地评估肽的ADMET特性。该平台整合了36,643条高质量数据条目,涵盖了19个关键的ADMET终点。通过结合分子图表示、酶切描述符以及迁移学习,并采用图神经网络和关系图卷积网络等先进神经架构,该平台能够有效捕捉肽类分子的复杂分子和生物特征,从而显著提升模型的预测性能和稳健性。具体而言,作者引入了MLR-GAT,这是一种专为肽类毒性预测设计的新型多层级框架,能够分层识别多种类别的肽类毒性,而不仅仅局限于溶血毒性。值得注意的是,pepADMET首次同时支持线性、环状、修饰和天然肽类,同时考虑到物种、器官和细胞系之间的生物变异性,从而实现更精确且具有生物学意义的ADMET预测。作为一款用于多属性肽类ADMET评估的新型综合性在线资源,pepADMET提供了一个统一、准确且智能的框架,以推动肽类药物的设计与开发。

图1. pepADMET平台概览,展示了其功能特性及涉及的关键ADMET性质。
主要方法
针对肽类实验数据稀缺、多肽结构类型不易统一表征、数据异质性等难题,作者团队构建了一套前沿算法框架。
● 迁移学习(TL)助力半衰期预测:模型首先在约 35 万条肽类保留时间(RT)数据上进行预训练,学习通用的序列-性质映射模式,再在有限的半衰期数据上进行微调(Fine-tuning),使预测相关性提升了约 15%。
● 图神经网络(GNN)评估渗透性:利用分子图提取拓扑结构信息,结合人工神经网络(ANN)捕捉序列特征,实现对跨细胞系渗透性的精准预测。
● MLR-GAT 架构:针对毒性预测,设计了新型多级框架,不仅能判断是否有毒,还能分级识别毒性类型(如细胞毒性、神经毒性)。

图2. 所提方法实施过程概览图。该过程包含多个阶段。首先,数据通过人工方式进行收集、清洗和标准化。其次,利用分子描述符、指纹和图对分子进行全面表征。最后,采用七种传统机器学习算法和多种深度学习策略,逐步提升模型性能。
主要结果
1. 数据
为全面评估肽类分子的 ADMET 性质,作者共开发了29 个终点预测模型。其中,有10项理化性质可直接根据用户输入进行计算,无需额外数据支持。各模型的训练数据集规模及其预测结果汇总见图 3。如图所示,本研究共构建了26 个高质量数据集。其中,口服生物利用度(F)数据集包含305条数据,为首次构建。针对渗透性预测,作者分别针对不同细胞系下的线性肽和环肽构建了5个数据集,相比既往研究新增约430条数据样本,总数据量达到7765条。Log D7.4 和血脑屏障(BBB)数据集的规模总体上与已有报道研究相当,分别包含257条和850条数据。半衰期预测共使用了970条数据,并基于两种物种和两种器官的组合构建了5个独立数据集,较以往研究增加了约600条数据。此外,二分类毒性数据集从既往研究报道的7513个样本扩展至14,660个样本,并进一步划分为 6个毒性类型数据集和4个神经毒性作用机制数据集。对于HC50,作者将可用数据集规模从1926条扩展至2423条。上述结果表明,本研究在数据规模和数据多样性方面均展现出显著优势。

图 3. 所选最佳模型的数据概况及其性能表现。(A) 和 (B) 分别展示了五个半衰期数据集和五个渗透性数据集中的数据分布情况。(C) 给出了 Log D7.4、F、BBB 和 HC50 的数据分布。(D)–(F) 展示了三项毒性预测任务的数据分布,包括二分类毒性预测、六分类毒性类别预测以及四分类神经毒性作用机制预测。(G) 和 (H) 分别展示了 12 个回归模型和 5 个分类模型的最佳预测结果。横轴表示评估指标,纵轴表示相应的 ADMET 性质。
2. 预测模型
如图3G和3H所示,大多数模型的性能均达到了预期水平,可认为是令人满意的。具体而言,在所有回归任务中,半衰期预测模型表现最佳,其在测试集上的 R²值均高于0.90。值得注意的是,在预测天然肽在小鼠血液中的半衰期时,模型取得了0.984的决定系数(R²)。这一显著提升主要归因于迁移学习(TL)策略的有效引入,使相关性较以往研究提高了约15%。LogD7.4预测模型同样表现良好,在训练集和测试集上的R²值分别为0.820和0.818。渗透性预测主要聚焦于三种常用细胞系:Caco-2、RRCK和PAMPA,其测试集R²值介于0.435–0.657之间,较Cao等人的研究提高了约0.32。在渗透性预测的五个最佳模型中,有三个是基于LightGBM 构建的,这表明在数据规模并非特别大的情况下,该算法尤其适合用于药代动力学性质的数值预测。在HC50预测任务中,模型同样取得了合理的预测性能,与已有研究报道的结果相当。在分类任务中,表现最佳的是六分类毒性预测模型,其在测试集上的准确率(ACC)为0.885,曲线下面积(AUC)为0.949。其次是F预测模型,其正确分类了84.4%的肽样本。二分类毒性模型、四分类神经毒性模型以及BBB预测模型也均表现出稳健的预测性能,其结果与当前最先进模型相当。总体而言,所有分类模型的AUC值均高于0.85,而回归模型中有一半的R²值超过0.80。上述结果表明,基于不同数据集构建的预测模型在多项任务中均展现出良好的泛化能力。
3. 真实案例研究
环孢素是一种结构高度复杂的环肽,文献报道表明其具有显著的亲脂性,这有助于其穿透细胞膜。pepADMET预测环孢素的logD7.4 值为0.925,高于去氨加压素和亮丙瑞林(分别为−0.027和−0.872),表明环孢素具有更强的亲脂性。一般而言,亲脂性的增加有利于分子通过脂质双层的被动扩散,从而提高渗透性。实验数据表明,环孢素在 Caco-2 细胞系中的 logPapp为−5.38 cm/s,显著高于去氨加压素(−6.89 cm/s)和亮丙瑞林(−6.28 cm/s)。pepADMET 对这三种肽的渗透性预测结果与实验数据高度一致,其预测的log Papp分别为−5.64、−6.68 和 −6.43 cm/s,表明该模型在刻画亲脂性与跨膜渗透性关系方面具有良好的准确性和可靠性。在口服生物利用度(F)预测方面,pepADMET 成功将去氨加压素和亮丙瑞林判定为低生物利用度药物(F < 20%),这与其在临床上主要通过注射或鼻腔给药的方式一致。然而,模型预测环孢素的F值低于20%,与其实际约30% 的生物利用度存在一定偏差。该差异可能源于两个方面:其一,模型尚未充分考虑环肽独特三维构象对吸收过程的影响;其二,环肽的起始氨基酸难以确定,可能影响结构特征的准确提取。这也促使我们在未来研究中引入更加精细的环肽结构识别与建模策略。在半衰期预测方面,pepADMET在三种肽上的表现均令人满意。环孢素的实验半衰期约为19.00 h,但其可接受范围为10–27 h,模型预测值为12.28 h,接近实验数据的下限(10 h)。去氨加压素的实际半衰期在鼻腔给药条件下约为3.00 h,口服给药报道的范围为2–3.11 h,而亮丙瑞林的预测结果与文献报道高度一致,进一步验证了模型在肽类半衰期评估方面的准确性。在毒性预测方面,pepADMET 将环孢素和亮丙瑞林判定为无毒肽,这与其临床安全性评估结果一致。值得注意的是,环孢素的肾毒性问题仍存在一定争议。模型将去氨加压素预测为有毒肽,这与文献中关于其过量给药可能诱发低钠血症的报道相一致。
此外,作者选取了上述三种肽类药物,并结合九种分子量低于1000 Da的已批准小分子肽,对pepADMET与七种具有代表性的小分子ADMET预测工具所得到的半衰期预测结果进行了比较(图5B)。结果表明,对于这些肽分子,pepADMET 给出的预测值显著更接近真实值,进一步验证了模型的预测准确性,同时也表明由于肽类分子与小分子在结构和理化性质上的差异,现有的小分子ADMET工具难以可靠地预测肽类分子的ADMET性质。

图5. pepADMET的案例分析及验证结果。(A) 环孢素(Cyclosporine)、去氨加压素(Desmopressin)和亮丙瑞林(Leuprolide)的化学结构。(B) pepADMET 与其他小分子ADMET工具对环孢素、去氨加压素和亮丙瑞林(从左至右)的半衰期预测结果。(C) 三种已获批肽类药物关键ADMET性质的预测结果。蓝色表示预测结果与实验数据一致,红色表示预测结果与实验数据不一致,黄色表示缺乏实验结果。
平台功能与优势
pepADMET 提出了一系列创新性策略来应对肽类药物在药代动力学方面的核心挑战,并在数据处理、模型构建以及平台实现等方面展现出显著优势。
(1)pepADMET适用于预测修饰肽的性质。由于体内代谢酶及pH条件的影响,肽类分子通常表现出较差的稳定性,因此常采用多种结构修饰策略来优化其 ADMET 性质。然而,现有研究对修饰肽的关注相对有限,因为许多预测模型主要针对天然肽开发。这可能导致这些模型难以充分考虑结构修饰对药代动力学行为的影响,从而在实际药物设计场景中应用受到限制。为解决这一问题,pepADMET 在模型构建过程中充分重视修饰信息的提取与表示,采用序列特征与结构特征相结合的策略,全面捕捉肽分子的关键信息。具体而言,基于肽序列提取氨基酸组成、二肽频率等序列特征,而结构修饰信息则通过SMILES字符串获得。这两类特征的整合显著增强了模型识别和学习修饰对肽稳定性影响的能力。pepADMET考虑了近200种修饰类型,包括乙酰化、酰胺化、环化等简单修饰,以及生物素化、糖基化和PEG化等复杂修饰。此外,该平台针对天然肽和修饰肽分别构建模型,为修饰前后的稳定性变化提供了重要参考。
(2)pepADMET可实现对多种生理场景下肽类药物药代动力学行为的精准预测。研究表明,肽类分子在不同生理条件下表现出显著差异,其半衰期、渗透性等性质在不同物种以及不同器官或组织之间存在差异。当将来自不同生理条件下的数据合并用于建模时,所得模型可能难以准确捕捉由物种特异性或组织特异性差异引起的ADMET变化,从而限制了对特定物种或器官的预测精度。为应对这一挑战,我们在数据收集与预处理过程中高度重视生理环境因素。数据集依据物种、器官及细胞系进行精细分类,并为每一类别开发了专门的预测模型。该策略显著增强了模型在特定生理条件下捕捉肽类药物药代动力学行为的能力,同时也为未来建立物种或器官之间的转换因子奠定了基础,从而推动肽类药物研究朝着更高精度和个体化方向发展。
(3)pepADMET开发了多种创新性的预测框架,并在ADMET任务中展现出稳健的性能。该平台整合了分子指纹、描述符和分子图,能够全面捕捉肽类分子的序列信息和结构信息。在建模策略方面,pepADMET从传统机器学习方法(如随机森林 RF、支持向量机 SVM)过渡到深度学习(DL)技术,包括图神经网络(GNN)和卷积神经网络(CNN),并结合迁移学习(TL),有效提升了模型的预测准确性和稳定性。尤其在毒性预测模块中,pepADME首次引入了分层分类框架。系统首先基于用户提交的肽序列和结构信息进行一级分类,以判断是否存在毒性风险。如果判定为“无毒”,预测过程将终止以提高效率;如果判定为“有毒”,系统会自动进行二级分类,进一步识别毒性类型(如细胞毒性、神经毒性等)。对于被预测为“神经毒性”的肽,平台还会进行三级机制层级分类,以揭示潜在作用机制(如乙酰胆碱抑制作用)。此外,对于被识别为“溶血性”的肽,系统进一步预测其溶血活性,从而提供更全面的安全性评估。这一分步预测框架有助于识别候选肽的潜在毒性,并降低不良反应风险。
(4)pepADMET支持肽序列与SMILES的双重输入,拓宽了模型的应用范围。肽序列提供了氨基酸组成、残基顺序及肽键连接等关键信息,这些信息决定了肽的空间构象、酶切位点以及代谢稳定性。在实际药物开发中,研究人员通常通过氨基酸替换或末端修饰等策略优化这些序列特征,以改善药代动力学性质。而SMILES字符串则提供了分子的精确结构描述,包括原子连接方式、环系及官能团分布,对识别肽修饰的类型和位置尤其有效。序列信息与结构信息互为补充,共同反映肽结构与性质之间的复杂关系。然而,大多数现有预测工具仅使用序列信息构建模型。尽管其中部分模型可处理简单修饰(如乙酰化、酰胺化或二硫键形成),但往往无法识别复杂修饰的位点和类型。少数模型采用SMILES作为输入,但忽略了序列的特异性和功能性。为克服这些局限,pepADMET在模型构建过程中整合了序列信息与结构信息,允许用户同时提交肽序列与SMILES,从而在捕捉生物学信息和结构修饰信息的同时,实现对修饰肽的更准确预测。此外,在半衰期预测任务中,pepADMET为用户提供了35种常见修饰类型供选择。
结论
作者成功开发了pepADMET——首个具备系统性评估能力的基于Web的多肽 ADMET计算平台。该平台整合了36,643 条高质量数据,并建立了26个独立数据集。通过设计并优化结合传统机器学习算法的新型深度学习算法,构建了17 个稳健的预测模型,覆盖19个关键终点,包括10项理化性质、7项ADME相关性质以及12项毒性终点。所有分类模型的AUC均高于0.85,50%的回归模型 R²值超过0.80,在数据规模和预测性能上均达到现有的最先进水平。与现有仅限于单一性质预测的工具相比,pepADMET在功能性和设计上均具有明显优势。平台支持多种肽修饰类型,可对天然肽和修饰肽进行全面评估,并可比较修饰前后的性质变化。此外,pepADMET 可识别不同物种、器官及细胞类型的肽代谢差异,从而支持在多样生理条件下推导个性化转换因子和个体化给药策略。同时,通过接受肽序列和SMILES结构作为输入,pepADMET克服了现有工具在捕捉修饰信息方面的局限性,并提升了结构修饰位点识别与建模的准确性和稳健性。未来,我们将继续扩展平台功能,纳入更多关键药代动力学指标并优化建模体系,旨在助力开发更多具有临床潜力和实际应用价值的肽类候选药物。
整理 丨 ProbeAI团队
原文链接
Tan, X., Liu, Q., Zhou, M., Fang, Y., Ouyang, D., Zeng, W., & Dong, J. (2026). pepADMET: A Novel Computational Platform For Systematic ADMET Evaluation of Peptides. Journal of Chemical Information and Modeling. https://doi.org/10.1021/acs.jcim.5c02518.
内容为 ProbeAI 公众号原创
转载请注明来源
版权声明
1、本公众号推送文章仅用于学术交流,“原创”代表原创编译,不代表本平台对文本主张版权。
2、凡是“转载”的稿件,均已注明来源,作者如不希望被转载或有侵权,请后台联系修改或删除。