
在多肽药物研发中,活性从来不是唯一门槛。真正决定一个候选分子能否继续往前走的,往往是更现实的问题:它稳不稳定、能不能穿膜、能不能进细胞、会不会带来毒性、是否具备可接受的体内行为。 而这,也正是 ADMET 的核心所在。 过去,这些问题很大程度上依赖零散实验、经验判断和反复试错;而近几年的研究表明,AI 正在把其中一部分最关键、最耗时的问题,逐步转化为可以建模、比较和优化的任务。
多肽药物近几年持续受到关注。与小分子相比,它们往往具有更好的靶点选择性、更强的功能可塑性,也更适合介入蛋白—蛋白相互作用等传统小分子较难处理的靶点。但与此同时,多肽也天然面临一系列开发挑战:容易被蛋白酶降解、膜通透性有限、口服暴露偏低、体内半衰期较短,以及在特定情况下可能伴随毒性或溶血等风险。
也就是说,多肽研发真正困难的地方,并不只是有没有活性,而是能不能成为药。一旦讨论进入成药阶段,ADMET 就无法回避。
值得注意的是,AI 在多肽 ADMET 方向的进展,并不是简单地把传统实验筛选做得更快,而是正在改变研究问题本身的组织方式。过去许多依赖经验判断的问题,如今开始被拆解为更具体的可计算任务:毒性、溶血性、细胞穿透、血脑屏障穿透、环肽膜通透、胃肠道稳定性、血液半衰期等,已经逐步构成当前多肽 AI 研究中最活跃的一张地图。
这并不意味着多肽 ADMET 已经被 AI 解决,但至少说明一件事:这个领域已经从概念热度,走向了方法与问题都越来越清晰的阶段。

把多肽成药之路画成一张闯关路线图
如果把多肽 ADMET 简单理解为小分子 ADMET 的延长线,很容易低估它的复杂性。
原因首先在于,多肽并不是一个统一、规则的化学空间。线性肽、环肽、含非天然氨基酸的修饰肽、肽模拟物,它们在构象自由度、氢键暴露、疏水性分布、酶切敏感性和跨膜行为上都可能存在显著差异。尤其是环肽,其通透性常常高度依赖构象状态和分子内氢键屏蔽能力,有时仅仅一个残基的替换,都会引起明显的性质变化。
第二个困难来自数据本身。多肽 ADMET 的很多实验结果并不是在完全一致的体系中测得的。以通透性为例,PAMPA、Caco-2、MDCK 等体系反映的是不同层面的现象,它们之间存在联系,但不能被机械地视为同一种标签。毒性、溶血性、BBB 穿透等任务同样如此,实验条件、判定标准和样本来源的差异,会直接影响模型训练与外推能力。
因此,多肽 ADMET 面临的核心问题,从来不只是数据量不够大,而是数据异质性、分子表征复杂性和任务定义不统一同时存在。这也是为什么,当前真正可靠的研究路线,并不是空泛地追求预测多肽 ADMET,而是把它拆解为一系列更具体、边界更清晰的子任务,逐一建立模型,再逐步尝试整合。
从目前的文献格局来看,AI 在多肽 ADMET 方向的进展并不是平均分布的,而是呈现出明显的局部突破特征。其中最成熟、最活跃的几个方向,已经逐步形成了相对稳定的研究框架。

任务拆解
如果从可建模性和工具化程度来看,毒性与溶血性无疑是当前最成熟的多肽 ADMET 子方向之一。
这类任务之所以走得较快,一方面是因为安全性本身就是早期研发决策中最关键的维度之一;另一方面则是因为它们相对容易转化为清晰的监督学习问题。研究者可以基于已有数据库,将多肽分为毒性与非毒性、溶血与非溶血,或者进一步发展为更细化的定量预测。
过去几年里,这一方向已经从传统特征工程逐步转向深度学习、迁移学习和更强的序列表征框架。一些工作不再满足于简单的二分类,而是尝试对毒性强度、溶血强度进行更细粒度建模。这说明研究目标正在从识别风险进一步走向刻画风险。
但这里需要保持非常清醒的判断:现有模型多数更擅长识别像不像已知高风险肽,而不是全面回答它在真实体内是否安全。 这两者之间仍有明显差别。对研发流程而言,这类模型的价值首先体现在早期排除和优先级排序,而不是替代系统性的安全性评估。
相较于毒性主要回答能不能用,细胞穿透相关研究更接近回答能不能送进去。
近年来,细胞穿透肽预测已经成为多肽 AI 领域非常活跃的一条主线。模型方法从传统机器学习逐渐扩展到深度学习、对比学习、孪生网络,以及更适合应对类别不平衡数据的框架。技术层面的升级背后,反映的是一个更明确的研发需求:研究者不仅想知道一条肽有没有功能,还希望知道它是否具备进入细胞、提高胞内递送效率的潜力。
从 ADMET 的角度看,细胞穿透虽然不能直接等同于吸收或组织分布,但它确实提供了一个重要的功能性 proxy。对于许多以胞内靶点为目标的多肽设计工作来说,这一性质往往是最先需要解决的门槛之一。
不过,必须强调的是,细胞穿透不等于口服吸收,不等于系统暴露,也不等于最终临床可用性。 这是一个常见但危险的误读。它是重要性质,但只是完整药代命运中的一部分。如果把细胞穿透模型的结果直接外推为体内表现好,就容易超过现有证据所能支持的边界。
血脑屏障穿透相关研究,是多肽 AI 近年来升温非常明显的另一个方向。
其重要性并不难理解。对于中枢神经系统药物研发而言,如何把分子有效送入脑内,一直是极具挑战的问题。多肽在这一领域既可能作为候选治疗分子本身,也可能作为递送标签或 shuttle,因此 BBB 穿透能力的评估尤为关键。
近年的研究显示,这一子方向已经从早期的传统机器学习,逐渐扩展到监督降维、数据增强、Transformer 等更复杂的建模策略。其意义在于,它让一个过去高度依赖经验与试错的设计问题,开始具备了先验筛选和优先级排序的可能性。
但同样需要看到,这一方向的标签质量和任务定义仍然存在局限。很多 BBB 穿透肽数据来自不同实验条件和不同标准下的报道,本身就带有较强异质性。因此,目前的模型更适合在研发早期充当“方向性工具”,而不是对真实脑暴露作出最终判断。
如果从成药角度判断,环肽膜通透研究大概是当前最值得长期关注的多肽 AI 方向之一。
其原因很直接:对很多环肽及大分子样分子而言,膜通透性本身就是开发瓶颈。无论是口服暴露、胞内靶点可达性,还是整体可开发性优化,膜通透都常常扮演决定性角色。
过去几年中,围绕环肽膜通透的数据库建设、特征体系设计和模型评估都明显加快。研究者不再只依赖简单理化描述符,而是开始联合使用原子层、单体层和肽层特征,并尝试通过数据增强、多层级表示学习等方式提高预测性能。更重要的是,一些研究已经开始做系统性 benchmark,比较不同 AI 方法在同一任务上的表现。这说明该领域正在逐步摆脱各做各的模型,进入更注重可比性和评估标准的阶段。
从研究价值上看,环肽膜通透比是否能进细胞更贴近药物开发本身,因为它更直接关联于吸收和分布问题。但同时也必须承认,膜通透只是 ADME 的一个局部切面,真实体内行为还会受到溶解度、血浆蛋白结合、转运蛋白作用、代谢稳定性等多因素共同影响。
与毒性和通透性相比,稳定性相关研究在传播层面没有那么吸引眼球,但在实际开发中往往更致命。
一个活性很好的多肽,如果在胃肠道环境中迅速失活,或者进入血液后很快被蛋白酶切割,那么它的开发前景就会迅速受限。因此,胃肠道稳定性、血液半衰期、蛋白酶降解倾向这些问题,本质上都在回答一个更加现实的研发问题:候选分子在体内到底能不能站得住。
近年的研究已经开始尝试仅基于序列信息预测肽在胃液、小肠液中的稳定性,也有工作围绕天然肽与修饰肽的血液半衰期展开建模。这些任务的意义,不在于给出一个看似精确的分数,而在于尽早帮助研究者识别那些在体内命运上先天吃亏的候选。
从方法角度看,这一方向未来仍然很有增长空间。因为与通透性相比,稳定性问题与局部序列模式、修饰方式、酶识别偏好之间的关系更加复杂,而这恰恰是表征学习与结构感知模型可能持续发挥价值的地方。
多肽 ADMET 与 AI 的结合之所以在近几年变得更像一个领域,不是因为某一篇论文突然改变了一切,而是因为它开始同时具备了三个条件:数据基础、模型能力和明确的应用牵引。
过去,多肽相关 ADMET 数据往往散落在论文、补充材料和专利中,不仅难以获取,也很难形成可复用训练集。近几年,围绕环肽膜通透、毒性和多肽 ADMET 整体评估的数据平台和数据库逐渐出现,这意味着研究者开始有机会基于更系统的数据资源开展建模工作。
这些资源当然还远称不上完善。它们仍然会受到任务定义、实验异质性和样本分布偏倚的限制。但至少从研究生态上说,多肽 ADMET 已经开始从零散问题,向更可积累、可共享、可比较的方向发展。
多肽并不是简单的字符序列。它既包含序列信息,也包含结构倾向、修饰信息、构象特征和局部理化模式。因此,传统基于手工描述符的建模方式虽然仍然有价值,但越来越难以充分覆盖复杂多肽的真实行为。
近年的一个显著趋势,是蛋白语言模型、图神经网络、Transformer、多模态融合和数据增强方法开始广泛进入这一领域。它们并不保证问题立刻被解决,但确实提高了模型对复杂分子表示的能力,也使得研究者更有机会处理非线性更强、变量耦合更复杂的任务。
更重要的一点是,当前的研究重点已经不再局限于某个性质能不能预测。越来越多工作开始转向多参数协同优化,也就是同时考虑活性、安全性、递送能力、稳定性等多个维度。
这其实很接近真实研发场景。一个值得继续推进的多肽候选,从来不是某一项指标极致突出,而是能够在多个关键性质之间取得平衡。也正是在这个意义上,AI 在多肽领域的角色,正在从识别逐步走向设计辅助工具。
这是目前最容易出现的误读。
毒性、溶血性、细胞穿透、BBB 穿透、膜通透、胃肠道稳定性,这些任务都很重要,也确实都取得了一定进展。但它们本质上仍然是 ADMET 闭环中的局部切面,而不是完整体内命运的等价替代。
因此,更准确的表述应当是:AI 正在显著提高多肽早期可开发性筛选和优化的效率,但远没有替代体内外实验,更没有完成对真实药代行为的全面预测。
现实中的研发候选,往往并不是标准天然肽。为了改善稳定性、通透性或暴露表现,研究者经常会引入环化、N-甲基化、侧链修饰、脂化、D-氨基酸替换或其他非天然单元。
问题在于,很多公开模型的训练数据仍然主要来自较熟悉的序列空间。它们在分布内任务上可能表现不错,但一旦进入更陌生、更复杂的修饰空间,泛化能力就可能明显下降。这个问题在环肽、修饰肽和递送标签设计中尤其值得重视。
当前一些模型可以给出不错的 AUC、MCC 或其他分类指标,但如果它们无法回答为什么这条肽风险更高、哪些位点更可能影响通透性、哪类修饰更值得尝试,那么它们在真实研发中的价值仍然有限。
对多肽 ADMET 来说,好的模型不仅要会分,更要尽可能帮助研究者理解哪些序列模式、结构因素或修饰策略正在驱动性质变化。这也是为什么解释性和实验反馈闭环,未来会越来越重要。
如果从研究者视角看,未来多肽 ADMET 与 AI 结合最值得发力的地方,可能并不是继续重复性地开发更多单任务分类器,而是往以下几个方向深入推进。
很多任务之所以看起来模型很多、进步很快,其实是因为不同研究所预测的目标并不完全相同。一个看似同名的任务,背后可能对应完全不同的数据来源、实验条件和标签定义。
因此,未来更重要的工作之一,是让任务边界更加清晰:哪些属于安全性 proxy,哪些属于真实暴露指标,哪些是递送能力表征,哪些只是开发前筛查维度。只有问题定义足够清楚,模型比较才真正有意义。
多肽研发很少存在只要提升一个性质就够了的情况。现实中的候选往往需要同时兼顾活性、稳定性、通透性、安全性和可制备性。
因此,与其持续追求单任务指标的微小提升,不如更认真地推进多目标设计框架。真正能在研发中创造价值的,往往不是某个性质做到极致,而是能在多个关键性质之间取得更合理平衡的分子。
多肽 ADMET 绝不是一个单纯的数据竞赛问题。它的价值最终仍然要落在实验上,落在候选是否真的更优上。
这意味着未来更重要的方向,不只是做出更复杂的模型,而是让模型进入“预测—设计—合成—测试—回流训练”的循环中。只有这样,AI 才可能真正从论文中的方法,变成推动研发效率的工具。

闭环流程
如果要对当前多肽 ADMET 的 AI 研究做一个克制而准确的总结,大概可以这样表述:
这个领域还远没有走到全能预测的阶段,但已经明显进入关键开发问题开始变得可计算的阶段。
换句话说,AI 目前最重要的意义,不是替代实验,也不是提供一个关于体内行为的万能答案,而是帮助研究者把过去高度依赖经验、碎片化且成本高的问题,前移到更早的设计阶段去评估、筛选和优化。
对于多肽药物研发来说,这种变化也许没有那么戏剧化,却很可能更加关键。因为它所推动的,不只是工具层面的更新,而是整个研发逻辑的改变:从先做出来再看行不行,逐步走向在设计阶段就更有把握地知道什么值得做。
这或许正是AI多肽设计真正开始成熟的标志。