首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >Nat. Biomed. Eng. | 蛋白质语言模型揭示进化隔绝却极具活性的抗菌肽新家族

Nat. Biomed. Eng. | 蛋白质语言模型揭示进化隔绝却极具活性的抗菌肽新家族

作者头像
DrugIntel
发布2026-03-06 10:59:59
发布2026-03-06 10:59:59
1200
举报

DRUGONE

抗菌素滥用导致耐药性迅速扩散,迫切需要新的抗感染策略。抗菌肽(AMP)作为天然免疫系统的重要组成部分,被认为是对抗耐药病原体的理想替代方案。然而,现有实验与计算方法高度依赖与已知AMP的序列相似性,难以识别进化距离较远但功能强效的抗菌肽。研究人员提出了一种基于蛋白质语言模型的分层多任务深度森林框架——HMD-AMP,用于高精度预测与挖掘进化遥远的抗菌肽。该方法在多种基准测试中显著优于现有模型,并成功从九种哺乳动物宿主及其肠道微生物基因组中预测出超过三千万条潜在AMP。经实验验证的91条高置信候选肽中,74条表现出显著抗菌活性,其中48条与已知AMP进化距离较远。部分肽在低浓度下表现出广谱抗菌效果且毒性较低,其中最强效的一条在小鼠腹腔大肠杆菌感染模型中显示出体内治疗效果。该研究展示了蛋白质语言模型在发现高度多样且强效抗菌肽方面的潜力。

抗菌耐药性的全球蔓延严重威胁公共健康。抗菌肽作为天然存在数百万年的免疫分子,其耐药性产生速度远低于传统抗生素,因此被广泛关注。尽管近年来基于机器学习的方法逐渐应用于AMP预测,但现有方法面临三大挑战:第一,已知AMP仅覆盖极小的序列空间,短肽进化迅速且序列高度多样;第二,多数数据库仅包含阳性样本,难以构建高质量负样本;第三,当前研究多集中于微生物来源AMP,而宿主基因组中潜藏的大量天然抗菌肽仍被忽视。

为解决这些问题,研究人员构建了基于蛋白质语言模型的端到端框架HMD-AMP。该模型通过微调大规模预训练语言模型ESM-2,使其更适用于短肽预测任务,并结合分层深度森林结构实现AMP识别与功能类型预测。该方法显著提升了远源AMP的识别能力,为高分辨率抗菌肽挖掘提供了新思路。

方法

研究人员首先构建了完整的远源AMP挖掘流程。原始数据来自宿主基因组及肠道微生物宏基因组,通过开放阅读框预测筛选出长度在5–100个氨基酸之间的候选序列。随后利用微调后的蛋白质语言模型提取序列嵌入表示,再通过分层深度森林分类器进行AMP识别及其功能类型预测。模型输出高置信候选序列后,结合宏蛋白组过滤及冗余过滤,筛选代表性候选肽进行化学合成与体内外实验验证。该流程不仅提高了远源序列的识别能力,也保证了预测结果的实验可行性。

图1:发现进化遥远且高度强效抗菌肽的整体流程。

结果

HMD-AMP在跨物种与远源识别中的性能优势

在五折交叉验证及跨界(动物、植物、细菌)测试中,HMD-AMP整体性能优于传统机器学习与深度学习模型。在细菌来源测试集中,其F1-score优势尤为显著。进一步通过序列相似性与结构相似性阈值测试发现,当测试序列与训练集相似度低于40%甚至结构TM-score低于0.5时,其他模型性能显著下降,而HMD-AMP仍保持稳定表现。这表明语言模型有效捕获了进化与功能层面的深层特征。

此外,预测置信度与实验MIC数据呈显著负相关,高置信度序列通常对应更低的抑菌浓度,说明模型评分具有生物学意义。

图2:HMD-AMP 在交叉验证与跨界(跨物种界)测试中优于其他模型。

功能类型预测能力显著提升

研究人员进一步评估模型在功能类型预测任务中的表现,包括革兰氏阳性菌、阴性菌、哺乳动物细胞、真菌、病毒与癌细胞等六类靶标。尽管数据分布高度不平衡,HMD-AMP在所有类别上均显著提升MCC指标,特别是在革兰氏阳性与阴性菌分类任务上提升最为明显。氨基酸组成分析显示,不同功能类别具有特征性残基分布,但仅基于氨基酸频率的传统模型无法达到同等性能。

图3:HMD-AMP 在同源性划分的独立测试集及抗菌肽靶标注释任务中表现出稳健性能。

从宏基因组中挖掘进化遥远的候选AMP

在九种哺乳动物的肠道微生物基因组中,研究人员共预测出约3,700万条潜在AMP,其中大多数与训练集中已知AMP的序列相似度低于40%。以猪为例,在超过1,400亿条肽序列中,通过多重过滤与预测,最终筛选出7,460条候选AMP。实验合成62条高置信序列,其中52条表现出显著抗菌活性,84%的验证成功率远高于传统筛选策略。

这些候选肽中约一半序列相似度低于25%,宿主来源肽甚至低于10%,显示出高度进化遥远性。结构分析表明,部分序列在结构层面与已知AMP相似,但序列层面极度分化,体现出语言模型对深层结构信息的捕获能力。

图4:利用 HMD-AMP 从猪肠道宏基因组数据中发现高度多样且强效的抗菌肽。

强效远源AMP的体内外验证

在所有验证序列中,8条肽展现出广谱、低毒性的强效抗菌活性,其中4条既进化遥远又高度强效。一条仅与已知AMP有9%序列相似性的肽在小鼠腹腔感染模型中显著提高生存率,证明其体内治疗潜力。结构比对与多序列比对进一步揭示其保守功能区域,说明远源序列仍可保留关键功能核心。

图5:与抗菌功能相关的进化遥远抗菌肽的结构与序列特征。

图6:从猪肠道宏基因组中发现的最强效抗菌肽的功能表征。

讨论

本研究表明,蛋白质语言模型能够突破传统基于序列同源性的限制,识别进化距离极远但功能强效的抗菌肽。HMD-AMP通过结合预训练语言模型与分层分类框架,在远源识别、功能类型预测与大规模宏基因组筛选中均表现出稳定而优越的性能。研究结果不仅扩展了抗菌肽的已知序列空间,也为抗生素替代疗法提供了新的分子候选。

未来,随着更多高质量实验数据的积累以及结构预测技术的提升,语言模型驱动的功能蛋白挖掘有望成为生物医药发现的重要工具。该策略不仅适用于抗菌肽,也可拓展至其他功能性短肽与蛋白质家族的发现。

整理 | DrugOne团队

参考资料

Yu, Q., Liu, H., Shi, H. et al. Uncovering evolutionarily remote and highly potent antimicrobial peptides with protein language models. Nat. Biomed. Eng (2026).

https://doi.org/10.1038/s41551-026-01630-w

内容为【DrugOne】公众号原创|转载请注明来源

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-03-04,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugIntel 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档