Nat. Commun. | 深度学习特征驱动抗菌肽的全新生成设计

DrugAI

发布于 2026-01-06 13:16:48

2450

文章被收录于专栏：DrugAIDrugAI

DRUGONE

深度学习模型在抗菌肽（AMP）设计与优化中展现出巨大潜力，但现有方法仍存在成功率低或虚拟文库规模过大的问题。本研究提出了一种名为 DLFea4AMPGen 的新策略，通过深度学习模型识别并提取与抗菌肽活性相关的关键特征，从而生成具有潜在生物活性的肽序列。研究人员利用 SHAP（Shapley Additive Explanations）方法定量评估多功能肽中每个氨基酸对抗菌、抗真菌和抗氧化活性的贡献，并提取出平均贡献最高的关键特征片段（KFFs），再根据氨基酸频率将其分为四个亚家族。通过系统组合这些高频氨基酸，构建出合理的候选序列空间，最终选取16条代表性序列进行实验验证。结果显示，其中12条（75%）至少具备两种以上活性，尤其是 D1 表现出对多重耐药临床病原菌的广谱抗菌能力（体内外均有效）。该研究验证了DLFea4AMPGen平台在高效设计与筛选生物活性肽方面的潜力，为AMP研究提供了新方向。

抗菌肽因其独特的抗药机制（通常通过破坏细菌膜结构）而成为应对抗生素耐药问题的有力候选药物。传统设计方法多集中于天然肽的发现或其衍生物改造，而深度学习技术的兴起正在重塑肽药设计格局。通过大模型的学习与生成能力，研究人员能够快速提出大量自然界中不存在的新型肽序列。

目前，从头设计AMP主要有两类方法：

一类是通过生成式深度学习模型（如VAE、Chroma、ProGen等）基于未标注序列数据学习蛋白质序列分布，从而生成新肽；
另一类是通过深度学习预测模型扫描庞大的虚拟肽库，筛选出具有高抗菌潜力的序列。

然而，这些方法仍存在明显不足：生成的序列过多、验证成功率较低、抗氧化或抗炎活性常被忽略。因此，需要一种能精准提取高活性片段、整合多种功能特征并有效缩减候选空间的策略。

方法

研究人员开发了一个多阶段流水线，以实现抗菌、抗真菌和抗氧化肽的高效生成：

模型构建：基于已有活性肽数据，对预训练的Mindspore Protein-BERT（MP-BERT）模型进行微调，分别训练三种模型（ABP-MPB、AFP-MPB、AOP-MPB）。
活性预测：用三模型联合预测20个生物活性肽数据集中的所有序列，仅保留同时预测为三阳性的序列。
特征提取：使用SHAP分析量化每个氨基酸的重要性，提取13个氨基酸长度、平均SHAP值最高的片段作为KFF。
亚家族划分与组合：基于序列相似性构建系统进化树，将3400个KFF分为四个亚家族，并提取各位置出现频率最高的氨基酸进行系统组合（3¹³个候选序列/亚家族）。
代表序列筛选与验证：利用聚类算法挑选代表序列（共16条）进行体内外实验验证，包括抗菌、抗真菌、抗氧化、溶血及毒性检测。

图1 研究总体流程

结果

模型性能与多功能肽预测

三种MP-BERT微调模型在验证集上均表现出优异性能（准确率>84%），在20个活性肽数据集中明显优于SVM、XGBoost、CNN等传统模型。

在共23,346条肽序列中，有4,760条被预测同时具有抗菌、抗真菌和抗氧化活性，为后续特征提取提供了基础。

图2 模型性能与活性预测结果

SHAP特征提取与关键片段构建

利用SHAP分析，研究人员发现：

抗菌活性贡献最高的氨基酸为Cys、Trp、Lys、Pro、Arg；
抗真菌活性为Cys、Arg、Lys、Trp、His；
抗氧化活性为His、Trp、Tyr、Cys、Pro。

从这些序列中提取的13AA片段（KFFs）整合了三类活性特征。3400个KFF经系统发育分析被划分为四个亚家族，每个亚家族显示独特的氨基酸分布特征。

图3 关键氨基酸特征及KFF提取

可行序列空间与代表性AMP筛选

每个亚家族的3¹³组合空间经过深度学习预测和正电荷过滤后，保留约89万到66万条高概率活性序列。通过K-means聚类与特征降维，选取16条代表性候选肽（c_AMPs）进行合成与实验验证。

图4 可行序列空间构建与代表序列筛选

体外实验结果

在6种细菌（3种革兰阴性、3种革兰阳性）和1种真菌（C. albicans）中，约75%的c_AMPs表现出显著抑菌或抑真菌活性。尤其是 D1与D2，在多种细菌中均表现出广谱抗菌效应，并在抗氧化实验中显示出较高自由基清除能力。溶血与细胞毒性实验表明，除B2外，其他15条肽的溶血率均低于4%，安全性良好。

图5 体外活性验证与形态学观察

抗药菌与机制验证

D1和D2对临床及畜禽来源的耐药菌均有显著抑制作用：

D1对E. coli z44的MIC为4 µM，对S. aureus 09057的MIC为16 µM；
长期暴露（100代）后未检测到耐药性形成。

扫描与透射电镜结果显示，D1处理导致细胞膜结构破裂和胞质泄漏，证实其通过膜破坏机制实现杀菌。

体内抗感染验证

在感染小鼠脓毒症模型中，D1显著降低了肝、肾、脾、肺中的细菌负荷（下降0.4–1.1 log CFU/g），并有效减轻炎症反应。TNF-α、IL-1β与IL-6等炎症因子水平显著下降，说明其具备抗炎与抗感染双重效应。

图6 小鼠感染模型体内验证

讨论

DLFea4AMPGen通过整合深度学习模型学习到的氨基酸特征，实现了多功能AMP的精准从头设计。

该方法具有以下优势：

高解释性与效率：通过SHAP值解析模型“黑箱”特征，提取关键氨基酸组合，显著缩小候选空间。
多活性整合：同时考虑抗菌、抗真菌和抗氧化活性，提高多功能肽的生成成功率。
实验验证可靠： 16条合成肽中75%表现出活性，D1与D2表现出强广谱抗菌与体内疗效。

该策略克服了传统基于随机组合或数据库过滤方法的局限，能够在保持序列多样性的同时确保活性特征集中。未来，可结合回归模型进一步定量预测MIC值，实现从“分类预测”到“活性评估”的升级，从而提升AMP设计的精度与实用性。

结论

研究人员提出的 DLFea4AMPGen 通过整合深度学习特征解释与从头设计策略，实现了低计算成本、高命中率、多功能的抗菌肽生成框架。通过该策略获得的D1与D2展现出显著的广谱抗菌效应与良好安全性，为针对耐药病原的肽类药物研发提供了新的技术路径。

整理 | DrugOne团队

参考资料

Gao, H., Guan, F., Luo, B. et al. DLFea4AMPGen de novo design of antimicrobial peptides by integrating features learned from deep learning models. Nat Commun 16, 9134 (2025).

https://doi.org/10.1038/s41467-025-64378-y

内容为【DrugOne】公众号原创｜转载请注明来源

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2025-10-15，如有侵权请联系 cloudcommunity@tencent.com 删除

深度学习