Nat. Commun.｜蛋白语言模型联合几何深度学习：新一代疫苗抗原预测框架PLGDL

DrugOne

发布于 2026-03-02 19:23:17

1090

文章被收录于专栏：DrugOneDrugOne

在疫苗开发过程中，一个关键挑战是从病原体产生的数千种蛋白质中筛选出合适的靶抗原，人工智能有望在解决这一挑战中发挥重要作用。

2025年12月21日，北京生物技术研究院及国防科技大学的研究人员在《Nature Communications》期刊上发表文章，题为“Integrating protein language and geometric deep learning models for enhanced vaccine antigen prediction”。该研究通过协同利用蛋白质语言模型和几何深度学习模型的能力，为保护性疫苗抗原预测提供了一种高性能筛选工具，并为快速疫苗开发提供了重要见解和方法学进展。

PLGDL数据及代码仓库：

https://github.com/yunxiangz/PLGDL

背景

能够诱导特异性保护性免疫反应的候选抗原的精准发现，是成功开展疫苗开发的基础。人工智能有望在抗击传染病，尤其是疫苗开发方面发挥重要作用。现有的机器学习反向疫苗学(RV)方法主要依赖于从蛋白质序列中人工设计的特征。这些特征包括理化性质以及生物学特征。尽管这些人工特征具有一定实用性，但它们本质上受限于先验知识，可能无法捕捉序列与抗原性之间更复杂、多层面的关系。深度学习模型的出现提供了一种有前景的替代方案，因为它们能够从原始数据中自动学习分层特征表示。

近年来的研究表明，从预训练、任务无关的蛋白质语言模型中提取的特征，能够显著提升多种生物学问题中的分类性能。蛋白质语言模型的一个关键优势在于其能够捕捉蛋白质序列中的长程依赖和复杂相互作用。传统基于序列的特征通常依赖预定义属性而受到限制；相比之下，蛋白质语言模型能够自主生成高维特征表示，同时编码局部与全局序列信息。通过捕获蛋白质序列中蕴含的上下文和语义信息，这类模型有望在抗原预测方面超越传统序列特征方法。

此外，蛋白质结构是决定其抗原特性的关键因素，因为氨基酸的空间排布决定了表位对免疫系统的可及性和呈递方式。然而，当前大多数抗原预测模型主要关注一维序列特征，因而可能忽视宝贵的结构信息。将序列与结构特征相结合的整体方法，可能为推进RV领域提供更为稳健的框架。以AlphaFold2和AlphaFold3为代表的蛋白质结构预测技术的最新进展，使自动化提取结构特征成为可能。这一突破为获取此前难以获得的结构信息开辟了新途径。尽管由于蛋白质折叠的复杂性，人工设计合适的结构特征本身具有挑战性，但几何深度学习模型，即将传统深度学习扩展到图和流形等非欧几里得空间的方法，在表征蛋白质三维特性方面已取得显著进展。

方法

作者提出了一个名为PLGDL的框架(图1)。该框架同时利用蛋白质语言模型和几何深度学习模型，整合序列特征与结构特征以预测保护性疫苗抗原。该框架的第一步是建立并评估一个全面的保护性抗原数据集。随后，首先使用预训练的蛋白质语言模型提取蛋白质序列特征。考虑到蛋白质结构信息的丰富性，采用改进的邻域增强图卷积网络NEGCN模型来表征蛋白质结构，并将提取的结构特征与氨基酸序列特征进行融合。最终，所得的机器学习分类器用于保护性疫苗抗原预测。

图1 疫苗抗原预测的PLGDL框架

结果

抗原数据集的建立与评估

在本研究中，仅纳入符合以下标准的保护性抗原：即在体内已被证明能够在病原体攻击实验中提供保护，或能够诱导与保护结局直接相关的抗原特异性免疫反应的蛋白质。基于这一严格标准，从Protegen数据库和PubMed文献整理数据，并去除冗余后，获得了一个高置信度的600个保护性抗原集合；通过从UniProt数据库所列病原体基因组中提取全部已注释蛋白序列，随机选择并剔除与正样本同源的序列，构建了不平衡的负样本数据集。最终整理后的负样本为6000个，形成了1:10的正负样本比例，更贴近生物学现实(图2a)。该抗原数据集覆盖了广泛的蛋白序列长度范围，确保其在多种生物学场景中的适用性(图2b)。所有6600个蛋白结构均使用AlphaFold3重新预测(图2c)，结构置信度通过关键指标进行评估。

图2 保护性抗原数据集的建立与评估

分析表明，pLDDT与蛋白长度之间存在弱负相关(图2d)，说明不同长度抗原的预测质量保持一致。值得注意的是，pTM与PAE之间呈现强负相关(图2e)，表明具有更高整体结构置信度(pTM)的抗原，其结构域间位置不确定性(PAE)更低。该数据集现已公开，作为保护性抗原的综合结构资源，用于推动疫苗研究。

基于序列与结构特征融合的PLGDL框架构建

本研究采用ESM-2从抗原序列中生成残基级特征嵌入,构建了邻域增强图卷积网络NEGCN，以精确表征蛋白结构并提取相关特征向量。从AlphaFold蛋白结构数据库中获取805k个高质量蛋白结构。NEGCN框架将表示氨基酸空间关系的初始邻接图转换为边图，从而能够根据氨基酸间角度对不同连接类型和空间排布进行编码。NEGCN采用对比学习策略进行训练，使正样本表示更接近目标样本，同时拉远负样本表示。利用预训练的NEGCN，为抗原数据集中的每个蛋白获得了960维结构特征向量，并通过特征选择流程降维至27维。随后，基于训练集中蛋白序列与结构特征向量，采用多种典型机器学习分类算法进行模型训练。

图3 多种分类算法在自建数据集上的预测性能比较

在病毒、细菌和真核病原体上的综合评估表明，XGBoost在抗原预测任务中表现最优(图3和表1)。具体而言，在序列-结构特征融合条件下，XGBoost是跨病原体抗原预测的最优模型，能够同时优化判别能力(ROC-AUC)和类别不平衡鲁棒性(PR-AUC)。

表1 多种分类算法在构建数据集上的预测性能比较

PLGDL模型在自建数据集与第三方数据集上的评估

将对比学习框架与邻域嵌入方法相结合，生成嵌入空间的无监督二维可视化结果(图4)。四幅图均显示出保护性抗原与非保护性抗原之间明显的聚类现象，表明模型学习到的特征空间包含显著的抗原信息。嵌入图中清晰的簇边界意味着特征空间具有更高的可分离性，从而直接转化为更优的分类性能。这表明PLGDL能够基于这些特征有效区分保护性与非保护性抗原。

随后采用簇纯度指标量化聚类质量，即评估每个簇在真实标签上的同质性。较高的簇纯度意味着簇内数据点主要属于同一真实类别，说明特征空间分离良好。细菌类别获得了最高簇纯度(0.980)，与其在表1中的最佳分类性能完全一致，凸显了模型在细菌抗原预测方面卓越的判别能力。这种稳健的聚类表现说明细菌抗原特征在嵌入空间中既具有高度区分性又具有良好内聚性，从而实现高可靠分类。相比之下，病毒类别的聚类略弱(0.957)，可能归因于其抗原数据量相对有限。总体而言，观察到的簇同质性，尤其是在细菌和真核亚组中，验证了模型能够编码具有生物学意义的保护性抗原特征。

图4 构建数据集上PLGDL嵌入的可视化

表2结果显示，PLGDL在疫苗抗原识别方面具有最优预测能力，体现在Precision、F1-score和MCC等关键指标上。此外，基于氨基酸序列的深度学习模型Vaxign-DL与Vaxi-DL也表现出良好性能。总体而言，这些结果凸显了PLGDL通过序列–结构特征融合所带来的稳健性与性能提升。

表2 PLGDL模型与基准方法在标准数据集上的预测性能

Mpox候选抗原预测及免疫学评估

Mpox病毒是一种具有包膜的双链DNA病毒，呈砖形结构，是已知体积最大的病毒颗粒之一，其传播循环涉及松鼠、鼠类等主要宿主以及非人灵长类等偶然宿主(图5a)。自2022年以来，该病毒持续在非洲传播并威胁全球公共卫生安全。将所提出模型快速应用于Mpox病毒。首先预测了MPXV-USA-2022-MA001全部190个注释蛋白的三维结构，并获得PDB文件。随后利用预训练的蛋白语言模型与几何深度学习模型提取190个蛋白的序列和结构特征，并输入已训练的PLGDL模型。模型运行后得到抗原概率评分分布(图5b)。分析发现，得分高于0.5的蛋白不足10%。据此生成了前10候选抗原列表(表3)。

图5 Mpox新候选抗原的预测

排名前列的已实验证实保护性抗原包括B6R、M1R、A35R、H5R、D8L、A5L，这些蛋白已知参与病毒进入、膜融合和免疫调控。其中M1R、B6R、A35R已成功用于mRNA疫苗开发并取得初步临床进展，这从真实复杂病毒场景角度验证了模型的有效性。此外，模型还识别出若干潜在新候选抗原，如J3R与牛痘B29R/C23L同源的趋化因子结合蛋白，参与免疫逃逸；A13L为病毒核心蛋白酶，参与衣壳成熟；G10R为病毒膜融合复合体关键组分；A41L为趋化因子结合蛋白，降低炎症细胞浸润。尽管这些蛋白具有保守功能，但此前尚未获得疫苗验证。

表3 PLGDL模型输出的Mpox前10个候选抗原

为验证模型预测准确性，成功表达了4种抗原并在小鼠模型中进行免疫评估，包括已验证对照抗原M1R、两个高分候选J3R、G10R、一个低分抗原B9R(图5c,d)。免疫结果表明，所有候选抗原均能诱导强烈的特异性体液免疫反应，其抗体水平达到或超过阳性对照M1R(图6b)。值得注意的是，在加强免疫后G10R抗体水平为M1R的18倍,B9R抗体水平为M1R的37倍。抗体亚类分析显示，这些抗原诱导了平衡的Th1/Th2免疫反应，提示其具有广泛免疫原性潜力。然而，在保护效力方面出现关键差异。G10R在针对鼠痘病毒的微量中和实验中产生与M1R相当的中和抗体，在致死攻击模型中提供部分保护，序列比对显示其与ECTV同源蛋白高度保守，强力支持其生物学相关性；B9R虽然免疫原性极强(分泌蛋白)，但未产生保护作用。这一鲜明对比验证了模型能够有效区分仅具免疫原性的抗原与真正具有保护性的疫苗候选抗原。

图6 Mpox候选抗原的免疫学评价

挑战及局限

本研究提出了新的保护性抗原预测框架PLGDL，通过协同利用蛋白质语言模型与几何深度学习模型实现了性能提升，但其存在若干挑战与局限。首先，阳性保护抗原数量有限，可能限制模型复杂度与泛化能力。其次，数据库潜在偏倚。保护性通常来源于特定实验条件(动物模型、毒株、免疫方案)，在某一模型中有效的抗原未必在人类中同样有效。此外，动物模型外推性有限，遗传、免疫生理和嗜性差异意味着没有任何单一动物模型能完全模拟人类免疫。最后，可能遗漏某些抗原，尤其是保护机制难以在常规模型中评估的抗原。这些因素凸显了构建真正可预测保护免疫模型的持续挑战。

参考链接：

Zai, X., Zhao, Y., Wang, X. et al. Integrating protein language and geometric deep learning models for enhanced vaccine antigen prediction. Nat Commun 17, 1033 (2026).

https://doi.org/10.1038/s41467-025-67778-2

--------- End ---------

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2026-02-28，如有侵权请联系 cloudcommunity@tencent.com 删除

模型