
蛋白质—蛋白质相互作用是多种生物学功能的基础,但在完整蛋白质组范围内预测相互作用,长期受到全对全蛋白质配对所产生的二次计算复杂度限制。研究人员提出了FlashPPI,这是一种以残基水平相互作用为基础的对比学习框架,可在线性时间内预测微生物蛋白质组中的物理蛋白质界面。FlashPPI利用从宏基因组序列中学习跨蛋白质共进化信号的基因组语言模型,将相互作用蛋白映射到同一潜在表示空间中的相邻位置。
与现有基于序列的方法相比,FlashPPI的预测性能提高约4倍,同时将全蛋白质组筛选时间从数天缩短至数分钟。更重要的是,该方法仅需较低的计算成本,便可达到与先进结构折叠模型相近的蛋白质组筛选性能。研究人员进一步将FlashPPI整合到一个交互式网络平台中,把预测的相互作用网络与功能注释、基因组位置及残基水平界面证据结合起来,从而使快速、可解释的微生物蛋白质组网络分析成为可能。

目前,绝大多数已经测序的蛋白质仍缺乏明确的功能注释,而随着宏基因组测序数据快速积累,这一功能认知缺口还在持续扩大。在蛋白质组尺度上解析蛋白质—蛋白质相互作用,不仅可以帮助推断未知蛋白质的功能,还可能揭示新的分子机制、蛋白质复合物和细胞调控通路。
传统计算方法通常依赖已知相互作用的同源性,或者利用配对多序列比对推断不同蛋白质之间的共进化关系。近年来,深度学习显著加快了蛋白质相互作用预测,但多数模型仍将两个蛋白质序列作为一个联合输入,并逐对判断它们是否相互作用。因此,当一个蛋白质组包含数千个蛋白质时,需要执行数量极大的全对全比较,计算成本会随着蛋白质数量的平方增长,使大规模无偏筛选变得十分困难。
为解决这一问题,研究人员将蛋白质相互作用预测重新定义为一个稠密检索任务。模型不再直接对所有可能的蛋白质对逐一进行复杂计算,而是首先把每个蛋白质独立编码为向量,使可能发生相互作用的蛋白质在潜在空间中彼此接近。随后,系统只对每个蛋白质最相似的少量候选对象进行精细的残基接触预测。通过这种“快速检索加精细验证”的两阶段设计,搜索过程可以近似按蛋白质数量线性扩展。
FlashPPI以基因组语言模型gLM2作为编码器基础。gLM2在包含多个蛋白质编码基因的宏基因组片段上训练,不仅学习氨基酸序列模式,还保留基因在基因组中的相对位置、方向和基因间区域信息。因此,该模型能够捕获共同存在于同一基因组环境中的蛋白质之间的共进化信号。FlashPPI在此基础上进一步学习蛋白质级的相互作用表示,并预测残基级的物理接触界面,从而兼顾计算速度、预测准确性和结果可解释性。
方法
研究人员构建了一个具有共享骨干网络的双编码器模型,分别对查询蛋白质和候选蛋白质进行独立编码,并通过平均池化和多层感知机生成稠密向量表示;训练过程中采用对比学习,使真实相互作用蛋白的向量更加接近,而非相互作用蛋白彼此远离,同时使用假阴性掩码,避免把批次中可能真实相互作用的蛋白质错误地作为负样本。为了恢复独立编码所缺少的界面结构信息,模型还包含一个残基接触预测模块,根据两个蛋白质的残基表示生成二维界面接触图,并以实验结构中的界面接触作为监督信号。研究人员进一步引入在线困难负样本挖掘,从潜在空间中选择向量相似但实际上不相互作用的蛋白质对,强化接触模块区分真实物理界面和伪相似配对的能力。训练数据包括来自蛋白质结构数据库的约34万个完整蛋白质链相互作用,以及来自结构预测数据库的约53万个高置信度结构域—结构域相互作用。研究人员按照序列相似性对数据聚类,并实施聚类加权抽样,以减少核糖体蛋白等高频家族带来的数据偏倚。推理时,目标蛋白质组首先被编码并存入向量数据库,每个查询蛋白质只检索相似度最高的候选伙伴,随后对这些候选对进行残基接触预测,并根据接触置信度、同源性和过度连接的枢纽蛋白进行过滤,从而形成最终的蛋白质相互作用网络。

图1|用于可扩展蛋白质—蛋白质相互作用预测的FlashPPI框架。
结果
FlashPPI的预测性能评估
研究人员首先在一个独立的大肠杆菌K12蛋白质相互作用测试集上评估FlashPPI。该测试集包含650个来自实验结构的阳性蛋白质对,并按照30%的序列一致性进行去冗余。为严格避免训练数据泄漏,凡是两个蛋白质均与测试集序列具有较高相似性的训练样本均被移除。
为了模拟真实蛋白质组筛选中阳性相互作用稀少的情况,研究人员构建了阳性与阴性比例为1∶100的高度不平衡测试集,其中包含650个阳性蛋白质对和65,000个阴性蛋白质对。与简单地从整个蛋白质组随机选择阴性蛋白质不同,这些阴性样本均由已知能够参与蛋白质相互作用的蛋白质重新组合得到,因此更加难以区分。研究人员还利用已知相互作用数据库过滤可能的意外阳性样本。
在该测试集上,FlashPPI的精确率—召回率曲线下面积达到0.29,而PLM-Interact、Topsy-Turvy和D-SCRIPT分别为0.07、0.03和0.02。由此,FlashPPI相对于表现最好的序列基线模型获得了约4倍的性能提升,同时预测速度提高约2,400倍。FlashPPI的接触预测模块表现优于单独的对比检索模块,但二者均显著优于已有方法。对比学习得到的向量相似性与最终接触得分之间也具有较好的一致性,说明使用向量相似度进行候选检索具有合理性。
FlashPPI还能够为检索到的蛋白质对输出残基水平的二维接触图。与D-SCRIPT和MSA-Pairformer相比,FlashPPI在独立测试集上的界面接触精度明显更高,并能在更多实验复合物中恢复高精度界面。以gLM2初始化编码器,相较于使用普通蛋白质语言模型ESM2初始化,可使相互作用预测性能提高11.5%,并使不同接触距离阈值下的界面精度分别提高约15.1%和20.2%。这些结果表明,基因组语言模型所学习的跨蛋白质共进化先验,对识别物理相互作用界面具有重要作用。
消融实验进一步显示,蛋白质级检索任务与残基接触任务必须联合训练。仅保留接触模块或仅保留对比检索模块都会导致性能下降;关闭在线困难负样本挖掘同样会明显降低预测精度。移除结构域—结构域相互作用训练数据后,模型表现也有所下降,说明训练集的结构多样性对于泛化到未知蛋白质相互作用十分关键。研究人员还在铜绿假单胞菌独立测试集上获得了0.35的精确率—召回率曲线下面积,说明该模型的性能并不局限于大肠杆菌。

图2|FlashPPI预测性能与运行速度的基准评估。
大肠杆菌K12蛋白质组相互作用网络预测
研究人员随后在包含4,402个蛋白质的大肠杆菌K12完整蛋白质组上运行FlashPPI。每个蛋白质首先检索向量空间中排名最高的100个候选伙伴,因为分析表明,约87.5%的高置信度相互作用可以在前100个候选中被找到。之后,研究人员对候选蛋白质对进行接触预测,并采用接触得分阈值筛选高置信度相互作用。
为了减少由非特异性结合造成的假阳性,研究人员移除了预测具有超过20个高置信度伙伴的过度连接枢纽蛋白,并使用序列比对过滤同源蛋白质对,因为基于进化信息的模型容易将同源关系误判为物理相互作用。完整流程最终得到702个高置信度相互作用,涉及514个蛋白质。在单张A100 GPU上,从蛋白质编码、候选检索、接触预测到过滤的总运行时间不足5分钟。
预测网络恢复了多个具有明确生物学意义的功能模块,包括大型核糖体蛋白复合物、NADH—醌氧化还原酶复合物、离子转运氧化还原酶复合物、钼依赖性氧化还原酶复合物、厌氧呼吸模块、电子传递复合物、菌毛蛋白以及鞭毛生物合成系统。
在702个预测相互作用中,约72.2%能够在已知功能关联数据库中找到支持。其中约22.8%对应高置信度物理相互作用,42.5%对应较低置信度物理相互作用,7.0%对应其他功能关联,其余27.8%可能代表尚未记录的物理相互作用。证据越强的已知相互作用通常具有越高的FlashPPI接触得分。
在缺乏数据库物理证据的高分预测中,FlashPPI给出的接触界面通常与结构共折叠模型预测结果一致。其中,EnvC与AmiB之间的相互作用当时尚未被纳入相互作用数据库,但其复合物实验结构已经得到解析,说明FlashPPI有能力识别数据库尚未及时收录的真实相互作用。
研究人员也观察到一种重要的假阳性来源,即同一扩增蛋白质家族中旁系同源成员之间的错误交叉配对。例如,部分菌毛蛋白可能被错误匹配到不对应的菌毛伴侣蛋白。对于菌毛、毒素—抗毒素及其他快速扩增的蛋白质家族,仅依靠序列共进化或结构共折叠仍难以准确区分真实配对关系,需要进一步结合基因组共定位和系统发育信息。

图3|大肠杆菌K12蛋白质组尺度的蛋白质相互作用预测。
与Pooled-AlphaFold3全基因组筛选的比较
为了比较FlashPPI与结构共折叠方法的全蛋白质组筛选能力,研究人员分析了具有476个蛋白质的生殖支原体蛋白质组,并将结果与Pooled-AlphaFold3筛选结果进行比较。Pooled-AlphaFold3将10至25个蛋白质放入同一结构预测任务中,以减少需要执行的结构建模次数。尽管这种策略比逐对运行AlphaFold3更加高效,完整筛选仍需要准备和执行2,027个预测任务,约占用2.2个人月的服务器工作量。相比之下,FlashPPI完成整个蛋白质组筛选仅需约2分13秒。
以实验支持的已知相互作用作为评价标准,两种方法的总体性能大致相当。Pooled-AlphaFold3的整体精确率—召回率曲线下面积略高,但FlashPPI在高精确率区域具有更高的召回率。当研究人员分别考察每个查询蛋白质排名靠前的候选伙伴时,FlashPPI在前1至前5名预测中均能够恢复更高比例的已知相互作用。这说明FlashPPI尤其适合为单个蛋白质快速推荐最可能的相互作用伙伴。
两种方法各自得分最高的前1%预测仅有约17%重叠,说明FlashPPI和Pooled-AlphaFold3捕获的是互补的相互作用集合。在两种方法共同排名靠前的209个蛋白质对中,有63个得到实验相互作用证据支持,占30.1%;这一比例明显高于仅由FlashPPI或仅由Pooled-AlphaFold3优先预测的蛋白质对。因此,将两种方法联合使用,可以进一步提高高置信度候选的富集程度。
对于FlashPPI得分较高而AlphaFold3界面置信度较低的蛋白质对,通常只包含较小的结合界面,这可能与FlashPPI采用界面中最大残基接触概率作为评分依据有关。相反,AlphaFold3得分较高而FlashPPI得分较低的蛋白质对,往往包含长度超过512个氨基酸的蛋白质,提示FlashPPI的最大序列长度限制可能影响对长蛋白质的判断。总体而言,FlashPPI以约快20,000倍的运行速度,获得了与Pooled-AlphaFold3相近且互补的蛋白质组筛选能力。

图4|FlashPPI与Pooled-AlphaFold3全基因组蛋白质相互作用筛选的比较。
跨蛋白质组的宿主—病毒相互作用发现
FlashPPI不仅可以预测同一蛋白质组内部的相互作用,也可以将病毒蛋白质组作为查询集合,将病毒与宿主蛋白质的并集作为候选集合,从而识别跨蛋白质组相互作用。研究人员分析了7,093对已知具有感染关系的病毒—宿主基因组组合,并重点寻找尚未表征的噬菌体蛋白质与细菌宿主蛋白质之间的相互作用。
由于宿主—病毒相互作用的得分分布可能不同于同一生物体内部的相互作用,研究人员采用了较低的初步接触阈值,同时要求候选宿主蛋白质的得分高于该病毒蛋白质与病毒自身蛋白质之间的预测得分。通过这种设计,可以优先选择更可能反映宿主劫持或宿主调控机制的跨物种相互作用。
在高分预测中,FlashPPI恢复了多种已知类型的噬菌体—宿主相互作用,包括噬菌体RNA聚合酶σ因子与宿主RNA聚合酶亚基、噬菌体核糖体蛋白与宿主核糖体蛋白、噬菌体抗毒素与细菌毒素,以及噬菌体分子伴侣与宿主伴侣蛋白之间的相互作用。
研究人员还展示了多个涉及低注释或未知功能蛋白质的案例。一个噬菌体酰基载体蛋白被预测与宿主FabZ相互作用,提示噬菌体可能通过该界面调节宿主脂质代谢。噬菌体硫氧还蛋白被预测与宿主甲硫氨酸亚砜还原酶A相互作用,表明病毒复制可能与宿主氧化还原途径发生联系。一个噬菌体假定蛋白被预测靶向宿主磷酸盐结合蛋白,可能有助于噬菌体在磷限制环境中获取营养。另一个噬菌体假定蛋白与宿主DUF2596结构域蛋白形成预测界面,说明即使缺少明确功能注释,FlashPPI也能够利用序列和界面信号发现潜在相互作用。
总体来看,这些预测不仅涉及经典的转录和翻译系统,还扩展到脂质代谢、氧化还原调控和营养获取通路。为了估计假阳性率,研究人员还将真实病毒—宿主组合与跨门随机配对的非宿主组合进行比较。在高置信度阈值下,33.8%的真实病毒—宿主组合至少产生一个高置信度蛋白质相互作用,而随机跨门组合中这一比例仅为7.6%,真实组合的富集程度约为4.4倍。

图5|跨蛋白质组发现宿主—病毒蛋白质相互作用。
用于快速、可解释微生物相互作用分析的FlashPPI服务器
为了使蛋白质组尺度相互作用预测更容易被实验和微生物研究人员使用,研究人员将FlashPPI整合到微生物基因组分析平台Seqhub中。用户可以直接上传基因组FASTA文件,在数分钟内生成并浏览完整蛋白质组的预测相互作用网络。
平台使用Louvain社区检测算法自动将过滤后的网络划分为多个功能子网络,并根据各子网络中最常见的功能注释关键词生成综合标签。这样,用户可以快速识别潜在的蛋白质复合物、代谢模块和细胞机器,而不必逐条检查所有预测边。
预测的相互作用网络还会与交互式基因组浏览器连接,使用户能够判断两个预测相互作用蛋白质的编码基因是否位于同一操纵子或相邻基因区域。基因组共定位信息有助于区分局部复合物和跨基因组区域的远距离相互作用,也可以作为评估预测可信度的独立证据。
当用户选择某一条相互作用边时,平台会显示FlashPPI预测的二维残基接触图,并将高置信度接触区域映射到两个蛋白质的氨基酸序列上。该界面同时展示蛋白质功能注释、Pfam结构域和基因组距离,从而把全蛋白质组网络、基因组背景、蛋白质结构域和残基水平界面证据整合在同一分析环境中。

图6|Seqhub平台上的交互式蛋白质组相互作用分析与可视化。
讨论
FlashPPI将蛋白质组尺度的蛋白质—蛋白质相互作用预测重新定义为线性时间的向量检索任务。通过将全局蛋白质表示对齐与精细的残基接触预测相结合,该方法绕过了传统全对全比较的二次计算瓶颈,在保持较高预测精度和界面可解释性的同时,将完整蛋白质组筛选时间从数天乃至数月缩短至数分钟。
近年来,以AlphaFold3为代表的全原子结构建模方法在多蛋白质复合物预测方面取得了极高的准确性,但这些模型仍难以直接用于无先验引导的全基因组发现。蛋白质组中的潜在蛋白质对数量非常庞大,即使单个结构预测任务速度不断提高,对所有组合执行结构共折叠仍会产生极高的计算和任务管理成本。FlashPPI填补了快速序列筛选与高精度结构建模之间的空白,可先在整个蛋白质组中快速定位少量最有可能相互作用的候选蛋白质对,再使用AlphaFold等高精度模型进行深入结构验证。
研究结果还表明,基因组语言模型学习到的跨蛋白质共进化信息,能够提供普通单蛋白质语言模型所缺乏的相互作用先验。将这种全局进化信号与残基水平的结构界面监督结合起来,是FlashPPI性能提升的重要原因。在线困难负样本挖掘、对比检索与接触预测的联合优化,以及结构域相互作用数据带来的训练集多样性,也共同增强了模型对未知蛋白质和未知生物体的泛化能力。
FlashPPI仍存在若干局限。首先,模型将输入蛋白质截断到512个氨基酸,因此对较长蛋白质或跨越多个结构域的大型界面可能预测不足。其次,共进化信号容易受到同源蛋白和旁系同源蛋白家族的干扰,在菌毛蛋白、毒素—抗毒素系统及其他快速扩增家族中,模型可能识别出家族层面的兼容界面,却无法准确确定天然配对伙伴。解决这类问题需要进一步整合基因共定位、操纵子结构、系统发育配对和物种特异性信息。
此外,FlashPPI预测的是具有物理接触可能性的蛋白质对,但高接触得分并不必然说明两个蛋白质会在特定细胞条件下真实结合。蛋白质表达水平、亚细胞定位、时间调控、环境状态和翻译后修饰等因素均可能影响实际相互作用。因此,预测结果应被视为高价值候选集合,并结合结构建模、生物信息学证据和实验验证进行确认。
总体而言,FlashPPI使系统性探索未知微生物基因组、病毒—宿主生态系统和复杂宏基因组群落中的蛋白质相互作用网络成为可能。将快速的蛋白质组级筛选与针对性高精度结构预测相结合,有望形成一种新的研究范式,用于解析微生物“生物学暗物质”、注释未知蛋白质功能,并发现不同生态系统中的新型分子机制和功能蛋白质网络。
整理 | DrugOne团队
参考资料
A. Cornman,M. Tranzillo,N.G. Zulaybar,I. Bouzit, & Y. Hwang, Linear-time prediction of proteome-scale microbial protein interactions, Proc. Natl. Acad. Sci. U.S.A. 123 (25) e2610619123,
https://doi.org/10.1073/pnas.2610619123 (2026).

内容为【DrugOne】公众号原创|转载请注明来源