
DRUGONE
研究人员提出了一种新的搜索算法用于蛋白型(proteoform)的鉴定。该方法通过计算蛋白质质量图与谱质量图之间的最大规模误差校正比对,实现了对复杂蛋白型的高效识别。具体而言,研究人员结合了一种筛选算法与搜索算法,使得在不降低精度的前提下,搜索速度比已有方法提升 3.9 至 9 倍。通过构建模拟自上而下质谱数据的管道,该方法在模拟数据集上的准确率达到 95%,在真实注释数据集上的准确率不低于 97.1%。这一成果为大规模蛋白型解析提供了高效、精确的工具。

蛋白型是由基因通过序列变异、可变剪接以及翻译后修饰所产生的不同蛋白质形式, 在生物学过程中扮演着关键角色。自上而下质谱(Top-down MS)技术能够直接分析完整蛋白,揭示其全貌。随着质谱及完整蛋白分离技术的发展,自上而下分析正逐步从单一蛋白拓展到全蛋白组范围,为解析蛋白型功能、发现疾病分子标志物及潜在药物靶点提供了独特优势。
然而,蛋白型的鉴定面临巨大挑战:由于修饰类型和数量的组合爆炸,现有的主流软件工具往往不得不排除大量潜在蛋白型,以降低运行时间。这显著限制了复杂蛋白型的识别能力。
方法
研究人员基于蛋白型质量图(PMG)与谱质量图(SMG)的比对问题,引入了误差校正比对(Error-Correction Alignment, ECA)。该方法不仅考虑实验中峰值的质量误差,还在动态规划中对每个比对峰值进行误差修正,从而避免误差累积。研究人员在此基础上提出了 sTopMG 算法,并结合筛选方法以进一步加速。
此外,为了评估性能,研究人员开发了一条管道,将现有的 MaSS-Simulator(原用于自下而上质谱)改造为自上而下谱模拟器,生成带有不同修饰的模拟谱图,从而在可控条件下检验方法的准确性与效率。
结果
模拟数据
真实数据

筛选与组合方法
假发现率控制(FDR)

讨论
研究人员展示了一种基于误差校正比对的新型搜索策略,能够在识别复杂蛋白型时兼顾速度与准确性。通过模拟数据与真实数据的双重验证,sTopMG 表现出比现有方法更高的效率和精度。特别是,在抗体和细菌蛋白质组的案例中,该方法证明了其在不同数据集和实验条件下的广泛适用性。
未来的研究需要进一步探索更高效的解卷积方法,并在更多非抗体蛋白数据集上验证其普适性。研究人员认为,该方法为大规模、系统性的蛋白型分析提供了重要工具,并为疾病标志物发现和药物研发奠定了技术基础。
整理 | DrugOne团队
参考资料
Li, K., Shan, B., Xin, L. et al. Proteoform search from protein database with top-down mass spectra. Nat Comput Sci (2025).
https://doi.org/10.1038/s43588-025-00880-z
内容为【DrugOne】公众号原创|转载请注明来源