Nat. Comput. Sci. | 基于自上而下质谱的蛋白数据库蛋白型搜索

DrugAI

发布于 2026-01-06 12:56:54

1530

文章被收录于专栏：DrugAIDrugAI

DRUGONE

研究人员提出了一种新的搜索算法用于蛋白型（proteoform）的鉴定。该方法通过计算蛋白质质量图与谱质量图之间的最大规模误差校正比对，实现了对复杂蛋白型的高效识别。具体而言，研究人员结合了一种筛选算法与搜索算法，使得在不降低精度的前提下，搜索速度比已有方法提升 3.9 至 9 倍。通过构建模拟自上而下质谱数据的管道，该方法在模拟数据集上的准确率达到 95%，在真实注释数据集上的准确率不低于 97.1%。这一成果为大规模蛋白型解析提供了高效、精确的工具。

蛋白型是由基因通过序列变异、可变剪接以及翻译后修饰所产生的不同蛋白质形式，在生物学过程中扮演着关键角色。自上而下质谱（Top-down MS）技术能够直接分析完整蛋白，揭示其全貌。随着质谱及完整蛋白分离技术的发展，自上而下分析正逐步从单一蛋白拓展到全蛋白组范围，为解析蛋白型功能、发现疾病分子标志物及潜在药物靶点提供了独特优势。

然而，蛋白型的鉴定面临巨大挑战：由于修饰类型和数量的组合爆炸，现有的主流软件工具往往不得不排除大量潜在蛋白型，以降低运行时间。这显著限制了复杂蛋白型的识别能力。

方法

研究人员基于蛋白型质量图（PMG）与谱质量图（SMG）的比对问题，引入了误差校正比对（Error-Correction Alignment, ECA）。该方法不仅考虑实验中峰值的质量误差，还在动态规划中对每个比对峰值进行误差修正，从而避免误差累积。研究人员在此基础上提出了 sTopMG 算法，并结合筛选方法以进一步加速。

此外，为了评估性能，研究人员开发了一条管道，将现有的 MaSS-Simulator（原用于自下而上质谱）改造为自上而下谱模拟器，生成带有不同修饰的模拟谱图，从而在可控条件下检验方法的准确性与效率。

结果

模拟数据

研究人员构建了 100 个模拟谱图，并与大肠杆菌数据库进行比对。
sTopMG 能够在 96 个案例中找到正确的片段，而传统方法 TopMG 仅识别出 50 个，TopMGFast 更低。
在准确率上，sTopMG 达到 95%，显著优于现有方法。

真实数据

在抗体 Waters 和 HB100 的真实数据集中，使用 FLASHDeconv 解卷积后的谱图，sTopMG 在固定误差容差条件下的准确率达到 97.1%。
与主流工具 TopPIC 比较，sTopMG 在多种设置下均表现出更高的正确匹配率。
研究人员还发现，解卷积工具的选择对最终结果影响很大，提示解卷积是蛋白型识别中的关键步骤。