
DRUGONE
在过去几十年中,蛋白质工程逐渐发展为一个独立学科,其进步主要依赖于计算建模与高通量实验技术,并广泛应用于治疗、诊断、农业和制造等领域。近年来,人工智能的引入进一步加速了这一领域的发展,使研究人员能够在高维蛋白序列空间中更高效地寻找具有目标性质的蛋白。
人工智能带来的关键进展包括:蛋白序列、骨架结构乃至原子层级的生成模型;针对特定功能进行定制化设计的方法;用于蛋白性质预测与评分的模型;以及考虑合成成本的蛋白库设计策略。研究人员从统计学角度出发,对这些方法进行了统一框架下的梳理与分析。

蛋白质是生命体系的核心执行者,几乎参与所有生物过程,从能量代谢到基因调控,再到细胞结构维持。正因为如此,人类长期以来一直尝试改造天然蛋白,使其具备新的功能,甚至设计全新的蛋白分子。
通过蛋白质工程,研究人员可以开发新型药物与疫苗,培育抗逆性更强的作物,甚至实现更高效的生物制造。可以说,蛋白质工程是最具潜在社会影响力的科学领域之一。
自然进化在数十亿年中塑造了现有蛋白,而蛋白工程的目标则是在极短时间内(甚至未来可能仅需数天)实现定向设计。在人工智能出现之前,该领域主要依赖两条路径:定向进化与计算蛋白设计。
定向进化通过模拟自然进化机制,在实验中反复进行突变与筛选,能够直接优化蛋白功能,但依赖实验测量,成本高且探索范围有限。计算蛋白设计则基于物理模型,在计算空间中搜索结构与序列,效率更高,但由于能量函数的近似性,难以精确描述复杂动力学或催化机制。
这两种方法各有优缺点,通常需要结合使用,而人工智能的引入正在逐渐模糊它们之间的界限。
人工智能带来的核心改变
从本质上看,蛋白工程的核心问题可以归结为两个方面:
一是如何在庞大的蛋白序列空间中高效搜索;
二是如何准确评估候选蛋白的性质。
人工智能的优势正体现在这两个方面。一方面,它能够学习序列空间中的隐含规律,从而进行更“智能”的搜索,而非随机突变;另一方面,它可以构建快速而相对准确的性质预测模型,用于指导设计过程。
因此,AI驱动的蛋白工程本质上是在逼近一个目标:
从满足特定功能条件的概率分布中直接采样蛋白序列。
基于AI的搜索与条件生成模型
研究人员从最直观的优化过程出发,逐步引入生成模型的概念。
传统方法类似于随机搜索:对蛋白序列进行随机突变,并根据评分函数筛选优良变体。而在AI框架下,这一过程被生成模型所替代。模型通过不断学习哪些序列具有更高性能,从而逐渐掌握“搜索方向”,实现更加高效的优化。
进一步地,研究人员提出了条件生成模型的概念,即直接生成满足特定性质的蛋白序列。这一目标可以通过三种主要策略实现:
第一种方法是在模型训练阶段直接引入条件变量,使模型能够根据指定性质生成序列,但这需要提前定义所有目标性质,并依赖大量标注数据。
第二种方法是通过贝叶斯框架,将通用生成模型与性质预测模型结合,实现后验分布的采样。这种方法具有较强的灵活性,但计算成本较高。
第三种方法是在采样过程中动态引导生成过程,即通过性质预测模型对生成过程进行“实时调控”。这一策略常用于扩散模型等新型生成模型中。

图1:AI驱动蛋白设计的统计框架。
该图展示了蛋白设计可以被理解为从条件概率分布中采样序列的过程。研究人员通过将预训练的生成模型与实验数据构建的预测模型结合,使生成分布向高性能区域偏移,从而实现定向设计。
生成模型在蛋白工程中的应用
序列生成模型的发展
早期方法主要基于特定蛋白家族,通过多序列比对构建统计模型,从而生成类似天然进化的序列。这类方法依赖同源序列数据,并且难以实现精准控制。
随着数据规模的扩大,研究人员开始构建“泛蛋白模型”,即在大规模数据库上训练统一模型,使其能够跨蛋白家族学习规律。这类模型通常以蛋白语言模型形式存在,能够捕捉序列中的深层模式。
进一步的发展则是多模态模型,将序列、结构甚至功能信息统一建模,从而实现更强的表达能力。
骨架生成模型
在结构设计中,一种常见策略是先生成蛋白骨架结构,再根据结构设计序列。这类方法通常基于扩散模型,从随机噪声出发,逐步生成合理的三维结构。
这些模型可以根据特定约束进行条件生成,例如特定结合位点、对称性或功能区域,从而实现定向结构设计。
逆折叠模型
逆折叠模型用于根据给定结构生成匹配的氨基酸序列,是连接结构与序列设计的关键工具。
这些模型通常基于图神经网络或自回归模型,能够利用三维几何信息进行预测。然而,它们仍存在局限,例如无法充分考虑蛋白的多构象特性,以及序列–结构之间的多对多关系。
序列与结构的联合生成
近年来,研究人员开始探索同时生成序列与结构的联合模型。这类方法可以在原子层面进行建模,从而更自然地支持复杂条件约束,例如配体结合或功能位点设计。
尽管这一方向具有巨大潜力,但在技术上仍然具有较高挑战。
生成模型用于评分与表示学习
生成模型不仅可以用于生成新蛋白,还可以用于评估已有序列的合理性。这种“零样本预测”方法无需额外标注数据,即可对蛋白稳定性或功能进行评估。
此外,这些模型还可以提取蛋白表示,用于下游任务,如结构预测或性质预测。
蛋白库设计与实验优化
在实际应用中,单个蛋白设计往往不足以满足需求,研究人员通常需要设计蛋白库并进行实验筛选。
人工智能可以帮助优化蛋白库设计,使其在有限实验成本下覆盖更大的序列空间。同时,还可以结合主动学习策略,在实验过程中不断优化设计方向。
挑战与难点
尽管AI显著提升了蛋白设计能力,但不同任务的难度差异很大。
蛋白结合设计已经取得较大进展,在某些情况下成功率显著提升。然而,对于复杂体系,例如DNA、RNA或小分子结合,仍然面临数据不足的问题。
酶设计则被认为是最具挑战性的任务,因为其功能依赖精确的原子级构象与动态过程,目前仍难以完全通过AI实现。
此外,柔性区域和无序结构的建模仍然是当前方法的重要短板。
展望与讨论
当前蛋白工程高度依赖结构预测模型,例如AlphaFold,但这些模型主要基于天然蛋白数据,可能限制对新型蛋白的评估能力。
未来,一个重要方向是结合物理模型与人工智能模型,以实现更好的泛化能力。同时,高质量实验数据仍然是推动AI发展的关键资源。
另一个关键问题是评估体系的缺失。与结构预测不同,蛋白设计难以通过纯计算指标进行评价,往往需要实验验证,这限制了方法比较与进步速度。
因此,建立更合理的基准测试体系,以及结合实验验证的评估框架,将成为未来的重要方向。
整理 | DrugOne团队
参考资料
Jennifer Listgarten, Hanlun Jiang ,How artificial intelligence is reengineering protein engineering.Science392,159-166(2026).
DOI:10.1126/science.aec8444