
DRUGONE
机器学习辅助定向进化(MLDE)被证明比传统定向进化(DE)更高效地发现高适应性蛋白质变体。然而,不同蛋白背景下 MLDE 性能的差异尚未被充分理解,导致实验室应用中缺乏最佳策略选择。研究人员系统评估了多种 MLDE 策略(包括主动学习与基于零样本预测器的聚焦训练),在 16 种不同的蛋白适应度景观中进行了对比。结果表明,MLDE 在 DE 难以导航的复杂景观中具有更大优势,尤其是当聚焦训练与主动学习结合时效果最佳。零样本预测器提供的进化、结构与稳定性先验信息显著提升了模型性能。研究总结了不同策略在不同景观条件下的适用性,并提出了可供蛋白质工程实践参考的策略选择指南。

蛋白质工程在疾病治疗、农业改良和绿色催化等领域中具有广泛应用。定向进化(DE)通过突变和筛选迭代来积累有益突变,但其过程往往耗时且资源消耗大,尤其在存在强烈上位性(epistasis)的适应度景观中难以高效导航。
因此,研究人员通过综合分析多种蛋白系统与功能类型,探讨 MLDE 的普适性与最佳实践。

结果
适应度景观特征
研究涵盖 16 种组合景观,来自 6 种蛋白系统,功能类型包括 蛋白结合 与 酶活性。研究人员通过两个指标量化景观复杂性:
结果显示,不同景观的可导航性差异显著,这直接影响 DE 与 MLDE 的表现。

MLDE 与聚焦训练的优势

零样本预测器的作用
研究人员评估了六类零样本预测器:
结果显示:
整体而言,聚焦训练中引入零样本预测器普遍优于随机训练集选择。

景观属性与策略选择
研究发现:
在活性变体比例低、上位性强的景观中,MLDE 相对 DE 优势最大;
讨论
研究结果表明,MLDE 在各类组合适应度景观中均优于或至少等同于传统 DE,尤其在高上位性和低活性变体比例的情况下优势更明显。零样本预测器的引入使聚焦训练进一步提升效果,结合主动学习可最大化性能。
主要结论:
研究人员提出的策略选择指南有助于在未来的蛋白质工程实验中优化方案,推动 ML 辅助定向进化在实际应用中的广泛采用。
整理 | DrugOne团队
参考资料
Li et al., 2025, Cell Systems 16, 101387
内容为【DrugOne】公众号原创|转载请注明来源