Nat. Comput. Sci. | 内在无序蛋白的序列–构象–功能关系的通用设计框架

DrugOne

发布于 2025-10-14 16:44:35

3270

文章被收录于专栏：DrugOneDrugOne

DRUGONE

折叠蛋白的设计近年来取得了显著进展。然而，许多蛋白或蛋白片段本质上是无序的，不具备稳定构象。此类内在无序蛋白（IDPs）的序列决定了一个巨大的空间构象集合，这种构象多样性正是其生物功能的来源。由于这种塑性与异质性，IDP 的设计仍然极具挑战性。研究人员提出了一种计算框架，可通过对分子模拟的可微反演（inversion）实现 IDP 的理性高效设计，从而近似捕获序列–构象集合关系。该方法能灵活设计具有目标构象尺寸、环与连接肽（loop 与 linker）、对物理化学刺激高度敏感的传感器，以及能与特定无序底物结合的结合体。总体而言，这一框架为生物大分子序列–构象–功能关系的普适设计提供了基础。

生物大分子的功能通常由序列所编码的三维构象集合决定。内在无序蛋白（IDPs）广泛存在于生命体中，在转录调控、信号传导、免疫及翻译等过程中发挥关键作用。与折叠蛋白不同，IDPs 缺乏稳定的三维结构，而是在多种非随机构象之间动态互转，其局部与整体性质塑造了细胞功能。

IDPs 通过嵌入的短线性基序（SLiMs）及模糊结合模式与多个靶标相互作用，也可作为连接结构域的柔性链接区调节邻近折叠域间的作用。IDPs 的构象对环境变化高度敏感，使其常充当细胞内的化学传感器。此外，IDPs 还能通过低亲和多价相互作用调控生物大分子的组装与凝聚，影响细胞信号与信息处理。当此类过程失调时，往往与多种疾病相关。

尽管数据库与机器学习方法推动了折叠蛋白的设计，但这些方法在无序蛋白设计上受限。IDPs 的构象集合庞大且动态，难以被单一结构预测所描述。近年来，粗粒化分子模拟为预测 IDP 的平均性质提供了可能，也可训练机器学习模型来预测如回转半径等特征。然而，当前方法常需分离的“正向”与“反向”算法，难以直接反演序列–构象集合的关系。

方法概述

研究人员提出了一种可微分的算法框架，能够直接反演分子模拟得到的序列–构象关系。该框架利用可微编程与随机梯度估计，在 GPU 上计算目标函数关于序列的梯度，从而基于模拟结果进行梯度下降优化。

在此过程中，蛋白序列被表示为连续概率分布矩阵，每个氨基酸位点以 20 维向量表示其残基概率。研究人员引入模拟采样与退火机制，使连续概率逐步收敛为离散序列。通过这种方法，可直接在分子模拟层面进行参数优化，而无需训练额外的深度学习模型。

图1展示了该流程：

(a) 序列决定构象集合与功能。

(b) 离散序列被松弛为连续表示并用于模拟。

结果

设计具有不同构象尺寸的 IDPs

研究人员首先尝试设计具有不同平均尺寸的 IDPs，如目标回转半径（Rg）或末端距离（Ree）。对于长度为50的序列，目标 Rg 设为20 Å。经过约50次迭代（2.5小时GPU计算），所得序列能稳定达到目标 Rg 值（约20.1 Å）。重复实验得到不同序列但具有相似 Rg，说明算法可找到多样化的等价解。

进一步，研究人员在不同长度（50与75）和不同力场（Mpipi-GG 与 HPS）下进行了优化，结果显示模型在多种条件下均能生成满足指定 Rg 或 Ree 的 IDP 序列。与基于机器学习的预测模型相比，该方法更准确，并能跨力场保持较好的一致性。

设计环与连接肽

接着，研究人员构建了更复杂的构象目标，旨在调控 Rg 与 Ree 的耦合关系，以获得更接近环或连接肽的行为。

对于环设计，结果显示序列两端富含芳香族氨基酸（W、Y），中间掺入脯氨酸与精氨酸以形成空间折叠。突变实验表明，破坏这一组合（如将W全换为Y）会削弱环结构的紧凑性。

对于连接肽设计，最佳序列由带正电的氨基酸（R、K）与脯氨酸交错组成，能有效延长链长并减弱终端接触。

设计具有序列约束的 IDPs

实际应用中，设计常受限于特定序列要求。研究人员扩展了框架，使其可引入任意约束条件。通过在损失函数中加入约束项（如保持无序、氨基酸比例、固定子序列等），可在优化中同时保持这些条件。

例如：

加入“保持高无序”约束后，能获得既紧凑又保持无序的序列；
固定氨基酸比例（如正负电荷各占50%）后，模型能调节序列块状性，从而影响链长与结构松散度；
设计的所有传感器均含 N 端 6xHis 标签与起始密码子。

设计刺激响应型 IDP 传感器

研究人员进一步设计了能对环境刺激作出响应的 IDPs。其思路是通过模拟不同条件下的力场变化，使优化目标在两种状态（如低盐与高盐）下的 Rg 差异最大。

盐浓度传感器：

收缩型传感器：富含精氨酸与芳香族残基的序列在高盐环境中发生收缩；

膨胀型传感器：由正、负电荷区段组成的模块化序列在高盐下扩展。

温度与磷酸化传感器：

当力场考虑温度或磷酸化效应时，模型可生成相应的收缩或膨胀响应序列。磷酸化通过改变电荷分布诱导局部构象变化。

设计可结合无序底物的结合肽

许多 IDPs 通过与其他无序区域结合发挥功能。研究人员修改模拟框架，使底物序列固定，而结合肽序列可学习优化。目标是最小化两条链的中心距离。

结果表明：

对带正电的底物（如 R30），算法自动生成带负电的结合肽；
对已知的 FUS-LC 与 Whi3 低复杂度区域，模型成功识别出结合肽，并在模拟中表现出显著结合行为；
学习过程中出现陡峭的收敛转变，可能反映出协同性结合机制。

讨论

内在无序蛋白广泛存在于生命系统中，其序列编码着庞大的构象集合，形成多样化功能。研究人员提出的这一反演式设计框架，可直接在分子模拟层面优化序列，从而生成具有特定构象、结合能力或环境响应特性的 IDP。

该方法的优势包括：

可与多种力场兼容（如 Mpipi、HPS）；
可扩展至不同类型生物聚合物（蛋白、RNA、DNA）；
可结合机器学习与可微分编程实现更高效的优化。

研究人员指出，该框架的预测仍受限于力场精度及非平衡态处理能力。未来可结合实验数据对模拟参数进行联合优化，并与生成模型或强化学习方法结合，以提升 IDP 及其他生物分子设计的广度与准确性。

整理 | DrugOne团队

参考资料

Krueger, R.K., Brenner, M.P. & Shrinivas, K. Generalized design of sequence–ensemble–function relationships for intrinsically disordered proteins. Nat Comput Sci (2025).

https://doi.org/10.1038/s43588-025-00881-y

内容为【DrugOne】公众号原创｜转载请注明来源

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2025-10-08，如有侵权请联系 cloudcommunity@tencent.com 删除

nat