
DRUGONE
折叠蛋白的设计近年来取得了显著进展。然而,许多蛋白或蛋白片段本质上是无序的,不具备稳定构象。此类内在无序蛋白(IDPs)的序列决定了一个巨大的空间构象集合,这种构象多样性正是其生物功能的来源。由于这种塑性与异质性,IDP 的设计仍然极具挑战性。研究人员提出了一种计算框架,可通过对分子模拟的可微反演(inversion)实现 IDP 的理性高效设计,从而近似捕获序列–构象集合关系。该方法能灵活设计具有目标构象尺寸、环与连接肽(loop 与 linker)、对物理化学刺激高度敏感的传感器,以及能与特定无序底物结合的结合体。总体而言,这一框架为生物大分子序列–构象–功能关系的普适设计提供了基础。

生物大分子的功能通常由序列所编码的三维构象集合决定。内在无序蛋白(IDPs)广泛存在于生命体中,在转录调控、信号传导、免疫及翻译等过程中发挥关键作用。与折叠蛋白不同,IDPs 缺乏稳定的三维结构,而是在多种非随机构象之间动态互转,其局部与整体性质塑造了细胞功能。
IDPs 通过嵌入的短线性基序(SLiMs)及模糊结合模式与多个靶标相互作用,也可作为连接结构域的柔性链接区调节邻近折叠域间的作用。IDPs 的构象对环境变化高度敏感,使其常充当细胞内的化学传感器。此外,IDPs 还能通过低亲和多价相互作用调控生物大分子的组装与凝聚,影响细胞信号与信息处理。当此类过程失调时,往往与多种疾病相关。
尽管数据库与机器学习方法推动了折叠蛋白的设计,但这些方法在无序蛋白设计上受限。IDPs 的构象集合庞大且动态,难以被单一结构预测所描述。近年来,粗粒化分子模拟为预测 IDP 的平均性质提供了可能,也可训练机器学习模型来预测如回转半径等特征。然而,当前方法常需分离的“正向”与“反向”算法,难以直接反演序列–构象集合的关系。
方法概述
研究人员提出了一种可微分的算法框架,能够直接反演分子模拟得到的序列–构象关系。该框架利用可微编程与随机梯度估计,在 GPU 上计算目标函数关于序列的梯度,从而基于模拟结果进行梯度下降优化。
在此过程中,蛋白序列被表示为连续概率分布矩阵,每个氨基酸位点以 20 维向量表示其残基概率。研究人员引入模拟采样与退火机制,使连续概率逐步收敛为离散序列。通过这种方法,可直接在分子模拟层面进行参数优化,而无需训练额外的深度学习模型。
图1展示了该流程:
(a) 序列决定构象集合与功能。
(b) 离散序列被松弛为连续表示并用于模拟。
(c) 通过梯度优化与退火获得目标属性序列。

结果
设计具有不同构象尺寸的 IDPs
研究人员首先尝试设计具有不同平均尺寸的 IDPs,如目标回转半径(Rg)或末端距离(Ree)。对于长度为50的序列,目标 Rg 设为20 Å。经过约50次迭代(2.5小时GPU计算),所得序列能稳定达到目标 Rg 值(约20.1 Å)。重复实验得到不同序列但具有相似 Rg,说明算法可找到多样化的等价解。
进一步,研究人员在不同长度(50与75)和不同力场(Mpipi-GG 与 HPS)下进行了优化,结果显示模型在多种条件下均能生成满足指定 Rg 或 Ree 的 IDP 序列。与基于机器学习的预测模型相比,该方法更准确,并能跨力场保持较好的一致性。

设计环与连接肽
接着,研究人员构建了更复杂的构象目标,旨在调控 Rg 与 Ree 的耦合关系,以获得更接近环或连接肽的行为。
对于环设计,结果显示序列两端富含芳香族氨基酸(W、Y),中间掺入脯氨酸与精氨酸以形成空间折叠。突变实验表明,破坏这一组合(如将W全换为Y)会削弱环结构的紧凑性。
对于连接肽设计,最佳序列由带正电的氨基酸(R、K)与脯氨酸交错组成,能有效延长链长并减弱终端接触。

设计具有序列约束的 IDPs
实际应用中,设计常受限于特定序列要求。研究人员扩展了框架,使其可引入任意约束条件。通过在损失函数中加入约束项(如保持无序、氨基酸比例、固定子序列等),可在优化中同时保持这些条件。
例如:

设计刺激响应型 IDP 传感器
研究人员进一步设计了能对环境刺激作出响应的 IDPs。其思路是通过模拟不同条件下的力场变化,使优化目标在两种状态(如低盐与高盐)下的 Rg 差异最大。
收缩型传感器:富含精氨酸与芳香族残基的序列在高盐环境中发生收缩;
膨胀型传感器:由正、负电荷区段组成的模块化序列在高盐下扩展。
当力场考虑温度或磷酸化效应时,模型可生成相应的收缩或膨胀响应序列。磷酸化通过改变电荷分布诱导局部构象变化。

设计可结合无序底物的结合肽
许多 IDPs 通过与其他无序区域结合发挥功能。研究人员修改模拟框架,使底物序列固定,而结合肽序列可学习优化。目标是最小化两条链的中心距离。
结果表明:

讨论
内在无序蛋白广泛存在于生命系统中,其序列编码着庞大的构象集合,形成多样化功能。研究人员提出的这一反演式设计框架,可直接在分子模拟层面优化序列,从而生成具有特定构象、结合能力或环境响应特性的 IDP。
该方法的优势包括:
研究人员指出,该框架的预测仍受限于力场精度及非平衡态处理能力。未来可结合实验数据对模拟参数进行联合优化,并与生成模型或强化学习方法结合,以提升 IDP 及其他生物分子设计的广度与准确性。
整理 | DrugOne团队
参考资料
Krueger, R.K., Brenner, M.P. & Shrinivas, K. Generalized design of sequence–ensemble–function relationships for intrinsically disordered proteins. Nat Comput Sci (2025).
https://doi.org/10.1038/s43588-025-00881-y
内容为【DrugOne】公众号原创|转载请注明来源