首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >Nat. Comput. Sci. | InstructNA: 基于核酸大语言模型的功能核酸与适配体从头设计

Nat. Comput. Sci. | InstructNA: 基于核酸大语言模型的功能核酸与适配体从头设计

作者头像
DrugOne
发布2026-03-25 16:28:05
发布2026-03-25 16:28:05
610
举报
文章被收录于专栏:DrugOneDrugOne

DRUGONE

功能核酸(functional nucleic acids, FNAs)是构建先进分子工具的重要组成部分,但由于核苷酸序列空间巨大以及实验筛选效率有限,其从头设计仍然十分困难。核酸大语言模型为功能核酸设计提供了新的可能,但其生成能力仍未被充分探索。研究人员提出InstructNA框架,通过结合核酸大语言模型和高通量SELEX实验数据,实现无需结构信息的功能核酸从头设计。该方法能够编码具有丰富语义信息的功能核酸表示,并稳定地生成新的核酸序列,从而设计出多种类型的功能核酸,例如转录因子结合DNA和蛋白结合适配体。实验结果表明,与传统HT-SELEX相比,InstructNA在两个蛋白靶标上分别产生了100%和200%更多的高亲和力适配体,同时生成序列与原始SELEX适配体的相似度最低仅为38%。这些结果表明InstructNA在功能核酸设计中的有效性和稳健性。

功能核酸是能够执行特定生物学功能的DNA或RNA分子,例如用于分子识别的适配体、调控基因表达的调控元件以及具有催化活性的DNAzyme或核酶。这类分子在化学、生物学、医学和材料科学等多个领域具有广泛应用潜力。然而,与蛋白质设计相比,功能核酸设计仍面临更大的挑战。蛋白质设计受益于丰富的三维结构数据以及较成熟的序列—结构—功能规律,而核酸分子通常具有高度的结构柔性,使得序列与功能之间的关系更加复杂。

传统的功能核酸筛选方法通常依赖SELEX实验,通过多轮筛选逐渐富集具有目标功能的序列。然而,该方法往往成本较高、成功率有限,并且初始文库只能覆盖序列空间的一小部分。此外,PCR扩增偏好还可能导致高扩增效率的序列被优先保留,而不一定是功能最优的序列。

计算方法近年来在生物分子设计领域取得重要进展,但许多方法依赖准确的三维结构预测。然而,核酸结构数据相对匮乏,这限制了结构驱动的设计策略。近年来,一些深度学习模型能够在无需结构信息的情况下探索适配体设计空间,但这些模型通常仅基于特定SELEX实验数据训练,因此难以学习更通用的序列—功能关系。

随着生物序列大语言模型的发展,研究人员开始探索其在核酸设计中的潜力。受到蛋白质语言模型成功应用的启发,研究人员开发了InstructNA框架,通过结合核酸语言模型和HT-SELEX数据,实现功能核酸的生成式设计。

方法概述

InstructNA构建了一个用于功能核酸设计的生成式框架。首先,从HT-SELEX实验中收集功能核酸序列作为训练数据,并对已有核酸大语言模型进行持续预训练,使其学习与功能核酸相关的序列语义信息。随后,在该模型基础上训练一个轻量级解码器,用于从潜在表示重建核酸序列。

在生成阶段,研究人员利用一种结合爬山策略和贝叶斯优化的HC-HEBO算法,在潜在空间中对序列表示进行优化,从而不断生成具有更优功能的核酸序列。通过实验验证与模型优化形成闭环反馈,使模型能够逐步产生功能更强的新序列。

图1|InstructNA功能核酸生成框架。

结果

InstructNA框架结构

InstructNA包含五个主要步骤:首先收集HT-SELEX实验数据;其次对预训练核酸语言模型进行持续训练以获得领域适配模型;然后训练解码器以实现序列重构;随后在潜在空间中利用HC-HEBO算法生成并优化新序列;最后通过实验验证并进一步迭代优化。该框架能够在无需结构信息的情况下设计多种类型的功能核酸。

研究结果表明,该模型能够学习到具有语义信息和功能相关性的序列表示,并在多个转录因子数据集中表现出良好的泛化能力。

InstructNA学习功能核酸序列表示

研究人员利用十种转录因子的HT-SELEX数据集对模型进行评估。结果显示,InstructNA在序列语义表示方面明显优于传统模型。模型在潜在空间中能够保持序列相似性关系,并在多项性能指标上优于RaptGen和DNABERT。

此外,通过线性分类器分析发现,InstructNA能够更准确地区分高结合特异性和低结合特异性的DNA序列。这表明持续预训练使模型能够更深入地理解序列与功能之间的关系。

InstructNA生成高特异性DNA序列

研究人员进一步利用HC-HEBO算法在潜在空间中优化DNA序列。与传统贝叶斯优化方法相比,HC-HEBO通过限制搜索范围能够更有效地生成具有更高结合特异性的序列。

在多个转录因子数据集上,InstructNA生成的DNA序列中有相当比例表现出比原始SELEX筛选序列更高的结合特异性。同时,这些新序列与原始序列之间仍保持较低的序列相似性,说明模型能够探索新的序列空间。

InstructNA设计高亲和力适配体

为了验证模型在实际分子设计中的应用能力,研究人员进一步将InstructNA用于蛋白结合适配体的设计。研究人员针对两个蛋白靶标LOX1和CXCL5开展HT-SELEX实验,并利用最后一轮筛选数据训练模型。

结果表明,在传统SELEX筛选得到的高频序列中,仅有少数序列表现出较强结合能力。而通过InstructNA生成的新适配体中,有多个序列表现出更高的结合亲和力。例如在LOX1靶标中,生成的适配体结合常数最低达到约13 nM,并优于原始SELEX获得的候选序列。

结构分析表明,部分生成序列在二级结构和结合界面上与原始适配体明显不同,但仍能够形成稳定结合,这表明InstructNA能够探索新的功能序列空间。

图2|InstructNA生成高亲和力适配体的实验验证。

讨论

本研究提出的InstructNA框架展示了核酸大语言模型在功能核酸设计中的潜力。通过结合HT-SELEX实验数据与生成式模型,研究人员能够在无需结构信息的情况下设计具有更高功能性的核酸序列。

与传统SELEX方法相比,该方法不仅能够提高高亲和力适配体的发现效率,还能够生成具有更高序列多样性的候选分子。这种生成—实验验证—模型更新的闭环流程,为功能核酸设计提供了一种新的研究范式。

未来,该框架可以结合更先进的核酸语言模型,并与三维结构预测和分子动力学模拟相结合,以进一步提升设计效率。此外,该方法还可扩展到其他类型的功能核酸,如DNAzyme和功能RNA分子,从而推动核酸分子工程的发展。

整理 | DrugOne团队

参考资料

Zhang, Z., Jiang, M., He, A. et al. De novo design of functional nucleic acids of aptamers. Nat Comput Sci (2026).

https://doi.org/10.1038/s43588-026-00965-3

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-03-12,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档