首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >Nat. Mach. Intell. | 流匹配在生物信息学与计算生物学中的生成建模方法

Nat. Mach. Intell. | 流匹配在生物信息学与计算生物学中的生成建模方法

作者头像
DrugAI
发布2026-04-28 10:28:35
发布2026-04-28 10:28:35
240
举报

DRUGONE

在生物信息学与计算生物学中,许多核心问题可以被表述为“状态之间的映射学习”,例如将疾病状态的细胞转化为健康状态,或从已有数据分布外推生成新的生物样本。然而,这类映射往往难以通过人工建模获得,需要大量领域知识与实验资源支持。

生成式人工智能的发展为这一问题提供了新的解决路径。其中,流匹配(flow matching)作为一种新兴的训练范式,通过学习不同高维数据分布之间的连续映射,实现高效且可控的数据生成。该方法在分子建模、蛋白设计、核酸生成以及单细胞与多细胞系统建模中展现出广泛潜力。研究人员系统阐述了流匹配的理论基础,并综述其在小分子、蛋白质、DNA/RNA及其相互作用中的应用,以及在细胞层面建模中的进展,最终指向“AI虚拟细胞”的构建愿景。

生成式AI正在重塑计算生物学

近年来,生成式人工智能迅速推动了生命科学的发展。例如,蛋白质结构预测模型显著提升了结构解析能力,而基于大模型的自动化研究系统甚至可以辅助新分子的发现。

在这一背景下,生成模型逐渐成为建模生物系统的重要工具。从变分自编码器到生成对抗网络,再到扩散模型,这些方法能够从复杂数据分布中学习规律,并生成高质量样本。然而,这些方法在效率、可控性和理论统一性方面仍存在局限。

流匹配方法的提出,标志着生成建模进入一个新的阶段。其核心思想是直接学习从“简单分布”到“复杂分布”的连续映射,从而避免传统扩散模型中复杂的噪声反演过程。

图1:流匹配框架及其在生物信息学中的应用(分布A→分布B、蛋白与分子生成、虚拟细胞应用)。

流匹配的理论基础

流匹配的核心目标,是学习一个从源分布到目标分布的连续变换路径。与扩散模型不同,流匹配并不要求源分布必须是高斯分布,而可以是任意可采样分布,因此具有更高的灵活性。

在这一框架中,模型通过学习一个时间依赖的“向量场”,逐步将样本从初始分布运输到目标分布。这一过程可以理解为在高维空间中学习一条最优传输路径,使生成过程更加高效。

相比传统方法,流匹配具有几个关键优势。首先,它可以减少采样步骤,从而显著提升生成效率。其次,它允许直接控制分布之间的映射关系,使条件生成更加自然。再次,它能够与最优传输理论结合,从而获得更稳定的训练过程。

研究人员指出,这种方法本质上是对扩散模型的推广,在理论上更加通用,在实践中也表现出更好的效率与稳定性。

方法发展与技术演进

流匹配的发展建立在归一化流模型的基础之上。早期方法通过可逆变换实现概率分布建模,但计算复杂度较高。随后,连续归一化流引入连续时间建模,缓解了部分计算问题。

2022年前后,流匹配被正式提出,通过避免复杂的数值积分过程,大幅提升了模型训练与采样效率。随后几年,该方法迅速发展,并在分子建模与单细胞建模中取得突破。

图2:流匹配方法发展时间线(从normalizing flow到FM再到生物应用爆发)。

流匹配建模流程

在具体实现中,流匹配首先定义一个连接源分布与目标分布的“概率路径”。随后,模型学习一个向量场,用于描述数据在该路径上的运动方向。

训练过程中,研究人员通常采用条件化策略,将复杂的整体分布学习转化为对单个样本路径的学习,从而降低计算难度。

在生成阶段,模型从一个简单分布出发,通过逐步更新样本位置,最终得到目标分布中的新样本。这一过程可以通过数值方法高效实现。

对于离散数据(如DNA序列),流匹配需要额外设计,例如通过马尔可夫过程或连续近似方法实现建模。对于三维结构数据(如蛋白质),则需要引入几何对称性约束,以确保生成结果符合物理规律。

流匹配与其他生成模型的比较

在三维生物分子建模中,模型需要处理复杂的几何结构。传统扩散模型通常需要大量采样步骤,并且难以处理流形约束。

相比之下,流匹配通过直接学习连续路径,可以更自然地适应几何结构,并减少计算开销。此外,它还可以通过等变网络保持旋转与平移不变性,这在蛋白结构建模中尤为重要。

总体而言,流匹配在采样效率、建模灵活性和几何一致性方面表现出明显优势,但仍需要解决稳定性和路径设计等问题。

流匹配在生物信息学中的应用

流匹配的应用覆盖多个层级,从分子到细胞,逐步构建“虚拟生物系统”。

分子建模

在小分子设计中,流匹配能够高效生成满足化学约束的三维结构,相比扩散模型具有更快的采样速度。在蛋白质设计中,该方法能够在结构与序列空间中同时建模,实现更高效的结构生成与功能设计。

对于核酸(DNA/RNA),流匹配支持序列与结构的联合生成,使其在合成生物学和RNA药物设计中具有重要价值。

此外,在分子相互作用建模中,流匹配可以直接预测蛋白–配体复合物结构,从而替代传统对接方法。

分子动力学

生物分子具有动态特性,流匹配可以模拟构象变化路径,从而预测蛋白的动态行为。这一能力对于理解变构调控和结合机制具有重要意义。

单细胞建模

在单细胞层面,流匹配可用于建模细胞状态的动态变化。例如,从健康状态预测疾病状态,或模拟药物作用后的细胞响应。

该方法能够从快照数据中重建细胞发育轨迹,并在多条件下进行模拟,为精准医学提供支持。

多细胞与系统层面

进一步扩展后,流匹配可以用于多细胞系统建模,例如模拟细胞间相互作用和组织结构变化。这为构建“虚拟细胞”乃至“虚拟组织”提供了基础。

图3:流匹配在多尺度生物系统中的应用层级(分子→单细胞→多细胞→虚拟细胞)。

未来展望:迈向AI虚拟细胞

流匹配为生物系统建模提供了一种统一框架,使研究人员能够在不同尺度上学习复杂映射关系。从分子结构到细胞状态,再到组织层级,这一方法正在逐步连接不同层级的生物过程。

未来的重要方向在于多尺度整合,即将分子与细胞层面的模型统一起来,从而实现真正的系统级建模。同时,提升模型稳定性、增强可解释性以及结合实验验证,将是推动该领域发展的关键。

研究人员认为,随着数据规模与算法能力的持续提升,基于流匹配的生成模型有望成为构建“AI虚拟细胞”的核心技术,从而加速生物医学研究与药物发现。

整理 | DrugOne团队

参考资料

Morehead, A., Atanackovic, L., Hegde, A. et al. Flow matching for generative modelling in bioinformatics and computational biology. Nat Mach Intell (2026).

https://doi.org/10.1038/s42256-026-01220-0

内容为【DrugOne】公众号原创|转载请注明来源

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-04-24,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugOne 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档