- 论文链接:https://arxiv.org/abs/2512.05092
亮点直击
- 统一的理论框架:本工作构建了一个自洽的理论体系,将连续状态空间(如图像生成的 )和离散/分类状态空间(如文本生成的有限字母表)下的扩散模型统一在同一个数学透镜下。
- 生成元视角的引入:提出了基于无穷小生成元(Infinitesimal Generator)的通用框架,证明了随机微分方程(SDEs)和连续时间马尔可夫链(CTMCs)均可作为该框架的特例导出,从而统一了反向动力学和最大似然训练的推导。
- 多层次的教学结构:文章设计了针对新手、从业者和专家的不同阅读路径,并通过颜色编码(蓝色代表连续,红色代表离散,黄色代表通用)清晰地区分了不同领域的结论。
解决的问题
- 理论割裂:目前的扩散模型入门教程大多假设数据位于欧几里得空间(连续),很少阐明其与离散状态模型之间的联系,导致研究者难以跨领域理解。
- 缺乏系统性综述:缺乏一个能够同时涵盖从离散时间公式到连续时间极限,并连接现代基于生成元(Generator-based)视角的全面的理论综合。
- 离散扩散的门槛:对于熟悉连续扩散的专家来说,缺乏一条以类比为优先的路径来快速切入离散扩散模型的研究。
提出的方案
- 离散时间视角的构建:从最基础的马尔可夫核(Markov kernels)出发,通过前向加噪和学习反向动力学,建立离散时间的扩散视图。
- 连续时间极限的推导:
- 在 空间中,推导其连续时间极限为随机微分方程(SDEs)及相关的 Fokker-Planck 方程。
- 在有限字母表空间中,推导其极限为连续时间马尔可夫链(CTMCs)及主方程(Master equations)。
- 变分推断的统一:展示了如何通过通用的变分处理导出证据下界(ELBO),该下界支撑了标准的训练损失函数。
- 前向腐蚀的选择:明确了前向腐蚀过程的选择(连续空间的高斯过程 vs 离散空间的结构化分类转移核,如均匀或掩码/吸收态)如何决定反向动力学和 ELBO 的形式。
应用的技术
- 随机过程:SDEs(随机微分方程)、CTMCs(连续时间马尔可夫链)、Wiener 过程(布朗运动)。
- 统计物理与微分方程:Fokker-Planck 方程(用于描述连续概率演化)、Master Equation(主方程,用于描述离散概率演化)。
- 算子理论:无穷小生成元(Infinitesimal Generator)及其伴随算子(Adjoint Operator)。
- 变分推断:ELBO(证据下界)、KL 散度、Girsanov 定理(用于路径度量的变换)。
达到的效果
- 知识体系的“路线图”:为现代扩散方法论提供了一个统一的路线图,涵盖了从连续域到离散序列的各种情况。
- 理论复用性:提炼了一套紧凑的可复用证明、恒等式和核心理论原则,使得读者能够在一个框架下理解高斯扩散和分类扩散(如 Masked Diffusion)。
- 教育意义:不仅适合初学者入门,也为资深研究员提供了深度的理论综合,填补了当前文献在通用状态空间扩散模型基础理论方面的空白。
内容概览
结构
本文提供了跨连续和离散状态空间的扩散模型的统一处理,从离散时间公式发展到连续时间极限,并建立了与现代基于生成元(generator-based)视角的联系。文章的结构旨在服务于具有不同背景和目标的多种受众:
图2:手稿的视觉路线图。建议阅读路径有三条:面向扩散模型新手的入门路径(绿色),熟悉离散时间扩散寻求连续时间理论的实践者阅读高级路径(棕色),以及寻求最一般理论框架的专家路径(紫色)。
图2:手稿的视觉路线图。建议阅读路径有三条:面向扩散模型新手的入门路径(绿色),熟悉离散时间扩散寻求连续时间理论的实践者阅读高级路径(棕色),以及寻求最一般理论框架的专家路径(紫色)。
针对扩散模型新手的阅读建议(图2中的入门路径): 本工作建议新手从 第2章(扩散入门) 开始,该章节从概率建模的角度提供了直观感知和历史背景;然后通过 第3章(离散时间介绍) 学习基础的离散时间公式;参考 第6章(最大似然与ELBO) 了解训练目标;以及 第8章(隐空间扩散) 学习如何在隐空间中执行扩散。在熟悉这些核心材料后,连续时间公式(第4章 和 第5章)以及生成元视角(第7章)将提供有价值的理论深度和统一性。
针对熟悉离散时间扩散的从业者的阅读建议(图2中的进阶路径): 如果读者熟悉离散时间扩散并对连续时间理论感兴趣,可以直接跳至 第5章(连续时间扩散),并在必要时参考 第3章(离散时间介绍) 和 第4章(连续至离散时间扩散),以联系连续时间与离散时间的内容。
针对寻求完整综述的专家的阅读建议(图2中的专家路径): 整篇文档提供了统一的处理方式,对连续和离散状态空间进行了平行的推导。第7章 中的生成元形式体系提供了最通用的框架,将 SDEs 和 CTMCs 都归纳为特例,并提供了时间反转和最大似然训练的统一视图。
在整篇文章中,本工作保持了对连续和离散状态空间的并行处理,既强调了它们共享的结构,也突出了它们各自的特征。主要结果通过彩色框进行组织,以便于导航:
- 蓝色框 包含特定于连续状态空间的结果(例如:高斯扩散、SDEs、Fokker–Planck 方程)。
- 红色框 包含特定于离散状态空间的结果(例如:分类扩散、CTMCs、主方程)。
- 黄色框 包含适用于连续和离散设置的通用结果。
核心内容纲要
关键章节涵盖:
- 第2章:从概率建模角度出发的高层直观感知和历史动机。
- 第3章:具有显式前向/反向过程和参数化的离散时间公式。
- 第4章:从离散时间到连续时间的极限过程。
- 第5章:通过 Kolmogorov 方程、SDEs 和 CTMCs 构建的连续时间理论。
- 第6章:最大似然训练和 ELBO 的推导。
- 第7章:通过无穷小生成元及其伴随算子统一连续和离散扩散的通用框架,展示了 SDEs 和 CTMCs 如何作为特例出现。
- 第8章:在学习到的隐空间中执行扩散,以及针对离散数据的连续与离散方法之间的联系。
细节阅读原文,非常干货。
参考文献
[1] Foundations of Diffusion Models in General State Spaces: A Self-Contained Introduction
技术交流社区免费开放
这是一个高质量AIGC技术社群。
涉及 内容生成/理解(图像、视频、语音、文本、3D/4D等)、大模型、具身智能、自动驾驶、深度学习及传统视觉等多个不同方向。这个社群更加适合记录和积累,方便回溯和复盘。愿景是联结数十万AIGC开发者、研究者和爱好者,解决从理论到实战中遇到的具体问题。倡导深度讨论,确保每个提问都能得到认真对待。