终于等到了！慕尼黑工大等出品扩散模型“红宝书”:从小白到专家,揭秘AIGC的通用数学本质！

AI生成未来

发布于 2025-12-21 14:51:51

1210

论文链接：https://arxiv.org/abs/2512.05092

亮点直击

统一的理论框架：本工作构建了一个自洽的理论体系，将连续状态空间（如图像生成的）和离散/分类状态空间（如文本生成的有限字母表）下的扩散模型统一在同一个数学透镜下。
生成元视角的引入：提出了基于无穷小生成元（Infinitesimal Generator）的通用框架，证明了随机微分方程（SDEs）和连续时间马尔可夫链（CTMCs）均可作为该框架的特例导出，从而统一了反向动力学和最大似然训练的推导。
多层次的教学结构：文章设计了针对新手、从业者和专家的不同阅读路径，并通过颜色编码（蓝色代表连续，红色代表离散，黄色代表通用）清晰地区分了不同领域的结论。

解决的问题

理论割裂：目前的扩散模型入门教程大多假设数据位于欧几里得空间（连续），很少阐明其与离散状态模型之间的联系，导致研究者难以跨领域理解。
缺乏系统性综述：缺乏一个能够同时涵盖从离散时间公式到连续时间极限，并连接现代基于生成元（Generator-based）视角的全面的理论综合。
离散扩散的门槛：对于熟悉连续扩散的专家来说，缺乏一条以类比为优先的路径来快速切入离散扩散模型的研究。

提出的方案

离散时间视角的构建：从最基础的马尔可夫核（Markov kernels）出发，通过前向加噪和学习反向动力学，建立离散时间的扩散视图。
连续时间极限的推导：
- 在空间中，推导其连续时间极限为随机微分方程（SDEs）及相关的 Fokker-Planck 方程。
- 在有限字母表空间中，推导其极限为连续时间马尔可夫链（CTMCs）及主方程（Master equations）。
变分推断的统一：展示了如何通过通用的变分处理导出证据下界（ELBO），该下界支撑了标准的训练损失函数。
前向腐蚀的选择：明确了前向腐蚀过程的选择（连续空间的高斯过程 vs 离散空间的结构化分类转移核，如均匀或掩码/吸收态）如何决定反向动力学和 ELBO 的形式。

应用的技术

随机过程：SDEs（随机微分方程）、CTMCs（连续时间马尔可夫链）、Wiener 过程（布朗运动）。
统计物理与微分方程：Fokker-Planck 方程（用于描述连续概率演化）、Master Equation（主方程，用于描述离散概率演化）。
算子理论：无穷小生成元（Infinitesimal Generator）及其伴随算子（Adjoint Operator）。
变分推断：ELBO（证据下界）、KL 散度、Girsanov 定理（用于路径度量的变换）。

达到的效果

知识体系的“路线图”：为现代扩散方法论提供了一个统一的路线图，涵盖了从连续域到离散序列的各种情况。
理论复用性：提炼了一套紧凑的可复用证明、恒等式和核心理论原则，使得读者能够在一个框架下理解高斯扩散和分类扩散（如 Masked Diffusion）。
教育意义：不仅适合初学者入门，也为资深研究员提供了深度的理论综合，填补了当前文献在通用状态空间扩散模型基础理论方面的空白。

内容概览

结构

本文提供了跨连续和离散状态空间的扩散模型的统一处理，从离散时间公式发展到连续时间极限，并建立了与现代基于生成元（generator-based）视角的联系。文章的结构旨在服务于具有不同背景和目标的多种受众：

图2：手稿的视觉路线图。建议阅读路径有三条：面向扩散模型新手的入门路径（绿色），熟悉离散时间扩散寻求连续时间理论的实践者阅读高级路径（棕色），以及寻求最一般理论框架的专家路径（紫色）。

针对扩散模型新手的阅读建议（图2中的入门路径）： 本工作建议新手从 第2章（扩散入门） 开始，该章节从概率建模的角度提供了直观感知和历史背景；然后通过 第3章（离散时间介绍） 学习基础的离散时间公式；参考 第6章（最大似然与ELBO） 了解训练目标；以及 第8章（隐空间扩散） 学习如何在隐空间中执行扩散。在熟悉这些核心材料后，连续时间公式（第4章 和 第5章）以及生成元视角（第7章）将提供有价值的理论深度和统一性。

针对熟悉离散时间扩散的从业者的阅读建议（图2中的进阶路径）： 如果读者熟悉离散时间扩散并对连续时间理论感兴趣，可以直接跳至 第5章（连续时间扩散），并在必要时参考 第3章（离散时间介绍） 和 第4章（连续至离散时间扩散），以联系连续时间与离散时间的内容。

针对寻求完整综述的专家的阅读建议（图2中的专家路径）： 整篇文档提供了统一的处理方式，对连续和离散状态空间进行了平行的推导。第7章 中的生成元形式体系提供了最通用的框架，将 SDEs 和 CTMCs 都归纳为特例，并提供了时间反转和最大似然训练的统一视图。

在整篇文章中，本工作保持了对连续和离散状态空间的并行处理，既强调了它们共享的结构，也突出了它们各自的特征。主要结果通过彩色框进行组织，以便于导航：

蓝色框 包含特定于连续状态空间的结果（例如：高斯扩散、SDEs、Fokker–Planck 方程）。
红色框 包含特定于离散状态空间的结果（例如：分类扩散、CTMCs、主方程）。
黄色框 包含适用于连续和离散设置的通用结果。

核心内容纲要

关键章节涵盖：

第2章：从概率建模角度出发的高层直观感知和历史动机。
第3章：具有显式前向/反向过程和参数化的离散时间公式。
第4章：从离散时间到连续时间的极限过程。
第5章：通过 Kolmogorov 方程、SDEs 和 CTMCs 构建的连续时间理论。
第6章：最大似然训练和 ELBO 的推导。
第7章：通过无穷小生成元及其伴随算子统一连续和离散扩散的通用框架，展示了 SDEs 和 CTMCs 如何作为特例出现。
第8章：在学习到的隐空间中执行扩散，以及针对离散数据的连续与离散方法之间的联系。

细节阅读原文，非常干货。

参考文献

[1] Foundations of Diffusion Models in General State Spaces: A Self-Contained Introduction

技术交流社区免费开放

这是一个高质量AIGC技术社群。

涉及 内容生成/理解（图像、视频、语音、文本、3D/4D等）、大模型、具身智能、自动驾驶、深度学习及传统视觉等多个不同方向。这个社群更加适合记录和积累，方便回溯和复盘。愿景是联结数十万AIGC开发者、研究者和爱好者，解决从理论到实战中遇到的具体问题。倡导深度讨论，确保每个提问都能得到认真对待。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2025-12-08，如有侵权请联系 cloudcommunity@tencent.com 删除

数学