首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >终于等到了!慕尼黑工大等出品扩散模型“红宝书”:从小白到专家,揭秘AIGC的通用数学本质!

终于等到了!慕尼黑工大等出品扩散模型“红宝书”:从小白到专家,揭秘AIGC的通用数学本质!

作者头像
AI生成未来
发布2025-12-21 14:51:51
发布2025-12-21 14:51:51
1210
举报
  • 论文链接:https://arxiv.org/abs/2512.05092

亮点直击

  • 统一的理论框架:本工作构建了一个自洽的理论体系,将连续状态空间(如图像生成的 )和离散/分类状态空间(如文本生成的有限字母表)下的扩散模型统一在同一个数学透镜下。
  • 生成元视角的引入:提出了基于无穷小生成元(Infinitesimal Generator)的通用框架,证明了随机微分方程(SDEs)和连续时间马尔可夫链(CTMCs)均可作为该框架的特例导出,从而统一了反向动力学和最大似然训练的推导。
  • 多层次的教学结构:文章设计了针对新手、从业者和专家的不同阅读路径,并通过颜色编码(蓝色代表连续,红色代表离散,黄色代表通用)清晰地区分了不同领域的结论。

解决的问题

  1. 理论割裂:目前的扩散模型入门教程大多假设数据位于欧几里得空间(连续),很少阐明其与离散状态模型之间的联系,导致研究者难以跨领域理解。
  2. 缺乏系统性综述:缺乏一个能够同时涵盖从离散时间公式到连续时间极限,并连接现代基于生成元(Generator-based)视角的全面的理论综合。
  3. 离散扩散的门槛:对于熟悉连续扩散的专家来说,缺乏一条以类比为优先的路径来快速切入离散扩散模型的研究。

提出的方案

  1. 离散时间视角的构建:从最基础的马尔可夫核(Markov kernels)出发,通过前向加噪和学习反向动力学,建立离散时间的扩散视图。
  2. 连续时间极限的推导
    • 在 空间中,推导其连续时间极限为随机微分方程(SDEs)及相关的 Fokker-Planck 方程。
    • 在有限字母表空间中,推导其极限为连续时间马尔可夫链(CTMCs)及主方程(Master equations)。
  3. 变分推断的统一:展示了如何通过通用的变分处理导出证据下界(ELBO),该下界支撑了标准的训练损失函数。
  4. 前向腐蚀的选择:明确了前向腐蚀过程的选择(连续空间的高斯过程 vs 离散空间的结构化分类转移核,如均匀或掩码/吸收态)如何决定反向动力学和 ELBO 的形式。

应用的技术

  • 随机过程:SDEs(随机微分方程)、CTMCs(连续时间马尔可夫链)、Wiener 过程(布朗运动)。
  • 统计物理与微分方程:Fokker-Planck 方程(用于描述连续概率演化)、Master Equation(主方程,用于描述离散概率演化)。
  • 算子理论:无穷小生成元(Infinitesimal Generator)及其伴随算子(Adjoint Operator)。
  • 变分推断:ELBO(证据下界)、KL 散度、Girsanov 定理(用于路径度量的变换)。

达到的效果

  • 知识体系的“路线图”:为现代扩散方法论提供了一个统一的路线图,涵盖了从连续域到离散序列的各种情况。
  • 理论复用性:提炼了一套紧凑的可复用证明、恒等式和核心理论原则,使得读者能够在一个框架下理解高斯扩散和分类扩散(如 Masked Diffusion)。
  • 教育意义:不仅适合初学者入门,也为资深研究员提供了深度的理论综合,填补了当前文献在通用状态空间扩散模型基础理论方面的空白。

内容概览

结构

本文提供了跨连续和离散状态空间的扩散模型的统一处理,从离散时间公式发展到连续时间极限,并建立了与现代基于生成元(generator-based)视角的联系。文章的结构旨在服务于具有不同背景和目标的多种受众:

图2:手稿的视觉路线图。建议阅读路径有三条:面向扩散模型新手的入门路径(绿色),熟悉离散时间扩散寻求连续时间理论的实践者阅读高级路径(棕色),以及寻求最一般理论框架的专家路径(紫色)。
图2:手稿的视觉路线图。建议阅读路径有三条:面向扩散模型新手的入门路径(绿色),熟悉离散时间扩散寻求连续时间理论的实践者阅读高级路径(棕色),以及寻求最一般理论框架的专家路径(紫色)。

图2:手稿的视觉路线图。建议阅读路径有三条:面向扩散模型新手的入门路径(绿色),熟悉离散时间扩散寻求连续时间理论的实践者阅读高级路径(棕色),以及寻求最一般理论框架的专家路径(紫色)。

针对扩散模型新手的阅读建议(图2中的入门路径): 本工作建议新手从 第2章(扩散入门) 开始,该章节从概率建模的角度提供了直观感知和历史背景;然后通过 第3章(离散时间介绍) 学习基础的离散时间公式;参考 第6章(最大似然与ELBO) 了解训练目标;以及 第8章(隐空间扩散) 学习如何在隐空间中执行扩散。在熟悉这些核心材料后,连续时间公式(第4章第5章)以及生成元视角(第7章)将提供有价值的理论深度和统一性。

针对熟悉离散时间扩散的从业者的阅读建议(图2中的进阶路径): 如果读者熟悉离散时间扩散并对连续时间理论感兴趣,可以直接跳至 第5章(连续时间扩散),并在必要时参考 第3章(离散时间介绍)第4章(连续至离散时间扩散),以联系连续时间与离散时间的内容。

针对寻求完整综述的专家的阅读建议(图2中的专家路径): 整篇文档提供了统一的处理方式,对连续和离散状态空间进行了平行的推导。第7章 中的生成元形式体系提供了最通用的框架,将 SDEs 和 CTMCs 都归纳为特例,并提供了时间反转和最大似然训练的统一视图。

在整篇文章中,本工作保持了对连续和离散状态空间的并行处理,既强调了它们共享的结构,也突出了它们各自的特征。主要结果通过彩色框进行组织,以便于导航:

  • 蓝色框 包含特定于连续状态空间的结果(例如:高斯扩散、SDEs、Fokker–Planck 方程)。
  • 红色框 包含特定于离散状态空间的结果(例如:分类扩散、CTMCs、主方程)。
  • 黄色框 包含适用于连续和离散设置的通用结果。

核心内容纲要

关键章节涵盖:

  • 第2章:从概率建模角度出发的高层直观感知和历史动机。
  • 第3章:具有显式前向/反向过程和参数化的离散时间公式。
  • 第4章:从离散时间到连续时间的极限过程。
  • 第5章:通过 Kolmogorov 方程、SDEs 和 CTMCs 构建的连续时间理论。
  • 第6章:最大似然训练和 ELBO 的推导。
  • 第7章:通过无穷小生成元及其伴随算子统一连续和离散扩散的通用框架,展示了 SDEs 和 CTMCs 如何作为特例出现。
  • 第8章:在学习到的隐空间中执行扩散,以及针对离散数据的连续与离散方法之间的联系。

细节阅读原文,非常干货。

参考文献

[1] Foundations of Diffusion Models in General State Spaces: A Self-Contained Introduction

技术交流社区免费开放

这是一个高质量AIGC技术社群。

涉及 内容生成/理解(图像、视频、语音、文本、3D/4D等)、大模型、具身智能、自动驾驶、深度学习及传统视觉等多个不同方向。这个社群更加适合记录和积累,方便回溯和复盘。愿景是联结数十万AIGC开发者、研究者和爱好者,解决从理论到实战中遇到的具体问题。倡导深度讨论,确保每个提问都能得到认真对待。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-12-08,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI生成未来 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 解决的问题
  • 提出的方案
  • 应用的技术
  • 达到的效果
  • 内容概览
    • 结构
    • 核心内容纲要
  • 参考文献
  • 技术交流社区免费开放
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档