第一阶段:结构化初始化 利用基于轨迹蒸馏的方法(具体采用MeanFlow),将一个多步教师模型的结构先验知识“注入”到学生模型中。 随后,详细介绍我们流水线的第一阶段,其中基于MeanFlow的TD阶段为学生模型注入了强大的结构先验。 (2)因为所有TD方法都共享建模平均速度这一基本目标,我们选择MeanFlow作为它们的代表性实现。这个决定不仅是基于其最先进的性能。 更重要的是,MeanFlow明确且直接地对平均速度进行建模,提供了一个数学上优雅且稳健的实现。 基于前面的分析,采用MeanFlow作为我们TD阶段的蒸馏目标。尽管MeanFlow最初是为从零开始训练模型而提出的,但我们认为将其重新用作蒸馏框架可以提供一个方差更低的学习信号。
此外,MeanFlow训练过程从零开始,无需预训练、蒸馏或课程学习。 详细结果 在图1和表2(左侧)中,研究者将MeanFlow与现有的一步扩散/流模型进行了比较。 MeanFlow恒等式: 它刻画了平均速度u和瞬时速度v之间的本质联系。 现在引入可学习的模型u_θ,并希望它满足MeanFlow恒等式(公式(6))。 根据MeanFlow恒等式(公式6),我们有: 我们再次强调,vcfg和ucfg都是理论上的真实速度场,与神经网络参数无关。 此外,由公式(13)和MeanFlow恒等式导出: 这可以简化计算。
具体来说,论文提出了一种名为 MeanFlow 的理论框架,用于实现单步生成任务。其核心思想是引入一个新的 ground-truth 场来表示平均速度,而不是流匹配中常用的瞬时速度。 以下是该论文的技术细节(可参见机器之心之前的报道辅助理解:《何恺明团队又发新作: MeanFlow 单步图像生成 SOTA,提升达 50%》: 论文所提方法的实验结果如下。 MeanFlow 与之前的单步扩散 / 流模型进行了比较,总体而言,MeanFlow 的表现远超同类:它实现了 3.43 的 FID,与 IMM 的单步结果 7.77 相比,相对提升了 50% 以上。 尽管 MeanFlow 已经取得了显著的进步,但它在概念上仍然受限于迭代的 Flow Matching 和扩散模型框架。 MeanFlow 网络扮演着双重角色:它既要构建从噪声到数据的理想轨迹(这些轨迹是隐式存在但需要模型去捕捉的),又要通过「粗化」或概括这些场来简化生成过程。
MeanFlow 在单步生成建模中表现出了强大的性能。 此外,MeanFlow 是一个自成一体的生成模型:它完全从头开始训练,没有任何预训练、知识蒸馏或课程学习。该研究大幅缩小了单步扩散 / 流模型与多步研究之间的差距。 图 1 中,本文将 MeanFlow 与之前的单步扩散 / 流模型进行了比较,如表 2(左)所示。 总体而言,MeanFlow 的表现远超同类:它实现了 3.43 的 FID,与 IMM 的单步结果 7.77 相比,相对提升了 50% 以上。 在 2-NFE 生成中,MeanFlow 实现了 2.20 的 FID(表 2 左下)。
他们提出的 Pixel MeanFlow(pMF),在不借助潜在空间、不依赖多步采样的前提下,只用一次前向传播,就生成了质量相当扎实的图像。 后来出现的一致性模型、MeanFlow,开始尝试把“多步”压缩成“一步”;而 JiT 等工作,则直接挑战“像素空间是不是一定不可行”。问题是,这两条路始终没有真正汇合。 而真正承担物理与数学约束的,是损失函数,它仍然工作在 MeanFlow 的速度空间里。
最近在学习何凯明大佬的MeanFlow。借此机会,我对从 VAE、扩散模型、Flow Matching 到 MeanFlow 的技术思路进行了梳理,整理成技术文档。 MeanFlow建模的是平均速度:在一段时间间隔内的总位移除以时间间隔。 论文从平均速度的定义出发,推导出MeanFlow恒等式(MeanFlow Identity),定义平均速度与瞬时速度及其时间导数之间的关系。训练目标就是预测平均速度场。 所以如何减少 NFE,实现 1-NFE 生成就是MeanFlow解决的问题。 以下是论文给出的meanFlow的伪代码,通过以上推导应该能更好理解如何进行训练和一步生成了~参考:AIVAE论文:Auto-Encoding Variational BayesDDPM论文:Denoising
助力单步生成刷新 SOTA将 Dispersive Loss 应用于前沿的单步生成模型 MeanFlow 上。 在 ImageNet 256x256 上,MeanFlow-XL/2 的 FID 从 3.43 降至 3.21,刷新了单步扩散/流模型的 SOTA。
更令人惊讶的是,基于此发现,他们还构建了一种简单方法(代码实现少于 4 行),即 iREPA,其能在各种视觉编码器、模型大小和训练变体(如 REPA、REPA-E、Meanflow、JiT 等)中持续提高 先进配方兼容: 如下表所示,当结合 REPA-E(一种端到端调优 VAE 的方法)或 MeanFlow 等最新技术时,iREPA 依然能稳定地提供额外的性能增益。
此外,混元图像2.1还在17B参数量级的模型上解决了平均流模型(meanflow)的训练稳定性问题,将模型推理步数由100步蒸馏到8 步,显著提升推理速度的同时保证了模型原有的效果。