作者:Zihan Zhou,Shilin Lu等 解读:AI生成未来

论文地址:https://arxiv.org/abs/2510.02253 项目代码:https://github.com/Edennnnnnnnnn/DragFlow 项目数据:https://huggingface.co/datasets/Edennnnn/ReD_Bench
亮点直击
拖拽式图像编辑(Drag-based Image Editing)允许用户通过简单的“拖点”交互,实现对图像内容的精准操控,通过提供直接的空间位置干预,该方法在编辑控制性上远超文本引导。然而,现有方法大多基于 UNet 架构基础模型,如 Stable Diffusion (SD),普遍存在两大瓶颈:
研究结果认为问题的根源在于 UNet 与 DiT 网络层的特征图粒度存在本质差异:
架构类型 | 特征图 (Feature Maps) | 与图像拖拽任务的关联 |
|---|---|---|
UNet (SD 1.x/2.x) | 经过瓶颈层高度压缩,空间紧凑,单个特征点聚合了广阔感受野的高级语义信息。 | 传统“点”级别监督信号(基于Motion Supervision 与 Point Tracking)足够提供强语义约束,在多数情况下可行。 |
DiT (FLUX.x) | 特征图精细且空间精确,每个点对应更窄的感受野,保留了更多局部细节而非全局语义。 | 传统“点”级别监督信号所能提供的语义较弱,难以为更复杂的 DiT 范式优化提供有效特征引导,导致编辑失败或效果退化。 |
通过可视化(如下图)可以发现,UNet 的特征多是模糊的语义团块,这意味着我们即使在 UNet 使用“点”级别操作,依旧可以有效干预周遭语义信息;而相比之下缩放到同样大小的 DiT 特征却能够清晰勾勒出物体的精细轮廓,如果依旧对后者进行“点”级别的追踪和约束,将难以有效带动区域特征编辑,如同盲人摸象。

为了攻克这一难题,我们提出了 DragFlow,一个专为 DiT 设计的 基于区域监督的 (region-based) 精确编辑框架。其核心创新包括:
DragFlow 的完整框架如下图所示,它整合了 MLLM 辅助交互、IP-Adapter ID注入、Key & Value Caching,以及核心部分基于仿射的区域拖拽优化工作流。

DragFlow 的设计初衷是:将拖拽视为区域的整体变换,而非孤立点的位移。这套全新的范式,从监督方式、背景处理到身份保持,都为 DiT 的特性进行了深度定制。
DragFlow 的核心是创新的区域级监督策略。它不再依赖于在每一步迭代中追踪手柄点的位置坐标,而是将用户指定的源区域(Source Region)作为一个整体,通过仿射变换逐步“移动”到目标位置。
1. 迭代式潜在向量优化 (Iterative Latent Optimization)
整个拖拽过程通过优化噪声化的潜在向量 来实现。优化的目标是让经过仿射变换后的目标区域 的特征,与优化开始前源区域 的特征保持一致。
损失函数设计如下:

其中:
2. 仿射变换驱动的掩码传播 (Affine Transformation for Mask Propagation)
目标掩码 由源掩码 经过一个逐步变化的仿射变换 得到。变换参数 根据编辑类型(平移、形变或旋转)和迭代步数 线性插值生成。

这种设计的两大优势:
仅仅有好的监督信号还不够,在强大的 DiT 模型上,如何保持背景不变和主体身份一致,是更大的挑战,尤其是在有“反演漂移”问题的 CFG-distilled 模型上。
1. 背景保持:从“软约束”到“硬隔离”传统方法使用辅助损失项 来约束背景区域,但这在 DragFlow 中效果不佳,因为它会与拖拽损失 相互竞争,且对反演误差敏感。
我们的方案是施加硬约束:在每次梯度更新后,直接将背景区域的潜在向量重置为原始未编辑分支的值:

其中:
2. 主体一致性:适配器增强反演
传统的键值注入(KV injection)在 FLUX 这类 CFG-distilled 模型上效果不佳。我们发现,FLUX 的反演漂移问题比 SD 更严重(见下表)。

为此,我们引入了适配器增强反演:在反演和生成过程中,注入一个预训练好的开放域适配器(如 IP-Adapter)所提取的主体身份表征。这无需任何额外训练,就能显著提升反演质量和编辑后的主体一致性。
如下图所示,通过额外在反演和取样过程中加入 IP-Adapter Embedding 后,人物身份的保持效果远超单独使用 KV 注入。

为了全面评估 DragFlow,我们构建了一个新的区域级拖拽基准 **ReD Bench**,它包含更丰富的区域-区域对应、任务类型标签(平移、形变、旋转)和意图描述。同时,我们也在现有的 DragBench-DR 上进行了兼容测试。
如 Table 2 所示,DragFlow 在基于两大基准的多个指标上取得了最佳表现:

下图展示了 DragFlow 与其他现有方法的视觉定性比较。无论是复杂的结构(建筑),非刚性形变(动物),还是精细内容(钻井平台),DragFlow 都能精准地执行拖拽指令,同时保持场景的整体连贯性和真实质感。相比之下,其他现有方法或伴随严重结构扭曲、变换失败、或意图误解等失败情况出现。

我们通过逐一添加 DragFlow 的核心组件来验证其有效性。结果(见 Table 3 和 Figure 6)清晰地表明:
定性分析(如下图)展示了各项消融操作的前后效果对比:

同时,消融实验中使用的多项量化指标也证实了 DragFlow 的各组件都是不可或缺且协同增效的:

DragFlow 是拖拽式编辑领域的一次范式革命,其贡献与优势可总结为:
DragFlow 不仅在各项指标上全面超越现有方法,更重要的是,它为如何利用新一代 DiT 生成架构的强大先验来进行精细化、可控的图像编辑,指明了一条清晰而有效的道路。
[1] DragFlow: Unleashing DiT Priors with Region Based Supervision for Drag Editing