在分析阶段,FreeControl 查询 T2I 模型生成低至一个种子图像,然后根据生成的图像构建线性特征子空间。 通过注意力和卷积特征注入进行图像到图像转换的免训练方法 ControlNet 等最新方法为用户提供了对文本到图像 (T2I) 扩散模型的细粒度空间控制。 在这项工作中,我们提出了 FreeControl,这是一种用于可控 T2I 生成的免培训方法,可同时支持多个条件、架构和检查点。 大量的定性和定量实验证明了 FreeControl 在各种预训练的 T2I 模型中的卓越性能。 我们使用一组预先训练和定制的模型,将这些案例输入到ControlNet、T2I Adapter和FreeControl中。图7显示了结果。
1)Consistency: T2I解码过程严重依赖文本。I2T编码中文本遗漏的语义信息,或T2I解码中对文本的误解,都可能导致严重的失真。这可能导致整个图像在语义层面与原图大相径庭。 尽管最近涌现了许多针对LMM的基准测试,但它们主要用于评估单独的I2T或T2I模型。因此,本文推出了第一个名为CMC-Bench的基准测试,旨在评估图像压缩任务上,I2T和T2I模型之间的协作能力。 为了公平比较I2T模型的性能,T2I模型固定使用表现最好的RealVis,以保证失真主要来自I2T过程;同理,在验证T2I模型时,I2T模型将固定为GPT-4o。 因此,考虑到优秀的表现和泛用性,推荐使用RealVis作为解码器端的T2I模型。 图 5 T2I 对于不同类别的原始图像,CMC-Bench也进行了进一步的对比。 未来的T2I模型应该拥有更复杂的控制机制,确保高质量的生成,同时保持与参考图像的一致性。
t1->arr[t1i].rchild,t2); } return result; }; int compare(TreeArr *t1,int t1i,TreeArr *t2,int t2i ){ if(t2i == 0) return 1; if(t1i == 0) return 0; if(t1->arr[t1i].num ! = t2->arr[t2i].num) return 0; return compare(t1,t1->arr[t1i].lchild,t2,t2->arr[t2i].lchild ){ if(t2i == 0) return 1; if(t1i == 0) return 0; if(t1->arr[t1i].num ! = t2->arr[t2i].num) return 0; return compare(t1,t1->arr[t1i].lchild,t2,t2->arr[t2i].lchild
这涉及 LLM 的 RLtuning,同时保持 T2I 模型冻结为黑匣子。然而,由于 T2I 模型没有与提示扩展网络协作进行调整,因此它可能很难适应生成的文本输入。 在 Parrot 中,使用多种质量奖励来联合优化提示扩展网络和 T2I 模型。这使得提示扩展网络和T2I模型能够协同生成更高质量的图像。 PEN 首先从提示扩展的有监督微调模型初始化,T2I 模型从预训练的扩散模型初始化。给定原始提示 c ,PEN 生成扩展提示 \hat{c} ,T2I 模型根据该扩展提示生成图像。 然后,通过 RL 策略梯度更新,将这组最佳图像用于 PEN 和 T2I 模型参数的联合优化。 为了通过 T2I 扩散模型实现帕累托最优解,Parrot 使用非支配排序算法选择性地使用非支配集中的数据点。这自然会鼓励 T2I 模型针对多奖励目标生成帕累托最优样本。
abs/2302.08453 code https://github.com/TencentARC/T2I-Adapter image-20230830101919618 ---- Abstract T2I 模型可以学习复杂的结构和有意义的语义 T2I-Adapters 将T2I内部知识和外部控制信号进行对齐,且冻结T2I模型参数 Contributions 灵活性:不同控制条件(空间颜色控制和复杂结构控制 )训练不同的适配器 可组合:将多个适配器组合实现多个条件同时控制 泛化性:T2I是冻结的,只需要对适配器进行微调 轻量化:77M params参数量,300M storage存储量 img Related
实验结果显示,现有的T2I模型在生成积极情感方面比生成消极情感更有效。 Text-to-Image Models 为了全面评估现有T2I模型的情感生成能力,并为评估MLLM的情感理解能力提供适当的视觉数据,作者选择了12个具有代表性的T2I模型。 4 Benchmark for T2I Models Experiment Setup T2I模型情感生成功能的评价包含两个关键维度:AGPIs的质量以及情感合成的准确性。 总体而言,大多数T2I模型的情感生成性能仍然不理想。 T2I模型的情感生成能力是根据AGPIs的质量和生成准确性来评估的。结果表明,现有的T2I模型在生成带有积极情感的高质量人像方面表现出色,但在生成负面情感方面存在一些局限性。
硬语义提示参考图像标签,旨在增强T2I模型的局部感知能力,而软语义提示则补偿硬语义提示,提供额外的表示信息。这些语义提示可以鼓励 T2I 模型生成详细且语义准确的结果。 首先,此类提示中的冗余介词和副词可能会将 T2I 模型的注意力分散到退化对象上。其次,由于LR图像退化的影响,容易出现语义错误。 即使不提供对象位置信息,人们发现T2I模型由于其底层语义分割能力也可以将语义提示与图像中的相应区域对齐。 SeeSR训练 图2(c)说明了受控T2I扩散模型的详细结构。鉴于 ControlNet在条件图像生成中的成功应用,我们将其用作用于 Real-ISR 目的的 T2I 模型的控制器。 推理时LR嵌入 SD 等预训练 T2I 模型在训练阶段不会将图像完全转换为随机高斯噪声。
认识到这一不足,多项研究旨在控制预训练的文本到图像(T2I)模型以支持新颖的条件。在这个综述中,我们对可控生成与T2I扩散模型的文献进行了全面调研,涵盖了这一领域的理论基础和实践进展。 这些场景在T2I生成过程中提出了重大挑战,因为这种视觉表征的细微之处和复杂性难以用文本形式封装。认识到这一差距,大量的研究开始转向整合超越文本描述界限的新颖条件到T2I扩散模型中。 起初,我们提供了T2I扩散模型背景的简要概述,并深入探讨了这些方法的理论基础,阐明了如何将新颖条件整合到T2I扩散模型中。这一探索阐明了先前研究的基本原理,有助于更深入地理解该领域。 这项任务的主要挑战在于如何使预训练的文本到图像(T2I)扩散模型学会模拟新类型的条件,并与文本条件一起生成,同时确保产生的图像质量高。 这篇综述旨在提供对当前可控T2I生成格局的全面理解,从而为这一动态研究领域的持续发展和扩展做出贡献。
场编辑阶段 考虑到T2I算法的蓬勃发展,本文选用现有的T2I模型(Instruct-Pix2Pix[3])为视频编辑提供编辑效果。 其他讨论 更换/改进T2I模型 本文还讨论了NVEdit其他有趣的性质,比如可通过更换或改进场编辑阶段调用的T2I模型,实现不同功能或更高质量的图像处理任务。 具体来说,由于NVEdit对视频的编辑效果高度依赖于T2I模型对图像的编辑性能,对T2I模型的改进可有效提升视频编辑效果。 此外,通过将T2I模型更换为其他下游的图像处理算法,NVEdit也能实现不同的视频下游任务。 此外,作者还尝试了将T2I模型替换为其他的图像处理算法(如R-ESRGAN [5])使NVEdit实现其他的视频下游任务,训练操作与用T2I模型的流程一样。
评估维度粗糙、覆盖不足:现有 T2I 基准测试多为粗粒度评估,缺乏对模型在各个语义子维度上的细致分析,限制了对模型能力的全面理解与比较。 多模态大语言模型(MLLM)辅助评估:利用 MLLM 的图文理解能力,构建并执行细粒度的 T2I 模型评估流程。 更具方向性的优化过程:相比传统点对点评分,PREF-GRPO 提供更稳定的优化信号,提升 T2I 模型在细节上的生成质量。 推动 T2I 模型训练范式转变:通过 PREF-GRPO 和 UNIGENBENCH,展示了更加稳定、高效、可控的 T2I 训练与评估新范式,为未来研究提供了实用工具与理论基础。 结论 PREF-GRPO,首个基于成对偏好奖励的 GRPO 方法,提供了更稳定的文本生成图像(T2I)强化学习范式。
本文针对现有的基于扩散模型的算法编辑结果存在明显抖动,且受限于显存限制,难以编辑长视频的缺陷,提出了一种显存高效的长视频编辑算法NVEdit,基于现有的T2I模型实现帧间一致的长视频编辑。 具体来说,本文以隐式神经表示显存高效地编码视频信号,并用T2I模型优化神经网络参数,注入编辑效果,实现帧间一致的长视频编辑。 在场编辑阶段,作者逐帧地让神经网络渲染出图片,调用现有的T2I模型对渲染帧进行文本驱动编辑,以编辑帧为伪GT优化网络参数,注入编辑效果。 视频拟合阶段。 考虑到T2I算法的蓬勃发展,本文选用现有的T2I模型(Instruct-Pix2Pix[3])为视频编辑提供编辑效果。 如图所示,作者逐帧渲染图像,并以原视频对应帧和用户指令为条件,调用T2I模型生成编辑帧。编辑帧可作为伪GT进一步优化上一阶段训练好的神经视频场,从而注入编辑效果。
人类可以通过迭代探索快速识别不同文本到图像(T2I)模型的特征。这使他们能够有效地将高级生成想法转化为有效的 T2I 提示,从而生成良好的图像。 Idea2Img 循环生成修订的 T2I 提示来合成草稿图像,并为提示修订提供方向反馈,这两者都取决于其对探测的 T2I 模型特征的记忆。 迭代的自我完善为 Idea2Img 带来了优于普通 T2I 模型的各种优势。
Steenkiste, Ranjay Krishna, Cyrus Rashtchian 文章链接:https://arxiv.org/abs/2311.17946 摘要: 尽管取得了广泛的成功,文本到图像模型(T2I 我们引入了 DreamSync,这是一种与模型无关的训练算法,旨在改进 T2I 模型以忠实于文本输入。 DreamSync 使用这种洞察力来训练 T2I 模型,无需任何标记数据;它使用自己的一代改进了 T2I 模型。首先,它提示模型为给定的输入文本生成多个候选图像。 选择后,我们使用 LoRA 迭代微调 T2I 模型,以引导其生成到选定的最佳生成代。DreamSync 不需要任何额外的人工注释。模型架构变化,或强化学习。 尽管很简单,DreamSync 却提高了两种基于扩散的 T2I 模型的语义对齐和审美吸引力,这已通过多个基准测试(TIFA +1.7%、DSG1K +2.9%、VILA 美学 +3.4%)和人类评估得到证明
新智元报道 编辑:LRS 【新智元导读】利用文本生成图片(Text-to-Image, T2I)已经满足不了人们的需要了,近期研究在T2I模型的基础上引入了更多类型的条件来生成图像,本文对这些方法进行了总结综述 鉴于这种不足,许多研究旨在控制预训练文本到图像(T2I)模型以支持新条件。 在此综述中,来自北京邮电大学的研究人员对关于具有 T2I 扩散模型可控性生成的文献进行了彻底审查,涵盖了该领域内理论基础和实际进展。 如何在T2I扩散模型中引入新的条件 细节请参考论文原文,下面对这些方法机理进行简要介绍。 随后,作者揭示了将新颖条件引入T2I扩散模型的机制。 然后,作者总结了先前的条件生成方法,并从理论基础、技术进展和解决方案策略等方面对它们进行分析。
https://arxiv.org/abs/2302.08453v1 项目代码:hhttps://github.com/tencentarc/t2i-adapter 摘要: 大规模文本到图像 (T2I 在本文中,我们的目标是“挖掘”出 T2I 模型隐式学习的能力,然后显式地使用它们来更细粒度地控制生成。 具体来说,我们建议学习简单和小型的 T2I-Adapters 以对齐内部知识具有外部控制信号的T2I模型,同时冻结原有的大型T2I模型。
I2V-Adapter 大幅减少了可训练参数(最低可达 22M,为主流方案例如 Stable Video Diffusion [1] 的 1%),同时具备与 Stable Diffusion [2] 社区开发的定制化 T2I 现有大多数方案都基于预训练的 T2I 模型(例如 Stable Diffusion 和 SDXL [6])加入时序模块对视频中的时序信息进行建模。 受到 AnimateDiff [7] 的启发,这是一个最初为定制化 T2V 任务而设计的模型,它通过引入与 T2I 模型解耦的时序模块建模了时序信息并且保留了原始 T2I 模型的能力,能够结合定制化 T2I 前者由于图像编码器难以捕获底层信息会导致生成视频的 ID 变化,而后者往往需要改变 T2I 模型的结构与参数,训练代价大且兼容性较差。 为了解决上述问题,研究者提出了 I2V-Adapter。
二、本文方法 本文提出的InteractDiffusion整体框架如下图所示,为了实现在现有T2I扩散模型实现即插即入的功能,作者将交互模块独立定义为扩散模型中的一个子模块(Interaction Module 由于现有的Transformer 块由自注意力层和交叉注意力层组成,因而作者在它们之间设计了一个新的交互自注意力层,以将交互token嵌入到现有的T2I模型中。 T2I模型中,因此需要保证在注入过程中不损失原有模型蕴含的先验知识。 在具体操作时, 作者对视觉和交互token 进行拼接后再计算自注意力来得到整体的交互关系: 随后作者将InToken、InBedding 和 InFormer 结合起来形成即插即用的交互模块,并集成在T2I 四、总结 本文针对现有条件T2I扩散模型进行了改进,提出了一种即插即用的交互模块,称为InteractDiffusion。
官网:https://www.damodel.com/home 帮助文档:https://doc.damodel.com/ 前言 随着人工智能的迅速发展,文本生成图像(Text-to-Image, T2I 在众多T2I模型中,SD3(Stable Diffusion的高级版本)凭借其卓越的图像生成质量和灵活性脱颖而出,结合ComfyUI直观易用的界面,使得T2I技术的使用门槛大大降低。
文本到图像(Text-to-Image, T2I)生成任务近年来取得了飞速进展,其中以扩散模型(如 Stable Diffusion、DiT 等)和自回归(AR)模型为代表的方法取得了显著成果。 数据 KD:利用当前 SOTA 的 T2I 模型,生成包含丰富语义的高质量合成图像数据集。 实验分析 作者通过实验对比了 LightGen 与现有的多种 SOTA 的 T2I 生成模型,使用 GenEval 作为 benchmark 来验证我们的模型和其他开源模型的性能。 总结与展望 LightGen 研究有效地降低了 T2I 模型训练的资源门槛,证明了通过关注数据多样性、小型化模型架构和优化训练策略,可以在极少量数据和计算资源的情况下达到最先进模型的性能表现。
对于 Omini-RewardBench和 MMRB2,评估了 T2I 任务。 这种统一的输入-输出公式支持图像到文本(I2T)理解和文本到图像(T2I)生成。 本文将理解操作化为 I2T,将生成操作化为 T2I,并利用模型较强的 I2T 理解能力来监督和改进其较弱的 T2I 生成能力。 UniCorn 图 4:UniCorn 框架概述。 因此,本文遵循广泛采用的“LLM 作为裁判”范式,使用 0 到 10 的离散分数制定所有 T2I 任务的奖励评估。 这三种数据类型与高质量的自我采样 T2I 生成数据相结合,用于微调 UMM。请注意,整个重构过程是基于规则的,不会引入任何复杂性。