首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏DeepHub IMBA

    通过短文本生成图像

    文本图像(Text-to-Image, TTI)是深度学习的新兴学科之一,专注于从基本文本表示生成图像。 从文本生成图像:挑战和注意事项 有几个相关的挑战传统上阻碍了TTI模型的发展,但它们中的大多数可以归类为以下类别之一? 在文本图像生成技术中,生成包含多个具有语义意义的对象的更复杂的场景仍然是一个重大的挑战。 gan通常由两种机器学习模型组成——一个生成器从文本描述生成图像,另一个判别器使用文本描述判断生成图像的真实性。生成器试图让假照片通过鉴别器;另一方面,辨别器不希望被愚弄。 只要看看生成图像的质量和它们与原始句子的对应关系就知道了。 创建给定叙述的视觉表示的能力将是下一代文本图像分析深度学习模型的一个重要重点。

    1.2K20发布于 2021-08-20
  • 来自专栏DeepHub IMBA

    使用扩散模型从文本生成图像

    需要占用的资源更少,这样我们也可以在自己的电脑中使用它生成高质量的图片。 在这篇文章中,将展示如何使用抱脸的扩散包通过文本生成图像,还有就一个一个不好的消息,因为这个模型的出现google的colab可能又要增加一些限制了。 从 DALLE 到Stable Diffusion 我们前面的文章也介绍过 OpenAI 的 DALLE-2 模型还有他的开源实现,它可以让我们从文本中创建高质量的图像。 使用diffusers 从文本生成图像 首先,使用扩散器包从文本生成图像我们首先要有一个GPU,这里就是用google 的colab,但是可能colab以后会对这样的应用进行限制了,这个我们在最后加以说明 有了gpu下面就是要安装包: diffusers==0.2.4 — 这是我们主要的包 transformers — 这个是抱脸的成名的基础包 scipy — 科学计算的 ftfy — 处理一些文本编码问题

    1.8K10编辑于 2022-11-11
  • 来自专栏数据派THU

    使用扩散模型从文本生成图像

    来源:DeepHub IMBA本文约1400字,建议阅读5分钟本文将展示如何使用抱脸的扩散包通过文本生成图像。 在这篇文章中,将展示如何使用抱脸的扩散包通过文本生成图像,还有就一个一个不好的消息,因为这个模型的出现google的colab可能又要增加一些限制了。 从 DALLE 到Stable Diffusion 我们前面的文章也介绍过 OpenAI 的 DALLE-2 模型还有他的开源实现,它可以让我们从文本中创建高质量的图像。 使用diffusers 从文本生成图像 首先,使用扩散器包从文本生成图像我们首先要有一个GPU,这里就是用google 的colab,但是可能colab以后会对这样的应用进行限制了,这个我们在最后加以说明 有了gpu下面就是要安装包: diffusers==0.2.4 — 这是我们主要的包 transformers — 这个是抱脸的成名的基础包 scipy — 科学计算的 ftfy — 处理一些文本编码问题

    1.8K10编辑于 2022-09-20
  • 来自专栏DevOps

    AIGC:从文本生成图像(DALLE ,Stable Diffusion)

    二、使用diffusers package从文本prompt生成图像 首先,使用diffusers包从文本生成图像,我们要有一个GPU,可以使用google的colab,但是常规的colab由于RAM有限制 diffusers==0.2.4 — 这是我们主要使用的包 transformers — 这个是Hugging Face的成名基础包 scipy — 科学计算的 ftfy — 处理一些文本编码问题

    51810编辑于 2024-03-29
  • 来自专栏Python编程 pyqt matplotlib

    Diffusion Modes由文本生成图像(AI绘画)

    Diffusion Modes(扩散模型)是当前最火热的由文本生成图像的模型。 Stability.ai 公司提供了在线文本生成图像的网站 DreamStudio 下面是我输入文本后由扩散模型生产的图片: cat beatiful girl, snow beatiful woman

    93720编辑于 2022-11-18
  • 来自专栏技术成长

    SDXL Turbo实时文本图像生成模型

    SDXL Turbo在11 月 28 日发布,一种新的文本图像模式。 SDXL Turbo 通过新的蒸馏技术实现了最先进的性能,能够以前所未有的质量生成单步图像,将所需的步骤数从 50 减少到仅 1。该技术利用对抗性训练和分数蒸馏的组合。 SDXL Turbo 基于一种称为对抗扩散蒸馏 (ADD) 的新颖蒸馏技术,该技术使模型能够一步合成图像输出并生成实时文本图像输出,同时保持高采样保真度。 对抗扩散蒸馏的优点SDXL Turbo 在扩散模型技术方面取得了新进展,在 SDXL 1.0 的基础上进行迭代,并为文本图像模型实现了一种新的蒸馏技术:对抗扩散蒸馏。 通过整合 ADD,SDXL Turbo 获得了与 GAN(生成对抗网络)共有的许多优势,例如单步图像输出,同时避免了其他蒸馏方法中常见的伪影或模糊。

    56721编辑于 2023-12-01
  • 来自专栏机器学习算法与Python学习

    万字梳理文本生成图像

    就在几年前,计算机能否从这样的文本描述中生成图像还是一件难以预测的事情。 该模型经过微调以支持无条件的图像生成。这个训练过程与预训练完全一样,只是将 20% 的文本 token 序列替换为空序列。这样,模型保留了生成文本条件输出的能力,但也可以无条件地生成图像。 然后 CLIP 文本编码器为输入文本(标题)生成嵌入。然后一个特殊的先验模型基于文本嵌入生成图像嵌入。然后扩散解码器基于图像嵌入生成图像。解码器本质上将图像嵌入反转回图像。 系统的宏观概述。 他们尝试使用不同的信号来调节相同的解码器:1、文本标题和零 CLIP 嵌入,2、文本标题和 CLIP 文本嵌入(就好像它是图像嵌入一样),3、由先验生成文本和 CLIP 图像嵌入。 以下图像是使用第二个选项生成的。 探索两个图像的插值。 最后,第三件事是语言引导的图像操作或文本差异。

    1K20编辑于 2022-06-20
  • AI 文本生成图像技术是如何运作的

    近年来,AI 文本生成图像技术取得了长足进步。十年前,谁能想到,只需要输入一段文字描述,比如“粉红色独角兽在做瑜伽”,AI 就能生成一张图像?但现在,这种技术已经成为现实。 最终生成图像:经过训练,AI 可以根据任何输入生成相应的图像。无论是“打篮球的机器人”还是“糖果做成的海盗船”,AI 都能将这些描述转换为视觉图像。有哪些好用的AI文本生成图像工具? Swapfaces.ai:这款工具偏向娱乐性,不仅能根据文本生成图像,还可以实现图片和视频中的人脸替换。比如你可以把朋友的脸换到明星身上,趣味十足,还能用于一些搞笑创意场景。 未来的应用场景AI 文本生成图像技术的应用远不止是玩玩而已,它在各个行业都有潜在的广泛用途:内容创作:无论是写作还是制作营销材料,AI 能够即时生成与内容相关的图像,节省大量时间。 总结AI 文本生成图像技术的出现,正在改变内容创作、设计和开发的传统方式。它不仅大幅提升了工作效率,还让每个人都可以通过简单的文字描述生成高质量图像,无需专业技能。

    1.6K10编辑于 2024-09-10
  • 来自专栏媒矿工厂

    CVPR2023 Tutorial Talk | 文本图像生成的对齐

    文本图像的基础开始,文本图像生成试图基于文本输入生成高保真图像,这是条件图像生成下的一个特殊问题,它试图不仅生成高质量的图像,而且希望它在语义上与无限条件相关。 图1 基础知识 文本生成图像 图2 文本图像生成是一个条件生成问题,它将文本作为输入条件并试图产生既具有良好视觉质量又与图像输入文本提示自动对应的图像,这通常是通过使用带有图像文本数据来完成的。 通过训练模型来模仿或重现这个图像,它不仅强制模型学会生成合理的图像,而且由于在训练样本中的图像文本是配对的,它隐式地学会了生成文本输入对应的图像,以下是几种代表性的图像生成技术。 生成对抗网络 它包括一个生成器和一个鉴别器。生成器尝试基于噪声和文本输入生成图像,与此同时,鉴别器尝试区分输入图像是真实还是伪造的。 可控制的生成 文本+布局/框架 文本在典型的文本图像生成中指的是整个图像的全局描述。在某些情况下,将这种全局文本描述与其他形式的可选附加输入条件相结合可能会很有帮助。

    2.1K20编辑于 2023-10-19
  • 来自专栏AIGC 先锋科技

    文本图像:Lumina-mGPT 展现卓越的光学真实图像生成能力 !

    作者的关键洞察是,利用多模态生成预训练(mGPT)的简单解码器透传Transformer,结合大量的交错的文本-图像序列的下一个标记预测目标,可以学习广泛的和普遍的多模态能力,从而启发光学级文本图像生成的光栅化 文本图像生成的任务目标是根据文本描述合成具有光感和多样性的图像。 与Parti和LlamaGen不同,LuminamiGPT提出了一种统一文本-图像序列的多模态生成方法,然后进行在高质量文本-图像对上的有监督微调,实现了由自回归模型生成的高度美学的图像生成。 多模态标记化为了将文本图像统一为一个多模态标记序列,首先需要将文本图像标记化为离散的空间。特别是对于图像,标记分词的选择至关重要,因为它决定了生成质量的上限。 作者发现图像文本解码的超参数在文本解码和离散图像编码之间有巨大差异。例如,k=5的设置在生成文本时表现良好。然而,在生成图像时,k的值应远大(例如2000),以避免重复和无意义的模式。

    94910编辑于 2024-08-19
  • 来自专栏AI科技评论

    干货 | 除了生成文本,还可以补全图像生成音频序列的稀疏 Transformers

    AI 科技评论按:OpenAI 设计了一种新的 Transformer 模型:稀疏 Transformer(Sparse Transformer),它在序列预测任务中取得了新的表现记录,不论是预测文本、 其中的第一种,条状注意力,基本就和前面例子中关注单行、单列一样;第二种,固定注意力,关注的是某个固定的列以及其中最后一个列元素之后的元素,研究人员们发现这种模式对于无法用前一种模式覆盖的数据结构(比如文本 用稀疏注意力生成图像 使用稀疏注意力的 Transformer 模型在测试中似乎体现出了全局结构的概念,这在图像补全任务中可以进行量化测量。 下面展示了对于 64x64 尺寸 ImageNet 图像的补全演示。 ? 待补全图像 ? 补全结果 ? 真实图像 他们还生成了完全无限制的图像,对应的未调节 softmax 温度为 1。 模型在无条件限制下生成的样本 生成原始音频波形 只要简单地改变位置嵌入,稀疏 Transformer 可以用来生成音频波形。

    1.1K30发布于 2019-05-14
  • T2I文本生成图像 中文期刊论文速览-1(ECAGAN:基于通道注意力机制的文本生成图像方法+CAE-GAN:基于Transformer交叉注意力的文本生成图像

    /j.issn.1000-3428.0062998. 1.1、主要创新 针对文本生成图像任务中生成图像细节缺失及低分辨率阶段生成图像存在结构性错误(如鸟有两个头,缺少爪子)的问题,基于动态注意力机制生成对抗网络 ,引入内容感知上采样模块和通道注意力卷积模块,提出一种新的文本生成图像方法 ECAGAN。 交叉注意力的文本生成图像技术[J].计算机科学,2022,49(02):107-115. 2.1、主要创新 目前,主流的方法是通过预训练文本编码器来完成对输入文本描述的编码,但目前的方法在对文本描述进行编码时 ,并未考虑与对应图像的映射关系,忽略了语言空间与图像空间之间的语义鸿沟问题,导致初始阶段生成图像文本语义的匹配度仍然较低,且图像质量也受到了影响。 创新点: 通过交叉注意力编码器,将文本信息与视觉信息进行翻译和对齐,以捕捉文本图像信息之间的跨模态映射关系,从而提升生成图像的逼真度和与输入文本描述的匹配度。

    51600编辑于 2024-11-20
  • 来自专栏文本生成图像

    文本生成图像工作简述5--对条件变量进行增强的 T2I 方法(基于辅助信息的文本生成图像

    一、基于场景图的文本生成图像基于场景图的文本生成图像方法是一种利用场景图信息来生成图像图像生成方法。 最后,图像解码器重构真实图像并基于两个潜在画布生成图像。该模型同样包含一对和判别器进行端到端训练。二、基于对话的文本生成图像基于对话的文本生成图像是一种通过对话信息来指导图像生成的方法。 三、基于属性驱动的文本生成图像基于属性控制的文本生成图像是一种基于属性描述生成图像图像生成方法。 在公共空间将图像与句子和属性对齐,属于同一样本的属性图像和句子图像对被拉得更近,而不同样本的对被推得更远。四、基于边界框标注的文本生成图像基于边界框的文本生成图像是一种根据边界框信息生成图像的方法。 六、其他基于辅助信息的文本生成图像除了上述提到的之外,还有很多模型在做文本生成图像任务时,引入条件变量或者说辅助信息额外帮助模型生成图像,比如草图、多标题、短文本、风格、噪声等等:风格迁移:风格迁移是一种常见的基于辅助信息的图像生成方法

    99710编辑于 2024-04-24
  • 来自专栏媒矿工厂

    DiffusionGPT:大规模语言模型驱动的文本图像生成系统

    然而,当前的文本图像系统仍然存在一个重大挑战,通常无法处理不同的输入,或者仅限于单一模型结果。目前的统一尝试往往分为两个方面:i)在输入阶段解析多样化的提示;ii) 激活专家模型进行输出。 DALLE-2和Imagen都非常擅长根据文本提示生成图像。然而它们的非开源性质阻碍了广泛普及和相应的生态发展。第一个开源文本图像扩散模型,称为稳定扩散模型(SD),它迅速流行并广泛使用。 图 1 这项工作的贡献可以概括为: 新见解:DiffusionGPT 采用大型语言模型 (LLM) 来驱动整个文本图像生成系统。大语言模型充当认知引擎,处理不同的输入并促进专家选择输出。 通过识别这些形式的提示,Prompt Parse使 DiffusionGPT 能够准确识别用户想要生成的核心内容,同时减轻噪声文本的影响。 为了进一步丰富模型生成空间并取得更令人印象深刻的结果,将扩展可用模型的库。 超越文本图像任务。将见解应用到更广泛的任务中,包括可控生成、样式迁移、属性编辑等。

    1.1K10编辑于 2024-02-21
  • 来自专栏算法一只狗

    中秋专题:火爆艺术圈的文本图像生成是什么?

    最近文本生成图像AI又火爆了起来,并且频频上热搜,在知乎热榜上都会看到相关的问题出现: 游戏设计师利用AI工具作画拿到一等奖:说的是美国的一位画师利用AI工具进行作画,并拿到了一等奖,从而惹来了大量的争议 由于AI图像生成软件Midjorunery的爆火,导致大量的日本画师纷纷进行抵制 而伴随着Stable Diffusion,DALLE-2,Imagen等AI文本图像生成模型的出现,作画这个行业“ 在8月22日左右,AI文本生成图像圈又开源了一个比较火爆的项目:Stable Diffusion;其一推出,github累积星星数已经到达3.6k。 Stable Diffusion 这个模型大体框架主要用到扩散模型,之前我也有一篇文章介绍过: 文本图像生成:谷歌Imagen硬杠OpenAI的DALL.E 2 扩散模型有两个过程,分别为扩散过程和逆扩散过程 beta.dreamstudio.ai/dream Hugging Face模型网站: https://huggingface.co/spaces/stabilityai/stable-diffusion 这两个网站,都可以体验到文本生成图片模型

    89420编辑于 2022-11-04
  • 来自专栏AI

    图像生成

    学习如何在API中使用DALL·E生成或操作图像。想要在ChatGPT中生成图像吗?请访问chat.openai.com。 介绍图像API提供了三种与图像交互的方法:根据文本提示从头开始创建图像(适用于DALL·E 3和DALL·E 2)通过让模型替换预先存在图像的某些区域,基于新的文本提示来创建编辑版本的图像(仅适用于DALL 用法生成图像生成端点允许您根据文本提示创建原始图像。在使用DALL·E 3时,图像可以是1024x1024、1024x1792或1792x1024像素大小。 默认情况下,图像以标准质量生成,但在使用DALL·E 3时,您可以设置quality:"hd"以获得增强的细节。方形、标准质量的图像生成速度最快。 变体(仅适用于DALL·E 2)图像变体端点允许您生成给定图像的变体。

    75910编辑于 2024-04-21
  • 来自专栏文本生成图像

    文本生成图像工作简述1--概念介绍和技术梳理

    基于近年来图像处理和语言理解方面的技术突破,融合图像文本处理的多模态任务获得了广泛的关注并取得了相当大的成功,例如基于视觉的指代表达理解和短语定位、图像和视频字幕生成、视觉问答(VQA)、基于文本图像生成文本生成图像)、基于语言的视觉推理等。 1.2、文本生成图像如果我们的计算机视觉系统要真正理解视觉世界,它们不仅必须能够识别图像,而且必须能够生成图像文本图像的 AI 模型仅根据简单的文字输入就可以生成图像文本生成图像模型的预期最佳效果也是零样本学习的文本生成图像,即具有迁移性,在没有提供新事物数据的情况下,只凭特征描述就能生成出新事物。 文本编码器由RNN或者Bi-LSTM组成,生成器可以做成堆叠结构或者单阶段生成结构,主要用于在满足文本信息语义的基础上生成图像,鉴别器用于鉴别生成生成图像是否为真和是否符合文本语义。

    1.4K20编辑于 2024-04-18
  • 来自专栏媒矿工厂

    Tailored Visions:利用个性化提示重写增强文本图像生成

    3.作者提出了个性化文本图像生成的新基准,促进了该领域的标准化。 图1 作者提出的个性化提示重写方法和标准提示重写方法的对比 PIP数据集 数据集收集 个性化图像提示数据集(PIP)是第一个大规模个性化生成图像文本数据集。 原始数据是从作者托管的公共网站收集的,以提供面向用户的开放域文本图像生成。为了构建PIP,作者选择了来自3115个用户,使用SD v1-5的内部微调版本构建的30万个图像提示对。 最后,文本图像生成模型 G 根据重写的提示生成图像 I_t^{\prime}=\mathbf{G}\left(x_t^{\prime}, \epsilon\right) ,其中 \epsilon 作者使用稳定扩散(SD)v1-5作为所有方法的文本图像生成模型。SD v1-5使用PNDM调度程序分50个步骤进行采样,并将无分类器指导尺度设置为7.0。

    50810编辑于 2023-12-20
  • 来自专栏新智元

    【GAN画花鸟】零样本学习,对抗生成网络从文本描述生成图像

    然而,近年来出现了通用且强大的循环神经网络架构,可以学习判别性的文本特征表征。同时,深度卷积生成对抗网络(GAN)也已经开始生成特定类型的图像,如面孔、专辑封面和房间内饰等,十分引人注目。 从视觉描述中生成图像一直是研究兴趣点之一,但还远未解决。 ? 图1.文本描述生成图像示例。左:描述来自零样本数据,是系统从未见过的文字;右:描述来自训练集。 然而,深度学习尚未解决的一个难题是,以文本描述为条件生成图像分布是高度多模态的,在某种意义上说,某一种文字描述可能对应许多正确的像素配置。从图像文本的转化也受到这个问题的影响。 图2:我们的文本-条件卷积GAN架构,文本编码φ(t) 同时用于生成器和鉴别器。 ? 图3:Zero-shot(来自未知测试集类别的文本生成的鸟的图像,使用GAN,GAN-CLS,GAN-INT和GAN-INT-CLS。 ?

    1.5K70发布于 2018-03-28
  • 来自专栏机器学习与生成对抗网络

    控制图像中的文字!AIGC应用子方向 之 图像场景文本的编辑与生成

    为解决这个问题,提出Diff-Text,一种基于训练的自由场景字体生成框架,适用于任何语言。 模型根据任何语言的字体和场景的文本描述生成逼真的图像。 该模型利用渲染的素描图像作为先验,从而唤醒了预训练扩散模型的潜在多语言生成能力。基于观察生成图像中交叉注意力图对对象放置的影响,在交叉注意力层中引入了局部注意力约束来解决场景文本的不合理定位问题。 此外,引入了对比图像级提示来进一步细化文本区域的位置并实现更准确的场景文本生成。 实验证明,方法在文本识别准确性和前景背景融合的自然度方面优于现有方法。 然而,目前的技术在生成编辑后的文本图像时面临着一个明显的挑战,即如何展示高度清晰和易读的编辑后的文本图像。这个挑战主要源于各种文本类型之间的内在多样性和复杂背景的复杂纹理。 先前的研究已经探索了基于从现实世界观察得出的规则在二维和三维表面上生成合成文本图像

    1.4K10编辑于 2023-12-28
领券