首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • DALL·E 3

    图像质量和细节处理DALL·E 3: DALL·E 3在图像质量、细节处理以及理解细微差别方面有显著的提升。 DALL·E 2及以前版本: 虽然DALL·E 2已经能够生成高质量的图像,但在细节和微妙差别的处理上,仍然无法与DALL·E 3相提并论。 DALL·E 2及以前版本: 对于不熟悉技术的用户来说,DALL·E 2的使用可能较为复杂,需要一定的学习和适应过程。 DALL·E 2及以前版本: DALL·E 2虽然也具备高度的创新能力,但在生成独特和多样化内容的能力上,仍然有一定的局限性。 DALL·E 2及以前版本: DALL·E 2虽然已开始在这些领域有所应用,但其影响力和效率与DALL·E 3相比还有一定的差距。

    87910编辑于 2024-08-15
  • 来自专栏AIGC

    【AI绘画】DALL·E 3 绘图功能与 DALL·E API 探索

    DALL·E 3 是人工智能领域的一次重要突破,赋能用户实现创意与效率的双重提升。 DALL·E 3 DALL·E 3 图像生成介绍 DALL·E 3 是 OpenAI 推出的全新图像生成模型,它在文本理解能力和图像生成质量上达到了一个新的高度。 DALL·E 图像质量与分辨率 分辨率的基本介绍 DALL·E 3 默认生成的图像尺寸为 1024x1024 像素。 使用 DALL·E 编辑器界面 编辑器界面概述 DALL·E 编辑器 提供了一个直观且易于操作的界面,用户可以: 选择图像的特定区域并应用不同的编辑操作。 通过这些注意事项,可更高效、安全地使用 DALL·E API,提升应用的整体效果和用户满意度。 小结 DALL·E 3 的强大功能和广泛适用性在探索创意设计与生产力提升方面展现了巨大的潜力。

    2.7K11编辑于 2025-06-02
  • 来自专栏DeepHub IMBA

    DALL·E-2是如何工作的以及部署自己的DALL·E模型

    DALL·E-2可以通过自然语言的描述创建现实的图像。Openai发布了dall·e-2的Beta版。在本文中,我们将仔细研究DALL·E-2的原始研究论文,并了解其确切的工作方式。 DALL·E-2论文要点 DALL·E-2基于以前提出的unCLIP模型,而unCLIP模型本质上是对GLIDE模型[4]的增强版,通过在文本到图像生成流程中添加基于预训练的CLIP模型的图像嵌入。 DALL·E Mega dall·e Mega是Dall·e Mini的超大版本(超大杯),这意味着它们的体系结构相似,但参数更多。 DALL·E Mini:我们在文章的上半部分已经做了介绍了,DALL·E是两种模型的组合。第一个模型以图像为训练对象,学习如何将图像“压缩”为向量,然后将这些向量“解压缩”回原始图像。 的DALL·E的效果还是最好的,毕竟大力出奇迹么。

    3.7K20编辑于 2022-11-11
  • 来自专栏AI算法能力提高班

    DALL-E3 | (2)原理

    DALL·E 3 System Card 2023年10月3号,由OpenAI发布 1 Introduction DALL-E 3 是一个人工智能系统,它将文本提示作为输入,并生成新图像作为输出。 DALL-E 3 建立在 DALL-E 2的基础上,提高了字幕保真度和图像质量。 DALL-E 3 集成到了 ChatGPT / GPT-4中,流程是: 用户提供相对模糊的图像请求描述 -> GPT4 -> 生成细节提示词 -> DALL-E 3 -> 生成高质量细节图像(降低了用户描述和图像质量的 GAP) 1.1 Mitigation Stack 数据过滤:暴力等不健康的内容 过滤算法:在DALL-E 2基础上,降低了暴力等宽泛过滤阈值。 2 上的工作、主动风险发现和早期用户的结果,维护了各种类别的文本屏蔽列表 提示转化:ChatGPT 可改写已提交的文本,以便更有效地进行提示 DALL-E 3 更有效。

    92330编辑于 2023-10-23
  • 来自专栏AI算法能力提高班

    DALL-E3 | (1)简介

    DALL-E3 project https://openai.com/dall-e-3 paper https://cdn.openai.com/papers/DALL_E_3_System_Card.pdf DALL-E 3 代表着我们在生成与您提供的文本完全一致的图像能力方面的一次飞跃。 DALL-E 3 将于 10 月初向 ChatGPT Plus 和企业客户推出。 与 DALL-E 2 一样,您使用 DALL-E 3 创建的图片归您所有,您无需获得我们的许可即可对其进行转载、销售或商品化。 新版 DALL-E 3 已将生成此类图像的风险降低到 0.7%。不过,OpenAI 写道,DALL-E 3 仍然存在文化偏见,总体上偏向西方文化,尤其是在非特定查询方面。

    76430编辑于 2023-10-16
  • 来自专栏掘金安东尼

    剖析 AIGC 关键模型 —— DALL-E

    什么是 DALL-E ? 该模型说白了就是可以根据用户提供的文本描述自动生成对应的图像,由 OPEN-AI 发布; 本文将对 DALL-E 的技术原理、应用场景和优缺点进行深入解析~~ 技术原理 DALL-E 的技术原理主要基于 编码阶段 DALL-E的工作原理可以分为两个步骤:编码和解码。 在编码阶段,DALL-E 将输入的文字转换为向量表示。这里使用的是GPT-3模型,即利用大规模文本数据训练出来的预训练语言模型。 优: 1、DALL-E 的优点是可以根据用户提供的文本描述自动生成对应的图像,可以大大提高图像的生成效率。 2、DALL-E还可以生成一些非常奇特的图像,激发想象力,只有你想不到,没有它做不到。 缺: 1、DALL-E 的缺点是目前还存在一些生成图像的错误,比如生成的图像与文本描述不符合。 2、DALL-E的计算资源消耗也非常大,需要使用大量的GPU进行训练和生成。

    94240编辑于 2023-05-23
  • 来自专栏开源心路

    OpenAI DALL-E 3 使用案例

    背景 DALL・E ‍3 是 OpenAI 在 2023 年 9 月份发布的一个文生图模型。 与上一代模型 DALL・E 2 最大的区别在于,它可以利用 ChatGPT 生成提示(prompt),然后让模型根据该提示生成图像。 对于不擅长编写提示的普通人来说,这一改进大大提高了 DALL・E 3 的使用效率。 优点缺点 优点: 生成图像质量更高更清晰细致,相比DALL·E 2有显著提升。 与DALL·E 2相比,价格更高。 无法提供生成过程的细节控制。 可能被用来生产虚假信息或仿冒作品。 数据集存在某些偏见,可能会对特定群体产生负面影响。 对生成图像的内容无法进行细粒度控制。

    90410编辑于 2023-12-18
  • 来自专栏机器学习与生成对抗网络

    简洁生动 | 图解 DALL-E 2 工作原理

    总体来说,DALL-E 2 的亮点如下: 1. 首先,DALL-E 2 展示了深度学习中扩散模型(Diffusion Model)的强大功能,因为 DALL-E 2 中的先验和图像生成子模型都是基于扩散的。 这一点并非源于 DALL-E 2,但重要的是认识到, DALL-E 2 的力量是源于可在互联网上获得大规模匹配的自然语言 / 图像数据。 DALL-E 2 的工作原理:鸟瞰图 在深入了解 DALL-E 2 的工作原理之前,让我们先大致了解一下 DALL-E 2 如何生成图像。 虽然 DALL-E 2 可以执行各种任务,包括上面提到的图像处理和插值,但我们将在本文中专注于图像生成任务。 在最高级别,DALL-E 2 的工作非常简单: 1.

    2K20编辑于 2022-05-27
  • 来自专栏DevOps

    AIGC:DALL·E 2、Midjourney和 Stable Diffusion 产品对比

    截止目前为止,三个最流行的AI作画产品是 Stable Diffusion、Midjourney和 DALL·E 2。 一、DALL·E2 DALL·E2由 OpenAI开发,目前产品版本处于 beta 阶段。 1.如何使用 ① 文本提示作图 在 DALL·E2 中,可以使用 『文本到图像』和『文本引导的图像到图像』生成算法生成图像。 ③ 分辨率和格式 在 DALL·E2 中,所有生成的图像都具有 1024 x 1024 的固定图像大小 。 总结 在本文中,我们比较了目前最流行的3个图像生成平台 DALL·E2、Midjourney、Stable Diffusion。

    2.2K10编辑于 2024-03-29
  • 来自专栏机器学习与生成对抗网络

    让AI画画 | 大神复现OpenAI的Dall-E

    OpenAI今年1月公布的Dall-E可谓艳惊四座,只需输入一段话,就能根据内容输出一幅画。连吴恩达老师都不禁点赞。 比如让它设计一个“像牛油果一样的座椅”。 ? 不过现在有个好消息,一位华人小哥Philip Wang已经复现了一个PyTorch版Dall-E,叫做Deep Daze。 开发该项目的Philip Wang,就是在今年年初公布要复现Dall-E的那位大神,没想到不到3个月的时间,这个项目已经如此强大,在GitHub上已收获1.1k星。 ?

    2.7K40发布于 2021-04-19
  • 来自专栏AI算法能力提高班

    DALL-E3 | (3)字幕生成器

    1 Abstract 文生图模型可以通过在高度描述性生成的图像字幕上训练来提升提示词能力 现存的研究主要是沿着详细的图像描述而忽略了单词和混淆提示(歧义),在数据集上表现为噪声和不准确,从而影响精度 DALL-E 因此,DALL-E3 可以在提供提示时生成文本。在测试过程中,我们注意到这种功能不够可靠,因为单词可能丢失或多余字符。 这对我们的文本到图像模型产生了下游影响:DALL-E3 在为上述特定术语生成图像方面不可靠

    69120编辑于 2023-10-25
  • 来自专栏DevOps

    AIGC:Stable Diffusion、DALL-E、Imagen框架介绍

    上述框架为通用框架,即均包含上述三个模块,例如 Stable Diffusion: DALL-E series: Imagen: 一、Encoder GPT、Bert 均可当作文字 Encoder,其对最终结果的影响非常大 将任意一张图片降采样得到一张小图,随后使用(小图,原图)的 pair 进行训练,如下所示: 如果 Decoder 的输入 Latent Representation(例如 Stable Diffusion 与 DALL-E Hung-yi Lee - 生成式 AI Stable Diffusion: High-Resolution Image Synthesis with Latent Diffusion Models DALL-E series: Zero-Shot Text-to-Image Generation DALL-E series: Hierarchical Text-Conditional Image Generation

    54110编辑于 2024-03-29
  • 来自专栏AI科技评论

    DALL-E 2的工作原理原来是这样!

    “一碗汤是另一个次元的入口” 图源:https://openai.com/dall-e-2/ DALL-E 2不仅能按用户指令生成明明魔幻,却又看着十分合理不明觉厉的图片。 感觉有了DALL-E 2,艺术家都可以下岗了。 DALL-E 2目前曝光的功能令人瞠目结舌,不禁激起了众多AI爱好者的讨论,这样一个强大模型,它的工作原理到底是什么?! GLIDE对于DALL-E 2的意义 GLIDE对于DALL-E 2亦很重要,因为GLIDE能够将自己按照文本生成逼真图像的功能移植到DALL-E 2上去,而无需在表示空间中设置图像编码。 DALL-E 2图像生成流程的高级概述 修改自图源:https://arxiv.org/abs/2204.06125 以上就是DALL-E 2的工作原理啦~ 希望大家能注意到DALL-E 2开发的3个关键要点 : DALL-E 2体现了扩散模型在深度学习中的能力,DALL-E 2中的先验子模型和图像生成子模型都是基于扩散模型的。

    1.5K20编辑于 2022-04-21
  • 来自专栏数据科学(冷冻工厂)

    Python| 如何使用 DALL·E 和 OpenAI API 生成图像(1)

    OpenAI 推出的 DALL·E 工具,因其能生成令人惊叹的艺术作品和逼真的图像而广受欢迎。 接下来,安装 OpenAI 提供的 Python 库,以便使用 DALL·E 的功能。 第 8 行指定使用更新的 DALL·E 3 模型,它不仅以不同的方式处理你的提示,还支持不同的参数设置、图片尺寸和质量,与默认的 DALL·E 2 模型有所区别。 当你请求使用 DALL·E 3 模型生成图像时,它会在生成图像前对你的提示进行重新编辑。 注意:只有对 DALL·E 3 模型的请求才会进行提示重写,所以如果你使用的是 DALL·E 2,这个属性将不存在。

    1.5K10编辑于 2024-12-30
  • 来自专栏AI科技评论

    DALL·E 3 推理能力炸裂提升,OpenAI 抢跑“ChatGPT 原生”

    DALL·E 3 能力升级,OpenAI 多模态能力逐渐成熟。 1 DALL·E 3 的巨大飞跃 DALL·E 3 最大的突破,无疑是将文生图模型与 ChatGPT 的结合,极大地降低了提示词的门槛。 而与此前 DALL·E 系列模型相比,根据同一句提示词“一名篮球运动员扣篮、被描绘成一个星云爆炸的油画”,使用 DALL·E2 和 DALL·E3 分别进行图片生成。 这张“DALL·E CAN SPELL”的图片放大后,也可以看到在图片深处的“DALL·E ”有拼写成“DALE”的情况,但是整体看,在遵循提示和生成连贯细节方面 DALL·E 3 已经有了极大的突破。 此外,DALL·E 3 拒绝提供在世艺术家风格图像,艺术创作者也可选择将其个人作品从 DALL·E 3 未来图像生成模型的训练中剔除。

    87320编辑于 2023-09-24
  • 来自专栏数据派THU

    Pokémon AI,使用DALL-E生成神奇宝贝图鉴

    OpenAI 的 DALL-E,这是一种基于transformer 语言模型,能够使用文本-图像对的数据集从文本中生成高保真的图像。 DALL-E 使用离散变分自编码器 (dVAE) 的组合来获得离散的潜在表示,同时利用强大的基于自回归transformer 的解码器来生成高质量的图像。 然后可以用 DALL-E 对其进行微调以学习文本中视觉概念之间的相关性,例如神奇宝贝的类型,从而可以控制它生成的图像的属性。 有了这些新发现的知识,我匆忙开始策划一个数据集来微调 DALL-E。这包括神奇宝贝的图像和类型的文字描述,以及神奇宝贝一些独特的属性。 在一些现成的 DALL-E  notebook的帮助下拼凑一些 PyTorch 代码,并将新创建的数据集放入模型中进行几个小时的微调,模型已经可以创建一些新的神奇宝贝!

    49630编辑于 2022-03-04
  • 来自专栏瞳瞳too的学习笔记

    人工智能与艺术的交融:揭秘DALL-E插件

    在AICG领域,DALL-E无疑是一个里程碑式的存在。然而,尽管nonebot已经可以接入SD,MJ等绘图模型,但一直没有支持DALL-E。 为了填补这个空白,我开发了DALL-E插件,它能将DALL-E的能力无缝接入QQ机器人中。 DALL-E插件:引领QQ机器人进入DALL-E时代 DALL-E插件是我开发的一款基于nonebot2和onebot v11协议的插件,旨在将DALL-E的能力无缝接入QQ机器人中。 突破API调用限制:通过以上策略,DALL-E插件能有效突破API的调用限制,让你的QQ机器人可以更自由地调用DALL-E的服务。 如何使用DALL-E插件 DALL-E插件的使用流程非常简单明了: 通过pip安装DALL-E插件: pip install nonebot_plugin_dall-e 在你的 bot.py 文件中加载

    49810编辑于 2023-10-23
  • 来自专栏瞳瞳too的学习笔记

    人工智能与艺术的交融:揭秘DALL-E插件

    为了填补这个空白,我开发了DALL-E插件,它能将DALL-E的能力无缝接入QQ机器人中。 DALL-E插件:引领QQ机器人进入DALL-E时代 DALL-E插件是我开发的一款基于nonebot2和onebot v11协议的插件,旨在将DALL-E的能力无缝接入QQ机器人中。 用户提示词过滤:DALL-E插件提供了用户提示词过滤功能,你可以设置违禁词,过滤用户的提示词。 如何使用DALL-E插件? DALL-E插件的使用流程非常简单明了: 通过pip安装DALL-E插件: pip install nonebot_plugin_dall-e 在你的 bot.py 文件中加载DALL-E插件: nonebot.load_plugin 文章目录 揭秘AI绘图的新篇章:引领QQ机器人步入DALL-E时代 人工智能创意绘图(AICG)领域探索 DALL-E插件:引领QQ机器人进入DALL-E时代 如何使用DALL-E插件?

    34610编辑于 2023-11-17
  • 来自专栏AI分享

    从GPT-4到DALL-E的模型生态

    DALL-E视觉引擎python复制# 典型图像生成流程from azure.ai import openairesponse = openai.Image.create( prompt="赛博朋克风格的城市夜景 ,霓虹灯光雨中的仿生人", size="1024x1024", quality="hd", style="vivid")版本对比:DALL-E 3:4K超分辨率/语义理解增强DALL-E 种语言实时转写行业术语识别准确率提升40%三、模型选型决策框架(一)四维评估体系计算复杂度:o系列 > GPT-4 > GPT-3.5响应延迟:o1-mini(50ms)< GPT-4o(120ms)< DALL-E

    3.4K10编辑于 2025-04-07
  • 来自专栏DevOps

    AIGC:DALL·E 2, Stable Diffusion和 Midjourney工作原理简介

    DALL·E 2 DALL-E 2由OpenAI开发,它通过一段文本描述生成图像。其使用超过100亿个参数训练的GPT-3转化器模型,能够解释自然语言输入并生成相应的图像。 夜晚的云端城堡,电影般的画面 - 图片由Midjourney生成 DALL-E 2原理 DALL-E 2主要由两部分组成——将用户输入转换为图像的表示(称为Prior),然后是将这种表示转换为实际的照片 它所做的事情与DALL-E 2所做的相反——它是将图像转换为文本,而DALL-E 2是将文本转换为图像。引入CLIP的目的是为了学习物体的视觉和文字表示之间的联系。 DALL-E 2的工作是训练两个模型。第一个是Prior,接受文本标签并创建CLIP图像嵌入。第二个是Decoder,其接受CLIP图像嵌入并生成图像。 技术对比 DALL-E 2使用数以百万计的图片数据进行训练,其输出结果更加成熟,非常适合企业使用。

    1.5K10编辑于 2024-03-29
领券