搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏muller的测试分享
文生图大模型
Dall-E 2 的局限性尽管 Dall-E 2 的功能已经非常强大，然而开发者也公开提出了它的局限性，对于图像的属性，Dall-E 2 是没有一个很准确的判断的，并且细节方面还有很多的欠缺。 Dall-E 2：根据新的文本，替换预先存在的图像的某些区域。Dall-E 2：根据图像生成图像的变体。 os.path.join("img_" + datetime.datetime.now().strftime("%Y%m%d%H%M%S") + ".png")def test_image_normal(): # 文生图 generate_image_path(), 'wb') as f: f.write(image_response.content)增加图像生成的条件def test_image_style(): # 文生图 pngdef test_change_image(): # 将图1根据提示在图2的标记上进行修改 response = client.images.edit( model="dall-e
69310编辑于 2024-11-07
来自专栏刘旷专栏
从文生图到文生视频，AI行业卷疯了
近几年，随着AIGC赋能多业态应用的加速落地，整个行业的热潮，已经逐渐从文生文、文生图，转向了文生视频领域。作为文生文、文生图的升级，文生视频对算力以及模型的工程化能力要求更高。据了解，文生视频的人工智能模型参数为10亿级别至100亿级别。文生图和文生视频的人工智能模型在底层技术框架上有着较高的相似性，一定程度上来说，文生视频可以看作是文生图的进阶版技术，这也就意味着，文生图的技术和经验可供文生视频加以运用和参考。而众所周知，字节跳动、阿里、百度等玩家早已在文生图领域有所深耕，甚至有的产品也已投入商用，凭借在文生图技术上的积淀，其在文生视频领域也有望实现大幅进步。只不过，目前国内文生视频技术还在发展的初级阶段，虽然看上去文生视频与文生图的逻辑极其相似，但事实上，文生视频的难度要大得多，需要突破的瓶颈也有很多。
75110编辑于 2023-12-26
来自专栏前端数据可视化
『SD』文生图基础讲解
什么是文生图？文生图就是文生图，字面意思。就是将文本提示词的内容转换成图片。小学写的作文经常出现“看图写作”，现在使用 SD 就是先写作，然后让 AI 去画图。反过来了~ 在 SD WebUI 中，txt2img 就是文生图的功能面板。提示词（正向和反向）在 txt2img 下方有2个输入框： Prompt 是输入正向提示词的地方。第一个输入框。具体的使用方法我在《『SD』文生图-如何生成高分辨率图片？》里有讲解。 Refiner 精炼器 Refiner 精炼器的作用是可以允许你用2个模型生成一张图片。比如你生成了2张图，分别是A图和B图。此时再生成一张图片就会以8:2的比例结合A图和B图去生成新图。关于 SD WebUI 文生图的基础功能讲解就到这了。
1.1K10编辑于 2024-06-11
来自专栏前端必修课
DeepSeek 文生图实战指南
DeepSeek 作为新晋的 AI 助手，虽然在对话能力上表现出色，但并不直接支持图像生成功能。不过，通过本文介绍的方法，我们可以轻松突破这一限制，让 DeepSeek 秒变"画家"。
1.1K11编辑于 2025-03-07
来自专栏AI算法能力提高班
T2I-Adapter 多图像条件控制文生图
T2I-Adapter: Learning Adapters to Dig out More Controllable Ability for Text-to-Image Diffusion Models ---- paper https://arxiv.org/abs/2302.08453 code https://github.com/TencentARC/T2I-Adapter image-20230830101919618 ---- Abstract T2I 模型可以学习复杂的结构和有意义的语义 T2I-Adapters 将T2I内部知识和外部控制信号进行对齐，且冻结T2I模型参数 Contributions 灵活性：不同控制条件（空间颜色控制和复杂结构控制）训练不同的适配器可组合：将多个适配器组合实现多个条件同时控制泛化性：T2I是冻结的，只需要对适配器进行微调轻量化：77M params参数量，300M storage -20230830103708164 输入图像512X512，通过pixel unshuffle下采样到64X64 4个特征提取块 + 3个下采样块 = 多尺度特征特征提取block=1个Conv+2个
1.4K30编辑于 2023-09-13
来自专栏腾讯技术工程官方号的专栏
Sora的前世今生：从文生图到文生视频
无论是文生图还是文生视频，很多这方面的工作其实都可以看成是自编码器的进阶版本，让我们从自编码器开始入手。 LDM文生图（选读）下面关于LDM的一些细节介绍，不感兴趣的同学可以直接跳过。理解了latent的含义后，接下来再考虑下如何根据文本来生成图片呢？用的就是 CoCa 的方法，也就是同时考虑对比损失和LM损失模型推理策略官方展示Sora的应用有很多，比如文生视频、图生视频、视频反推、视频编辑、视频融合等。这里就会涉及一些有意思的做法，比如可以这么做（以下做法并不唯一） 1.文生视频：喂入DiT的就是文本embedding+全噪声patch 2.视频编辑：类似SDEdit的做法，在视频上加点噪声（不要搞成全是噪声不知道大家有没有注意到，Sora还提到了它除了文生视频，也支持文生图，这里其实透露出了一种统一的味道。
1.8K31编辑于 2024-02-23
来自专栏个人总结系列
ComfyUI搭建与文生图运行
一、ComfyUI本地环境搭建1、git仓库下载gpt:~/llms_dir$ git clone https://github.com/comfyanonymous/ComfyUI.git2、python 二、文生图模型运行1、模型下载如https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0 模型目录下载到指定目录gpt:~/llms_dir 00, 5.09it/s]Requested to load AutoencoderKLLoading 1 new modelPrompt executed in 102.37 seconds界面显示文生图结果
1.8K11编辑于 2024-08-06
来自专栏为了不折腾而去折腾的那些事
Stable Diffusion XL Turbo 文生图和图生图实践
本篇文章聊聊，如何快速上手 Stable Diffusion XL Turbo 模型的文生图和图生图实战。 “文生图”战场上，自去年下半年开始，“Stable Diffusion 模型” 开始狂飙，不断产生效率的质变：生成图片的等待时间变的越来越少，生成图片的尺寸和质量越来越好，并且开始往移动端设备上扩展。省略其他准备工作 # 初始化图生图和文生图两条 AI Pipeline pipelines = { "img2img": AutoPipelineForImage2Image.from_pretrained width=512, height=512, output_type="pil", ) else: # 使用文生图即时的文生图体验不论我们是使用调整 Prompt 提示词文本，还是拖拽界面下面的参数，图片都会被快速的重新生成。如果你对参数还不是很了解，可以阅读文末的“AI Pipeline 参数概述”。
1.2K10编辑于 2024-01-15
来自专栏AI算法能力提高班
ControlNet-图像控制文生图模型
，对diffusion model进行控制（Stable diffusion是一种） Contributions ControlNet 将diffusion model 克隆成2个模型，一个是trainable ControlNet 为什么要将diffusion model分成2个copy，而不是在原始模型上训练权重？ 0的1X1普通卷积，在迭代过程中参数更新在第一次迭代时候，零卷积为0，对2个copy网络贡献为0，所以不影响网络性能，网络输入仍为x，输出仍为y 。有8个block是下采样或者上采样，其它17block包含4个resnet层和2个ViT层。每个ViT层包括self or cross注意力机制。 We use a tiny network E(·) of four convolution layers with 4 × 4 kernels and 2 × 2 strides (activated
1.4K20编辑于 2023-09-13
来自专栏为了不折腾而去折腾的那些事
Stable Diffusion XL Turbo 文生图和图生图实践
本篇文章聊聊，如何快速上手 Stable Diffusion XL Turbo 模型的文生图和图生图实战。 “文生图”战场上，自去年下半年开始，“Stable Diffusion 模型” 开始狂飙，不断产生效率的质变：生成图片的等待时间变的越来越少，生成图片的尺寸和质量越来越好，并且开始往移动端设备上扩展。省略其他准备工作 # 初始化图生图和文生图两条 AI Pipeline pipelines = { "img2img": AutoPipelineForImage2Image.from_pretrained width=512, height=512, output_type="pil", ) else: # 使用文生图有机会的时候，我们聊聊如何使用 SDXL Turbo 实现 Midjourney 的“混图”（图生图生图），以及如何控制图片尽量趋近于我们想要的结果，还有性能优化。
1.5K10编辑于 2024-01-13
来自专栏四楼没电梯
最新爆火文生图模型FLUX
在AI图片生成领域，Flux模型的推出引起了广泛关注。随着AI技术的不断进步，新的模型层出不穷，而Flux正是其中的一颗新星。
48410编辑于 2024-10-12
来自专栏muller的测试分享
人工智能文生图技术介绍
所谓文生图，就是指直接通过一些描述性文字生成对应的图片的技术。以前，完成各种设计，是离不开设计师的参与的。但是通过文生图技术，可以直接将对于图片的需求发送给程序，让程序生成。文生图实现方式文成图有两种实现方式：类型示例 “代码式”文生图PlantUML/Mermaid/Reveal.jsAI文生图 MidJourney 以下是几个代码式文生图的示例。PLANTUMLPlantUML是一个开源工具，用于通过简单的文本描述来创建各种类型的图形，包括类图、时序图、用例图、组件图、活动图等。 ——来自维基百科文心一言同样也具备文生图功能，不过目前还不够成熟，相信给到一定的时间，一定能发展成为一个优秀的大语言模型产品。总结文生图现在的工具以及使用体验逐渐越来越强大，不论是代码式文生图还是AI 文生图，都可以选择适合自己工作场景的工具进行使用。
1.1K10编辑于 2024-06-03
来自专栏媒矿工厂
草图指导的文生图扩散模型
sketch-guided-preprint.pdf 项目链接：https://sketch-guided-diffusion.github.io/ 作者：Andrey Voynov, Kfir Aberman等内容整理：王寒强大的文生图预训练模型缺乏可以指导合成图像的空间属性的控制方法 quad(2) P会独立作用于隐空间中的每一个像素。草图指导的文生图（Sketch-Guided Text-to-Image Synthesis）在给定边缘图e和提示词c的基础上，我们希望根据边缘图获得具有较多细节的高分辨率图片。下面是这个mlp能起作用的原理：图2 在去噪过程中的每一步，聚合中间特征并传递到前面提到的P中，预测边缘图 \hat{}_(,)=(_{,}) ，然后计算该边缘图与输入边缘图之间的相似度梯度 ∇_{ 去噪模型的特征取自网络中的 9 个不同层：输入块[第 2、4、8 层]，中间块[第 0、1、2 层]，输出块[第 2、4、8 层]。
1.1K20编辑于 2023-09-19
来自专栏个人总结系列
API调用ComfyUI模板高效文生图
一、基础环境环境搭建参考ComfyUI搭建文生图，并开启ComfyUI的Dev Mode。 : prompt_data = json.load(workflow_api_txt2gif_file) # 设置文本提示 prompt_data["6" 新创建一个类似 mian_v2.py 采用flask 或 fast api方式变现代码（参考server.py内容），并引用comfyui的模块的方法，如： # -*- coding: utf-8 lora-dir', type=str) parser.add_argument('--package-version', type=int, default=0, help="{0, 1, 2} 0 for official server, 1 for debug server, 2 for webui") parser.add_argument("--output-dir", type
3.3K10编辑于 2024-08-10
来自专栏周末程序猿
ChatGPT|字节开源的毫秒文生图模型
介绍 SDXL-Lightning是开源文本到图像生成模型，生成图秒出，图片质量也还不错，其huggingface地址：https://huggingface.co/ByteDance/SDXL-Lightning 体验地址1：https://fastsdxl.ai/ 体验地址2：https://huggingface.co/spaces/radames/Real-Time-Text-to-Image-SDXL-Lightning # 加载模型，如果是GPU可以将"cpu" -> "cuda" unet = UNet2DConditionModel.from_config(base, subfolder="unet").to("cpu ("A cinematic shot of a baby raccoon wearing an intricate italian priest robe", num_inference_steps=2, （1）Progressive Distillation for Fast Sampling of Diffusion Models，https://arxiv.org/abs/2202.00512 （2）
34810编辑于 2025-02-27
13.4 大语言模型文生图能力评测
13.4 大语言模型文生图能力评测大模型的文生图能力，不仅推动了创意产业的创新，还在教育、医疗、娱乐等多个领域展现出广泛的应用前景。本节将深入探讨大模型在文生图能力方面的评测方法与标准。本节会介绍几种常见的大模型评估方法，并介绍其评估原理以及评估步骤，同时也会介绍一些不同评估方法的优缺点，让大家能够更加全面的了解这些评估方法。综上所述，这些评估方法提供了多元化的视角，帮助研究人员更全面地理解和优化文生图大模型的性能。通过综合运用这些方法，可以推动该领域的进一步发展。 13.7 参考文献 [1] ControlNet：https://github.com/lllyasviel/ControlNet [2] Text2Video：https://github.com/Picsart-AI-Research /Text2Video-Zero [3] Sora: https://openai.com/index/sora/ [4] Magic3D：https://research.nvidia.com/labs
1K10编辑于 2025-04-07
来自专栏菩提树下的杨过
spring-ai 学习系列(6)-文生图
继续来学习spring-ai如何实现“文生图” 一、pom依赖 1 <dependency> 2 <groupId>org.springframework.ai</groupId> 3 spring-ai-starter-model-zhipuai</artifactId> 4 <version>1.0.0</version> 5 </dependency> spring-ai支持多种文生图的模型 proj-mgmt/apikeys 二、yaml配置 spring: ai: zhipuai: api-key: ${zhipuai_api_key} 这里api-key换成真实的key 三、文生图代码 docs.spring.io/spring-ai/reference/api/imageclient.html spring-ai/models/spring-ai-zhipuai at aa590e839de2a8edc01f3c7cbdcf6a2a8ba57401
37510编辑于 2025-08-22
来自专栏最新最全的大数据技术体系
AI绘画普及课【二】文生图入门
二、文生图入门与提示词基础 AI绘画和魔法、念咒有什么关系？记得吗，作图过程中，有一个必不可少的环节，就是向AI输入用于描述画面的Prompt，在AI聊天里我们也用。 1、提示词基本概念内容概要：提示词的概念和基本逻辑提示词的语法（输入、间隔）内容型提示词与标准化提示词这节课，我们来接触StableDiffusion中的文生图功能，也就是经由文本生成图像上节课里，我们也提过了，SD里进行绘制的两种基本方式，文生图和图生图，文生图就是主要以文字来实现这个沟通过程的，而图生图还可以依赖图片来传达信息，但图生图里也有提示词，而且同样重要。这其中： Euler 的两个合适插画风格，出图比较朴素。 DPM 2 和 DPM2 Karras 速度较快。如果你想让AI一直不断地按照同一组提示词和参数去出图，那就把批次数调高，绘制的过程会不断重复进行。结束以后，它会生成两样东西——除了每个批次出的图，还会有一张拼在一起的格子预览图，方便你进行对比。
2.8K41编辑于 2023-09-26
来自专栏wayn的程序开发
FastAPI开发AI应用教程七：新增文生图、图生图功能
本文将深入讲解如何在 FastAPI AI 聊天应用中实现文生图和图生图功能，重点介绍豆包 Seedream 4.0 图像生成模型的强大能力。通过本教程，你将学会如何构建完整的 AI 图像生成系统，包括文生图、图生图等图像输出核心技术。项目概述想象一下，当你向 AI 描述一个场景时，AI 能够立即为你生成对应的高质量图像；当你上传一张图片时，AI 能够基于你的描述对图片进行创意改造——这就是我们要实现的文生图和图生图功能！纯文本生成图片：仅提供prompt参数 2. '文生图' : '图生图'}

<

76510编辑于 2025-11-13

来自专栏个人总结系列

开源AIGC学习—文生图模型本地运行

1、手动下载教程见：https://zhuanlan.zhihu.com/p/475260268 2、git clone方式 git clone https://huggingface.co 3、代码自动下载手动cp到指定目录 ``` from huggingface_hub import snapshot_download repo_id = 'THUDM/CogView2' snapshot_download(repo_id) print(model_dir) cp -r model_dir $traget_dir ``` modelscope的也类似二、文生图模型本地运行 multi-modal_chinese_stable_diffusion_v1 ``` N01:~# cp -r /xx/.cache/modelscope/hub/damo/ modelscope/damo 2、 opencv-python pip install opencv-contrib-python # 依赖安装，当前是 python3 （Python 3.10.12） ``` import torch import cv2

1.2K10编辑于 2024-03-13

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

文生图大模型

从文生图到文生视频，AI行业卷疯了

『SD』文生图基础讲解

DeepSeek 文生图实战指南

T2I-Adapter 多图像条件控制文生图

Sora的前世今生：从文生图到文生视频

ComfyUI搭建与文生图运行

Stable Diffusion XL Turbo 文生图和图生图实践

ControlNet-图像控制文生图模型

Stable Diffusion XL Turbo 文生图和图生图实践

最新爆火文生图模型FLUX

人工智能文生图技术介绍

草图指导的文生图扩散模型

API调用ComfyUI模板高效文生图

ChatGPT|字节开源的毫秒文生图模型

13.4 大语言模型文生图能力评测

spring-ai 学习系列(6)-文生图

AI绘画普及课【二】文生图入门

FastAPI开发AI应用教程七：新增文生图、图生图功能

开源AIGC学习—文生图模型本地运行

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐