首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏AI智能体从入门到实践

    构建AI智能体:双剑合璧:大模型文生文生图中的搭配应用

    一、温故知新 回顾前面几篇文章,我们分别对文生图的案例演示和RAG Query改写做了详细介绍,今天我们再趣味性的强化一下两者的应用途径,结合两个模型Qwen-Turbo和Qwen-Image 6. 清除和下载功能:清除所有选择,下载生成的图像。三、系统流程 实际操作过程简单直观:首先在界面左侧选择相关的关键词,这些关键词按主题分类,方便快速查找和选择。 你的任务是根据用户提供的关键词,生成一段150字以内的详细、生动、富有想象力的图像描述,用于AI文生模型。 ,指导模型生成适合AI绘画的描述处理API响应并提取生成的提示词输入:用户选择的关键词和风格参数处理:构建API请求,调用Qwen-Turbo模型输出:生成的详细图像描述提示词3.2 图像生成函数 def 双模型架构不仅技术先进,更重要的是实用性强,能够真正解决实际创作中的痛点。

    49021编辑于 2025-11-14
  • 来自专栏muller的测试分享

    文生视频大模型

    简介Sora 官网地址:https://openai.com/sora文生视频指的是将文本描述转化为视频内容的技术,2024年2月15日 OpenAI 正式对外发布 Sora 人工智能模型,在人工智能领域掀起了一场风波 OpenAI 也在报告中将 Sora 定义为 “word simulators” 即世界模型或者世界模拟器,可见 OpenAI 对于 sora 的能力具备足够的信心。注意:个人暂时无法体验。 Sora 的能力Sora 是一种扩散模型,旨在对语言更深入的理解,使得模型能够准确的识别出文本的含义,OpenAI 官方表明 Sora 能够生成1分钟的高清视频,并且给出了一个视频生成的示例,该示例展示出了 现状文生视频还处在开发并且测试的阶段,基于安全考虑,目前 Sora 还是仅仅是邀请 “red teamers” 也就是对抗性角色领域的专家来对 Sora 进行安全测试。

    63110编辑于 2024-11-11
  • 来自专栏AI工程落地

    文生视频模型调研

    开源文生视频一览表 模型名称 机构 是否开源 时长(秒) 分辨率&帧率 模型参数量(B) 模型地址/体验入口 Wan2.1 阿里 是 5 720*1280 16 14/1.3 https://huggingface.co CogVideoX-5b T2V-Turbo-v2 加州大学 是 - 320*512 2 https://t2v-turbo-v2.github.io/ MiniMax-Video-01 MinMax 否 6 :VBench Leaderboard - a Hugging Face Space by Vchitect 模型量化 文生视频模型参数量越来越大,视频时长越来越长,帧率越来越高。 下面总结了几篇当前可以支持文生模型量化的论文: ViDiT-Q:2406.02540 逐Token的量化参数确定(Token-wise Quantization):DiT所采用的Transformer Relaxing for Text-to-Image Diffusion Models:2311.06322 提出PCR,包含渐进式的校准策略、激活放松策略 提出QDiffBench,第一个高效评估量化文生图扩散模型

    78810编辑于 2025-03-13
  • 来自专栏muller的测试分享

    文生图大模型

    简介Dall-E 由 OpenAI 发布,是一种基于深度学习的生成模型,它是一种改进的 GPT 模型,专门用于图像生成。Dall-E 可以根据文本描述生成与之相符合的原创性、真实的图像。 Dall-E 通过一个拥有 120 亿参数的 Transformer 模型来理解自然语言的输入,并生成相应的图片。这些图片不仅限于现实中已存在的图像,还包括虚拟的、现实中不存在的图像。 os.path.join("img_" + datetime.datetime.now().strftime("%Y%m%d%H%M%S") + ".png")def test_image_normal(): # 文生图 ,指定模型,给出提示语和大小限制 response = client.images.generate( model="dall-e-3", prompt="一只猫在窗户边睡觉 generate_image_path(), 'wb') as f: f.write(image_response.content)增加图像生成的条件def test_image_style(): # 文生

    62510编辑于 2024-11-07
  • 来自专栏菩提树下的杨过

    spring-ai 学习系列(6)-文生

    继续来学习spring-ai如何实现“文生图” 一、pom依赖 1 <dependency> 2 <groupId>org.springframework.ai</groupId> 3 spring-ai-starter-model-zhipuai</artifactId> 4 <version>1.0.0</version> 5 </dependency> spring-ai支持多种文生图的模型 ,这里我们使用国产的智谱大模型,可以先免费体验 ,api-key申请地址:https://bigmodel.cn/usercenter/proj-mgmt/apikeys 二、yaml配置 spring : ai: zhipuai: api-key: ${zhipuai_api_key} 这里api-key换成真实的key 三、文生图代码 @GetMapping("/image/ spring-ai/reference/api/imageclient.html spring-ai/models/spring-ai-zhipuai at aa590e839de2a8edc01f3c7cbdcf6a2a8ba57401

    33610编辑于 2025-08-22
  • 来自专栏AI算法能力提高班

    ControlNet-图像控制文生模型

    ControlNet 使用了一种称为 “权重共享” 的技术,该技术可以将预训练模型的权重复制到两个不同的神经网络中。 需要注意的是,在克隆预训练模型之前,需要先选择一个适合特定任务的预训练模型,并对其进行必要的调整和优化。这样才能确保克隆出来的模型能够更好地适应特定任务,并取得更好的效果。 同时,还需要确保这些输入条件能够被有效地传递给神经网络,并且不会对模型性能产生负面影响。 训练可训练副本之前,需要先选择一个适合特定任务的预训练模型,并将其克隆为可训练副本。同时还需要确定哪些输入条件对于特定任务是最重要的,并将其与预训练模型进行连接。 ControlNet 为什么要将diffusion model分成2个copy,而不是在原始模型上训练权重?

    1.3K20编辑于 2023-09-13
  • 来自专栏四楼没电梯

    最新爆火文生模型FLUX

    在AI图片生成领域,Flux模型的推出引起了广泛关注。随着AI技术的不断进步,新的模型层出不穷,而Flux正是其中的一颗新星。 Flux:一款迅速走红的AI图片生成模型 8月初,初创公司Black Forest Labs推出了文本生成图像模型Flux。该模型拥有120亿参数,并迅速吸引了公众的关注。 与Midjourney和DALL-E等知名模型相比,Flux在图像生成质量和文本提示响应度上表现出色,特别是在生成人物图像时,其逼真的效果令人惊叹。 Flux的独特之处 Flux模型在多个方面具有显著优势。首先,它开源了部分模型,用户可以在配置不错的笔记本电脑上运行,这使得Flux具有了更广泛的可及性。 设计与性能的平衡 Flux不仅在图像质量和提示响应度上超越了现有的主流模型,还在生成手部图像方面表现出色,这一细节常常是其他模型的弱项。

    45410编辑于 2024-10-12
  • 来自专栏媒矿工厂

    草图指导的文生图扩散模型

    sketch-guided-preprint.pdf 项目链接:https://sketch-guided-diffusion.github.io/ 作者:Andrey Voynov, Kfir Aberman等 内容整理:王寒 强大的文生图预训练模型缺乏可以指导合成图像的空间属性的控制方法 简介 文本到图像模型是机器学习发展中的一次飞跃,展示了根据给定文本提示的图像的高质量合成的能力。然而,这些强大的预训练模型缺乏可以指导合成图像的空间属性的控制方法。 在这项工作中,作者引入了一种通用方法,通过在推理期间使用来自另一个域(例如草图)的空间图来指导预训练的文本到图像扩散模型。该方法不需要为任务训练专用模型或专门的编码器。 该方法的关键思想是使用边缘预测器来指导预训练的文本到图像扩散模型的推理过程,该边缘预测器对扩散模型核心网络的内部激活进行操作,从而鼓励合成图像的边缘遵循参考草图。 草图指导的文生图(Sketch-Guided Text-to-Image Synthesis) 在给定边缘图e和提示词c的基础上,我们希望根据边缘图获得具有较多细节的高分辨率图片。

    1K20编辑于 2023-09-19
  • 13.4 大语言模型文生图能力评测

    13.4 大语言模型文生图能力评测 大模型文生图能力,不仅推动了创意产业的创新,还在教育、医疗、娱乐等多个领域展现出广泛的应用前景。 通过将自然语言处理与计算机视觉相结合,这些模型能够理解文本内容并生成相应的图像,极大地丰富了人机交互的方式。 本节将深入探讨大模型文生图能力方面的评测方法与标准。 复杂生成:评价大模型根据复杂提示词生成图片的能力 最后是在效率方面对大模型进行评估,分别从生成速度和资源使用进行评价,其中: 生成速度:评估大模型生成图片的速度 资源使用:评估大模型生成图片时使用的资源 综上所述,这些评估方法提供了多元化的视角,帮助研究人员更全面地理解和优化文生图大模型的性能。通过综合运用这些方法,可以推动该领域的进一步发展。 https://research.nvidia.com/labs/dir/magic3d/ [5] Text2Room:https://lukashoel.github.io/text-to-room/ [6]

    95310编辑于 2025-04-07
  • 来自专栏个人总结系列

    开源AIGC学习—文生视频模型本地运行

    一、模型下载 可以参见之前文章介绍:开源AIGC学习—文生模型本地运行 1、模型地址 参见huggingface,https://huggingface.co/cerspense/zeroscope_v2 _576w 2、模型下载拷贝 pipe = DiffusionPipeline.from_pretrained("cerspense/zeroscope_v2_576w", torch_dtype=torch.float16 /huggingface/hub/models--cerspense--zeroscope_v2_576w /mnt/d/aigc_model/hub/ 个人PC可以是本地盘路径,实际环境把自动下载的模型拷贝到挂载 (分布式NAS)地址,python代码从nas的地址读取模型的代码与本地路径有区别 二、python代码开发 import torch from diffusers import DiffusionPipeline 更换另外一种文生视频算法ali-vilab/text-to-video-ms-1.7b import torch from diffusers import DiffusionPipeline, DPMSolverMultistepScheduler

    1.6K10编辑于 2024-03-15
  • 来自专栏周末程序猿

    ChatGPT|字节开源的毫秒文生模型

    介绍 SDXL-Lightning是开源文本到图像生成模型,生成图秒出,图片质量也还不错,其huggingface地址:https://huggingface.co/ByteDance/SDXL-Lightning # 加载模型,如果是GPU可以将"cpu" -> "cuda" unet = UNet2DConditionModel.from_config(base, subfolder="unet").to("cpu 原理 图像生成模型是由噪音到清晰图片逐步转换的过程,在这一过程中,通过神经网络学习在这个转化流(flow)中各个位置上的梯度,具体步骤: 在流的起点随机采样一个噪声样本 神经网络计算出梯度值,根据当前位置的梯度值 ,对样本进行微调 重复以上步骤 每次迭代后,样本都会更加接近想要的图片分布,知道迭代结束获得清晰的图片 图像生成模型步骤 由于上述生成过程每次只能走一小步,减少梯度误差的累计,所以需要神经网络的大量计算 ,为了减少生成图像所需的步骤数量有两种方式: 减少误差采样的方法,试图生成流更加直线化,但是仍然不能在2个推理步骤生成图像; 模型蒸馏能在少量的推理步骤中生成高质量图像,不同于计算当前流位置下的梯度,模型蒸馏改变模型预测的目标

    29510编辑于 2025-02-27
  • 来自专栏个人总结系列

    开源AIGC学习—文生模型服务封装

    一、模型本地化 详细内容见:开源AIGC学习—文生模型本地运行 二、服务封装 当前算法模型采用Python + Flask 方式进行Rest API方式进行服务封装,对应封装代码说明如下 main__': server = pywsgi.WSGIServer(('0.0.0.0', 2000), app) server.serve_forever() 也可以直接返回图片,但是文生模型推理耗时比较长 算法模型需要上传到对于文件,结果生成需要下载文件,系统设计考虑异步调用方案。

    69810编辑于 2024-03-15
  • 来自专栏个人总结系列

    开源AIGC学习—文生模型本地运行

    一、模型本地下载 总共涉及3种方式,来源有huggingface、modelscope,个人学习因为笔记本电脑、网络缘故,选择代码自动下载默认路径然后cp到指定路径。 https://zhuanlan.zhihu.com/p/475260268 2、git clone方式 git clone https://huggingface.co/THUDM/chatglm3-6b /huggingface 虽然也是从huggingface进行git下载,但还是出问题,报Checkout 'https://huggingface.co//huggingface/chatglm3-6b 说明本地模型加载有异常,去在线寻找地址不对报错。 snapshot_download(repo_id) print(model_dir) cp -r model_dir $traget_dir ``` modelscope的也类似 二、文生模型本地运行

    1.1K10编辑于 2024-03-13
  • 来自专栏DeepHub IMBA

    文生图的基石CLIP模型的发展综述

    Open AI在2021年1月份发布的DALL-E和CLIP,这两个都属于结合图像和文本的多模态模型,其中DALL-E是基于文本来生成模型模型,而CLIP是用文本作为监督信号来训练可迁移的视觉模型。 对于大多数这些下游应用程序,初始CLIP模型被视为“预训练”的起点,并且整个模型针对其新用例进行微调。 也就是说随着训练数据量、训练时间或模型大小的增加,人们可以相当准确地预测模型的性能。 保留OpenAI的CLIP模型架构和训练方法,OpenCLIP模型在样本图像检索任务上表现出更强的缩放能力。 在过滤后的数据上训练的CLIP模型优于仅在初始高质量数据上训练的模型和在大量未过滤数据上训练的模型

    2.4K10编辑于 2024-04-01
  • 腾讯混元文生图大模型全面开源!

    和大家汇报:刚刚,腾讯混元文生图大模型,全面升级并对外开源!作为业内首个中文原生的DiT架构开源模型,腾讯混元文生图支持中英文双语输入及理解。除直接用于文生图,也可作为视频等多模态视觉生成的基础。 介绍一下,我的几项标签://DiT架构优秀的大模型,离不开领先的技术架构。去年7月,腾讯混元文生图团队就明确了基于DiT架构的模型方向。 今年初,腾讯混元文生图完成了模型架构的全面升级,相比上一代整体效果提升超过20%。 多轮文生图提示词:(1)画一朵长在森林中的白色玫瑰;(2)背景换成室内,花插在瓶中;(3)将花改为百合花;(4)花瓣改为粉色;(5)让蝴蝶落在花瓣上;(6)改成动漫风格。 //全面开源目前,腾讯混元文生图大模型已在 Hugging Face 平台及 Github 上发布,包含模型权重、推理代码、模型算法等完整模型。不管是企业还是个人开发者,全部免费可用。

    1.1K10编辑于 2024-05-14
  • 来自专栏社区动态

    AI日报|文生语音大模型国内外均有突破,Pika完成6亿新融资,视频大模型也不远了!

    AI日报|智谱AI再降价,同时开源9B系列模型;国内外气象大模型竞逐升级字节推出文本到语音模型家族Seed-TTS:擅长情感表达,与真人几乎无异字节跳动推出文本到语音模型家族——SEED TTS,其核心亮点在于生成的语音音色高度接近人类 该公司声称,该模型仅接受免版税录音训练。 https://techcrunch.com/2024/06/05/stability-ai-releases-a-sound-generator/Pika完成全新6亿融资,即将发布全新视频生成大模型AI 同时,Pika已租用数百个量级的GPU(图形处理器)芯片,用于模型训练和推理计算。创始人郭景表示:“我们正在努力打造最好的视频模式,同时也在努力打造真正服务于创作者的产品。” 据悉,Pika将在今年下半年发布一个全新关键的基础模型以及配套产品更新。

    49510编辑于 2024-06-07
  • 来自专栏Python编程与实战

    华为大模型AI文生图时出现sleep代码,请问time.sleep(6)起到了什么作用?

    网友发帖称,华为在发布会展示大模型文生图能力,在演示过程中,当第一次运行时按下 Ctrl-C 中断,显示对应的代码是 time.sleep(6)。 小编懂一点代码,但不多,光看这段视频没搞懂 time.sleep(6) 到底是干啥用的。 但准确来说,视频是在演示 LLM 开发所需的非常重要的能力——RAG(检索增强生成)和 LLM 结合。

    24610编辑于 2024-05-21
  • 来自专栏数据社

    腾讯混元大模型文生图操作指南.doc

    欢迎大家来到腾讯混元文生图的世界,这里有一份详细的操作指南,请查收! 一、腾讯混元文生图简介 今天上午,腾讯混元大模型迎来全新升级,并正式对外开放“文生图”功能。 作为“从实践中来,到实践中去”的大模型,腾讯混元文生图能力,目前已经被用于素材创作,商品合成,游戏出图等多项业务中,此外在广告业务下的多轮测评中,腾讯混元文生图的案例优秀率和广告主采纳率分别达到86%和 二、腾讯混元文生图技术创新 大模型文生图的难点体现在对提示词的语义理解,生成内容的合理性以及生成图片的效果,针对这三个技术难点,腾讯进行了专项的技术研究,提出了一系列原创算法,来保证生成图片的可用性和画质 3、在画面质感方面,混元文生图基于多模型融合的方法,提升生成质感。 经过模型算法的优化之后,混元文生图的人像模型,包含发丝、皱纹等细节的效果提升了30%,场景模型,包含草木、波纹等细节的效果提升了25%。

    2.5K10编辑于 2023-10-30
  • 来自专栏Yunfeng's Simple Blog

    Bing Brush-Python代码和命令行中调用必应 DALL·E 3文生模型

    今早看到一个好玩的项目,利用Bing Image Creator 来生成每日诗词的图像,研究了一下,发现有人提供了BingImageCreator仓库来调用Bing的API在代码中生成图像,但还需要下载源码,没有提供cli,cookie怎么获取也没有讲太细。

    37910编辑于 2023-12-10
  • 来自专栏信创系统开发

    DeepSeek 第二弹:Janus-Pro 文生模型

    Janus-Pro:更强大的文生图 AI Janus-Pro 之所以加上 Pro,是因为它是去年发布的 Janus 的增强版,专为提升多模态理解与视觉生成能力而打造。 相比前代,Janus-Pro 在多个方面进行了优化: 改进的训练策略,使模型学习更高效; 扩展的训练数据,增强理解能力和生成质量; 更大的模型规模,提供更强的表现力。 开源模型,低门槛本地运行 Janus-Pro 目前提供 7B(70 亿)和 1.5B(15 亿) 两个参数规模的版本,并已全面开源。 虽然 Janus-Pro 的参数量相较超大规模模型有所限制,但 DeepSeek 团队通过数据增强策略,大幅提升了其图像生成能力。 这不仅缓解了视觉编码器在不同任务间的角色冲突,也提高了整体模型的灵活性。

    2.2K30编辑于 2025-02-05
领券