首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 腾讯混元:开源模型时间缩短75%!

    先和大家汇报: 开源不到一个月,腾讯混元文生模型(混元DiT模型)的Github Star数已达到2.1k,位于开源社区热门DiT模型前列! 刚刚,腾讯混元针对文生开源模型,发布一组「加速库」: 实测显示,加速后的时间缩短75%、速度提升4倍,大幅提升模型运行效率。 这也是业内首个由官方推出的加速库。 //速度,更快了 具体来说,这款加速器叠了两套buff: 一是,知识蒸馏 通过降低扩散模型迭代的步数实现加速(就像看学霸的笔记,跳过部分训练步骤,直接借鉴复杂模型的经验,掌握重点)。 (ComfyUI是一款文生领域的WebUI界面设计,用户可以通过图像化的工作流的方式使用模型,大幅降低开发者的使用门槛) (混元DiT文生模型的ComfyUI使用界面) //生态组件,更丰富了 仅用三行代码 (Hugging Face的Diffusers是知名的AI开源社区,也是调用各种主流文生模型的通用库,已成为当今文生模型使用的社区标准) (混元DiT文生模型的Diffusers界面) 腾讯正在持续投入开源大模型生态建设

    77510编辑于 2024-06-06
  • 来自专栏前端数据可视化

    『SD』基础讲解

    点赞 + 关注 + 收藏 = 学会了 基础用法 文生比较好理解,就是输入文字生成图片。 那又是啥? SD 允许我们上传一张图片作为底图,这张底图又称为“引导”,然后再搭配提示词生成一张新的图片。 引导主要影响最终要生成图片的颜色和构图,而提示词和文生的提示词一样,这里就不过多讲述了。 的界面入口在 img2img 。 这个界面下方也有一个 img2img 标签页,这个标签页就是用来上传引导的。 我们上传一张引导,但什么提示词都不写,然后让 SD 根据引导重新生成一张图片。 此时,SD 会根据引导的颜色、构图重新生成一张新的,可以看到右边的的女孩样子不一样了,衣服也换了一件,背景也从晚上变成下午。但整体的构图和色调还是和原图比较接近的。

    80910编辑于 2024-05-22
  • 首个毫秒级响应的实时模型,发布!

    输完Prompt,大模型开始跑。等待的几秒里,你突然有了更好的想法,但你只能停下,等它把「旧的」画完,才能调整指令;甚至要等出来,才知道是不是想要的风格。 现在,这个问题有解了——刚刚,腾讯混元发布业内首个毫秒级响应的实时模型 Hunyuan Image 2.0(参数规模提升数10倍),支持文本、语音、草图等多种交互方式。 借助图像压缩与注意力优化机制,模型将图像生成时间压缩至毫秒级,远快于当前主流模型的3-6秒成速度。 并且,模型具备更强的一致性生成能力:你上传一张,它能识别并提取其中的主体ID,即使在不同提示词下生成多角度、多场景画面,也能保持人物、物体的核心视觉特征不变。 面向不同层级的用户,Hunyuan Image 2.0还提供不同的使用方式——普通创作者只需输入或说出提示词,无论是做社交配、教学插图,还是记录灵感片段,模型都能实时生成图像;对于有设计基础的用户,Hunyuan

    1.6K70编辑于 2025-05-19
  • 来自专栏杂谈社

    【玩转GPU】基于mPLUG模型实现文实验感受

    mPLUG 模型是一个统一理解和生成的多模态基础模型,提出了基于 skip-connections 的高效跨模态融合框架。 图片 图片 在测试使用期间,由于我不能直接参与模型指标的调整,因此我无法通过评估指标来评估模型的性能。只能通过上传不同类型的图片来体验模型给出的结果,并观察是否符合我的预期。 图片 此外,我还深入了解了 mPLUG 模型,并对该模型进行了一些可视化分析,以了解其在处理图像描述时的工作原理。 通过分析模型的可视化结果,我们发现模型能够有效地捕捉图像和文本之间的关联,并且能够生成高质量的图像描述。 通过这次实验以及查找了到的一些资料,我个人觉得使用 mPLUG 模型生成的图像描述质量比其他模型更高,能够更好地满足下游任务的需求。不过,非常遗憾,在这次实验中,我无法体验到调试的过程。

    69141编辑于 2023-06-13
  • 来自专栏新智元

    GPT-4未解禁?CMU华人博士新作,大模型GILL能能检索,人人可玩

    值得一提的是,通过嵌入空间之间的映射,CMU团队将冻结的大模型,与预训练的文生模型相结合。 GILL模型架构概览。 GILL模型组合了多模态信息以产生相关的图像和文本输出,性能优于仅限于图像检索的基线模型。 评估指标 评估的重点是生成模型处理复杂语言描述的能力。因此,研究人员计算了衡量生成图像内容相关性的指标。 当2个模型都输入一个故事描述时,性能相当,SD获得了比较好的CLIP相似度得分,并且两个模型获得了相似的 LPIPS。 作者介绍 Jing Yu Koh Jing Yu Koh是CMU机器学习系的二年级博士,导师是Daniel Fried和Ruslan Salakhutdinov。

    47720编辑于 2023-09-09
  • 来自专栏技术汇总专栏

    AIGC技术:从GAN到最新的生成模型架构

    AIGC技术:从GAN到最新的生成模型架构人工智能生成内容(AIGC)技术,尤其是在图像生成领域,近年来取得了显著的进展。 本文将深入探讨AIGC技术的演变历程,重点从GAN模型的基础到目前的最新生成模型架构,并结合代码实例展示其实现过程。1. 最新的生成模型:扩散模型与自注意力机制近年来,扩散模型(Diffusion Models)和基于自注意力的生成模型(如Transformers)成为生成图像领域的重要突破。 生成模型的应用与展望随着生成模型技术的不断发展,AIGC在艺术创作、游戏开发、虚拟现实等多个领域的应用也逐步增多。 随着大模型和多模态学习的兴起,这一问题有望得到有效的解决。6.3 模型训练的效率与计算资源消耗虽然AIGC技术取得了很大的进展,但大规模生成模型的训练依旧需要巨大的计算资源。

    1.6K20编辑于 2025-03-12
  • 来自专栏OpenMMLab

    CVPR 2024丨基于文本可控的视频扩散模型

    方法简介 PIA(Personalized Image Animator)是文本驱动的个性化视频模型,它可被插入不同的文生底模中以生成不同风格、内容的视频。 框架如下,用户输入的图像会与帧间相似度结合通过条件模块,接着在 UNet 中参与 Cross-Attention 计算以实现根据文本为输入图像添加动效。 PIA 可以适应各种风格的底模型,将模型风格迁移到生成的视频中。

    72310编辑于 2024-06-27
  • 来自专栏最新最全的大数据技术体系

    AI绘画普及课【二】

    三、 内容概要: 1、原理 2、基本流程 3、随机种子作用解析 1、原理 可以帮你把一张图片画成另一种模样。 在文生图中我们看到,AI文生是有一定的随机性的,画出来的东西不一定完全满足我们的需求。在现实生活里,这种对需求的传递偏差与错误解读其实也普遍存在。比如天天干架的产品经理和程序员、甲方客户与设计师。 2、的三个关键步骤 第一步:导入图片 第二步:书写提示词 第三步:参数调整 3、参数技术性解析 直接参考文生的提示题。 unclear eyes:1.331), lowers, bad hands, missing fingers, (((extra arms and legs))), 参数设置: 重绘幅度 表示绘制的和原图相差的比重

    1.1K30编辑于 2023-09-27
  • Google放大招:新AI模型碾压全场,领先171分

    前段时间在圈内疯传的AI模型Nano banana,今天正式登陆Google了。 简单粗暴 使用方法简单到不能再简单:上传参考图片,输入提示词,等着收就行。 要知道,其他同级别模型动不动就要等个一两分钟,这个速度确实称得上lightning fast。 但真正让人惊艳的还是那个角色一致性。 而Nano banana把这个最大的痛点给解决了,这意味着AI终于可以用来做真正的商业项目了,而不仅仅是玩票性质的尝试。 加上那个恐怖的生成速度,创作效率直接起飞。 总之,如果你对AI有需求,现在就是上车的最好时机。这波技术升级的幅度,可能会让很多同类产品直接出局。

    32410编辑于 2025-09-02
  • 来自专栏为了不折腾而去折腾的那些事

    Stable Diffusion XL Turbo 文生实践

    本篇文章聊聊,如何快速上手 Stable Diffusion XL Turbo 模型的文生实战。 省略其他准备工作 # 初始化和文生两条 AI Pipeline pipelines = { "img2img": AutoPipelineForImage2Image.from_pretrained float = 0.7, guidance: float = 0.0, steps: int = 2, seed: int = 42, ): # 如果输入包含图片,那么使用 engine 5 cinematic, masterpiece 如果我们将上面生成的图片上传到界面,并且调整生成图片的提示词如上,接着点击“生成按钮”,或者稍微调整下参数,触发图片重新生成: 即时的体验 有机会的时候,我们聊聊如何使用 SDXL Turbo 实现 Midjourney 的“混”(),以及如何控制图片尽量趋近于我们想要的结果,还有性能优化。

    1.1K10编辑于 2024-01-15
  • 来自专栏腾讯开源的专栏

    给大模型“去油”,混元这个新研究火了

    感谢大家的喜欢 ♥️ 腾讯混元团队最近发布的工作SRPO受到了社区的热烈欢迎,项目在9月10日发布之后登上了HuggingFace热度榜榜首,同时社区量化版本下载量达25K,Github Star 该工作主要提供了文生模型的强化算法,解决了开源文生模型Flux的皮肤质感“过油”的问题,能让人像真实感提升3倍,Flux是目前开源文生社区中最广泛使用的基础模型:SPRO效果,人物毛孔清晰可见,毛发纤毫毕现 以下是效果对比: 左图为优化后 左图为优化后 左图为优化后 背后的技术揭秘 在线奖励调整 文生领域传统的在线强化学习方法(如ReFL,DRaFT)虽展现极高的训练效率 ,但强依赖一个预先训练好的奖励模型。 、#文生、#开源、#腾讯、

    33310编辑于 2025-09-29
  • 来自专栏为了不折腾而去折腾的那些事

    Stable Diffusion XL Turbo 文生实践

    本篇文章聊聊,如何快速上手 Stable Diffusion XL Turbo 模型的文生实战。 省略其他准备工作 # 初始化和文生两条 AI Pipeline pipelines = { "img2img": AutoPipelineForImage2Image.from_pretrained float = 0.7, guidance: float = 0.0, steps: int = 2, seed: int = 42, ): # 如果输入包含图片,那么使用 0.1433868408203125 seconds Pipe took 0.13985347747802734 seconds Pipe took 0.13831496238708496 seconds 接下来,我们来尝试“ 有机会的时候,我们聊聊如何使用 SDXL Turbo 实现 Midjourney 的“混”(),以及如何控制图片尽量趋近于我们想要的结果,还有性能优化。

    1.5K10编辑于 2024-01-13
  • 来自专栏科研菌

    信代码:绘制热和火山

    引言:前面几期中,我们学习了如何下载TCGA数据、预处理和差异分析,那么今天我们继续来看看如何将利用差异分析的结果绘制热和火山。 六、绘制差异表达基因的热 TCGAvisualize_Heatmap()绘制热的主要用法:等号后面对应的为默认参数。 ,故小编在这里使用pheatmap()绘制热。 七、绘制差异差异表达分析结果的火山 TCGAVisualize_volcano()绘制火山的主要用法: TCGAVisualize_volcano(x, y, filename = "volcano.pdf 九、结语 今天的热和火山就暂告一段落。

    6K53发布于 2021-01-25
  • 来自专栏为了不折腾而去折腾的那些事

    使用 Docker 和 Diffusers 快速上手 Stable Video Diffusion 视频大模型

    本篇文章聊聊,如何快速上手 Stable Video Diffusion (SVD) 视频大模型。 写在前面 月底计划在机器之心的“AI技术论坛”做关于使用开源模型 “Stable Diffusion 模型” 做有趣视频的实战分享。 模型的使用方式类似之前文生的 Stable Diffusion,还是简单的三段式使用方法:“输入内容”、“等待模型处理生成”、“获取AI 生成结果”。 下载模型 我们来完成镜像准备之外的 50% 的准备工作,下载模型。 [14]还是从 ModelScope 来下载模型[15],如果你选择的是 Model Scope,别忘记在你下载完模型之后,再从 HuggingFace 进行下仓库内容除两个大尺寸模型文件之外的内容更新

    1.8K10编辑于 2024-01-09
  • 元宝升级了!

    现在,一句话用元宝生成表情包组、四格漫画、人像写真、纪实摄影、设计配等,都更“懂你”了!元宝,从此细节更丰富、画质更细腻。打开元宝App,顶部切换至 「Hunyuan」 模型,即可开始创作。 不多说了,直接上图——❶表情包组还在四处收藏别人的表情包?不够用?现在,给元宝一句话指令,即可无限量生成专属表情包。风格统一,图文并茂。 提示词:帮我画一张图片:在纸上写出详细解题过程:解方程组2x+3y=7,x+2y=3,比例是3:4❹模型三视图建模成本太高、太费时间? 把想法告诉元宝, 就能生成3D模型三视图,让创意一目了然,从各个角度展示奇思妙想。 背景虚化,焦点集中在她富有故事性的脸庞上,比例是4:3表情包、四格漫画、图文设计、写真…现在都能在元宝里一句话生成快打开元宝App,切换到「Hunyuan」模型 感受与混元图像 3.0 的创意之旅吧!

    3.4K10编辑于 2025-10-10
  • 来自专栏C/C++指南

    AIGC实战技巧分享

    引言 本文展示了 AIGC 相关的代码示例,包括安装与配置、数据处理以及请求等不同阶段的代码,清晰呈现了整个技术实现过程中代码层面的操作要点和逻辑 安装与配置代码 在使用 AIGC 进行时 import torch # 检查是否可以使用GPU,如果有可用GPU则将后续运算放在GPU上执行(以cuda为例),这样可以加速过程 if torch.cuda.is_available() 请求代码 以下是实际发起请求的代码示例以及相关参数意义和返回结果处理方式的说明。 -5") # 将模型移动到GPU上运行(如果有可用GPU且配置正确),加速过程 pipe = pipe.to("cuda") # 定义输入的提示词,也就是描述想要生成图像内容的文本,例如这里描述生成一幅海边日落的图像 pipe(prompt).images[0] 这部分是发起请求并获取生成的图像,pipe 就是之前加载好并配置好的模型对象,调用它并传入 prompt 就会触发模型根据提示词进行图像生成,返回的结果中

    37610编辑于 2025-01-08
  • 全球视频AI模型排名出炉!Seedance 1.0夺冠,Gen4垫底

    这些场景因多模态视频技术的发展,正在一步步变成现实。视频 AI 模型正以前所未有的速度突破静态图像的边界,赋予其动态的生命力与叙事能力。 但却在空 Prompt 能力上,出现明显能力塌陷(得分 2.864),得分低于模型平均分,表现为视频的内容完全静止。 ,而 Pika 2.2、Gen4 这类海外模型则遗憾垫底,国产视频技术已实现从“跟跑”到“领跑”的跨越。 从这场多模态视频的评测结果可见,国产视频模型展现出了显著的技术优势,整体表现已超越海外模型,引领着该领域的发展。 ,视频模型或许终将打破「静态到动态」的次元壁,让每一张图片都成为无限故事的起点。

    2.7K10编辑于 2025-07-22
  • 来自专栏wayn的程序开发

    FastAPI开发AI应用教程七:新增文生功能

    本文将深入讲解如何在 FastAPI AI 聊天应用中实现文生功能,重点介绍豆包 Seedream 4.0 图像生成模型的强大能力。 通过本教程,你将学会如何构建完整的 AI 图像生成系统,包括文生等图像输出核心技术。 项目概述 想象一下,当你向 AI 描述一个场景时,AI 能够立即为你生成对应的高质量图像;当你上传一张图片时,AI 能够基于你的描述对图片进行创意改造——这就是我们要实现的文生功能! 能力特性 业界首款 4K 多模态:Seedream 4.0 是业界首款支持 4K 分辨率的多模态图像生成模型,能够灵活处理文本、图像的组合输入,实现多融合创作、参考生、组合、图像编辑等核心功能 、UI/UX 原型 专业海报:活动宣传、展览海报、信息图表 内容创作:社交媒体配、博客插图、创意素材 核心架构设计 ️ 系统架构图 数据模型设计 图像生成请求模型 class ImageGenerationAPIRequest

    60310编辑于 2025-11-13
  • 来自专栏生信识图

    信识图 之 点基础

    -----以下是日常碎碎念,日理万机的您,可以直接跳到分割线享用----- 大Y老师做信分析十多年了,在此期间结识很多实验大牛,发现大牛们做实验很大牛,但是对很多信的图表竟然一知(Wu)半( 为什么这么说呢,依据大Y老师的经验,做信其实是分为三个层次的: 层次一:看懂(能看懂文献的分析结果) 层次二:会做(会写代码,能完成别人的画图需求) 层次三:知道做什么(知道自己的数据需要用什么来展示 其实,如果不打算专门做信专业,完全可以跳过第二层次,直接跃迁到第三层!毕竟做实验很厉害就已经很厉害了呀。 那么问题来了,怎样实现从看懂到知道做什么的跃迁呢? 请大家先一起喝一口水,因为下面的内容可是全网独家干货,真的超干~ -----我是的分割线----- 信分析有很多基础的图形,在此基础上又发展出很多复杂花哨的变形或组合,酷炫得让人眼花缭乱。 补充元素不是成所必须的,但是可以提供额外的信息量,在每张图里可以有不同的存在方式。所以一张小小的点可以承载的信息量可是大大的。那么,点可以变身出哪些花哨绚丽的信图形呢?

    70250编辑于 2022-07-24
  • 来自专栏AI科技评论

    乱哗:AI 横扫初级设计狮

    几乎支持所有语言的理解,只要使用清晰详尽的描述就能生成比较符合预期的: 在“说人话”之后,看的就是 DALL·E 3 的绘图技术了,虽然输出的图片成品本身并不是目前“AI领域最高质量的作品”。 在生成图片方面,Midjourney提供了丰富的模型和功能。包括目前市面上最高逼真度的 V6,二次元风格的Niji 模型。 在市面上,Midjourney也因它能生成最接近真实摄影水平的图像而出圈。 目前Midjourney是全球范围内最具实用价值的AI工具,但操作门槛和直接付费成本也相对较高。 天工的AI基于自然语义的理解,在风格上可以按照自己的想法进行陈述。 https://www.stablediffusion.com (没有必要去访问) 团队在刚刚也就是2024年4月底有解散危机 可部署在本地电脑、需要一定的软件技术能力 成本取决于你在硬件设备上的投入 AI开源技术的代表

    54610编辑于 2024-04-26
领券