首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • AGI-Eval 实测:NanoBanana Pro 综合实力稳居第一梯队,图像编辑进入精细化时代

    (难易度:易)生成效果:Seedream4.0>Qwen-image-edit=FLUX.1-Kontext Pro=Nanobanana pro原图:NanoBanana Pro :Qwen-image-edit (难易度:易)生成效果:Nanobanana pro>Seedream4.0>Qwen-image-edit >FLUX.1-Kontext Pro原图:NanoBanana Pro:Qwen-image-edit (难易度:中)生成效果:Nanobanana pro>Qwen-image-edit =Seedream4.0=FLUX.1-Kontext Pro原图:NanoBanana Pro :Qwen-image-edit (难易度:难)生成效果:Nanobanana pro>Seedream4.0>FLUX.1-Kontext Pro>Qwen-image-edit 原图:NanoBanana Pro:Qwen-image-edit (难易度:难)生成效果:Nanobanana pro>Qwen-image-edit >Seedream4.0>FLUX.1-Kontext Pro原图:NanoBanana Pro:Qwen-image-edit

    63310编辑于 2025-12-11
  • 来自专栏wayn的程序开发

    Qwen-Image-Edit:千问编图,这次真的很强

    比如上周刚发布的 Qwen-Image-Edit 真的很强! 语义与外观双重编辑 Qwen-Image-Edit 最大的亮点,就是同时兼具“语义”和“外观”的双重编辑能力。语义编辑意味着它可以在保持图像语义不变的前提下,重新生成一个完全不同的画面。 但 Qwen-Image-Edit 在文字渲染方面有着深厚积累,可以在保持原有 字体、字号、排版风格的前提下,对文字进行增删改。 更重要的是,Qwen-Image-Edit 同时支持 中文和英文,这对于中文用户来说尤其友好。 最后 在多个公开基准测试中,Qwen-Image-Edit 已展现出 SOTA(state-of-the-art)性能,成为当下图像编辑领域的一股强大力量。

    1.4K10编辑于 2025-11-13
  • Open-Sora-Plan团队最新力作UniWorld-V2:图像编辑涨点神器,旧模型也能秒变SoTA!

    实证性能突破:实验表明,该方法显著提升UniWorld-V2、Qwen-Image-Edit和FLUX.1-Kontext等模型在多样化编辑基准上的性能表现。 该框架与模型无关,展示了在不同基础模型(如Qwen-Image-Edit和FLUX-Kontext)上的显著性能提升,证明了其广泛适用性。 方法 初步准备 流匹配。 训练 本文使用 FLUX.1-Kontext [Dev]、Qwen-Image-Edit [2509] 和 UniWorld-V2 作为基础模型。 同时,UniWorld-V2在这一基准测试中建立了新的最先进水平,超越了所有列出的模型,包括 Qwen-Image-Edit(7.56)和 GPT-Image-1(7.53)。 为了评估奖励模型扩展对策略模型性能的影响,本文在相同步数下使用不同参数规模的奖励模型对 Qwen-Image-Edit 进行微调,以便进行公平比较。

    31910编辑于 2025-11-17
  • 来自专栏AgenticAI

    谷歌nana-banana平替来了?字节开源 USO:人物和画风,我全都要!

    最近 AI 绘画的进展一个接一个:前有 Qwen-Image-Edit 带来了更自然的图像编辑体验,后有 Google 的 nana-banana,把“人物一致性 + 风格迁移”结合到了一起。 庖丁解牛 相比 Qwen-Image-Edit 的“编辑场景更灵活”、nana-banana 的“人物和风格两手抓”,USO走的是更彻底的一步——它要把这两类问题统一在一套框架里解决。 总结 我个人感觉,最近绘画方面的进展非常大,前有Qwen-Image-Edit,后有Google nana-banana,现在字节给出了新的解答。

    68010编辑于 2025-09-02
  • 来自专栏AgenticAI

    每日HuggingFace Top20热门大模型(0824)

    Qwen/Qwen-Image-Edit 多模态图像编辑利器。Qwen/Qwen-Image-Edit 是一款专注于图像编辑的多模态模型,基于 20B Qwen-Image 模型构建。 原文链接:https://huggingface.co/Qwen/Qwen-Image-Edit 2. deepseek-ai/DeepSeek-V3.1-Base 混合模式通用大模型。 QuantStack/Qwen-Image-Edit-GGUF 是一款基于 Qwen/Qwen-Image-Edit 的图像编辑模型,定位为多模态模型。

    1K10编辑于 2025-08-25
  • 北航&美团等最新EditThinker:给AI修图装上“大脑”,Flux、OmniGen2瞬间智商暴涨!

    本文的框架将编辑工作流明确地解耦为两个不同的角色:一个用于判断和推理的思考者,一个用于执行的编辑器,其中思考者通过 SFT 和 RL 进行训练,编辑器是任何现有的图像编辑模型(例如,Qwen-Image-Edit 因此,对于 SFT 模型来说,一个看似最优的指令 在由实际编辑器(如 Qwen-Image-Edit)执行时仍然可能失败。这在理想推理和实际执行之间造成了差距。 在推理阶段,本文的“思考即编辑”范式与 OmniGen2、Flux Kontext [dev]和 Qwen-Image-Edit结合使用。 在 ImgEdit-Bench 上,EditThinker 将 FLUX.1-Kontext [Dev] 的总体分数从 3.44 提高到 3.98,OmniGen2 从 3.4 提高到 3.5,Qwen-Image-Edit FLUX.1-Kontext [Dev] 从 5.8 提高到 14.4,OmniGen2 从 3.1 提高到 3.4,Qwen-Image-Edit 从 8.9 提高到 17.8。

    23110编辑于 2025-12-21
  • 新加坡国立等发布WEAVE:首个上下文交错式跨模态理解与生成全套解决方案

    值得注意的是,Qwen-Image-Edit表现出7.1%的显著提升,这可能源于其生成能力相对nano-banana[21]固有较弱。 序列输入优势。 例如图中左侧案例,OmniGen和Ovis未能正确执行生成;右侧案例第三列显示Qwen-Image-Edit仅生成塔楼而未包含任何人像。(ii) 基于weave数据集的微调催生了视觉记忆能力。 评判器使用的可靠性 为评估VLM-as-a-judge评分的可靠性,开展了专家评估研究,邀请三位人类专家对Nano-banana、Qwen-Image-Edit和SeeDream模型进行交叉评估,每个模型分析

    26210编辑于 2025-11-29
  • CVPR 2026|“全能AI海报设计师”PosterOmni开源: 6大任务笑傲开源社区,媲美闭源商用

    2) 定量对比:六项任务全线领先,开源里断层,闭源里逼近 在 PosterOmni-Bench 上,我们对比了主流开源系统(如 Qwen-Image-Edit、FLUX.1 Kontext、BAGEL、 对比 Qwen-Image-Edit:PosterOmni 在 Extend / Fill / Rescale / ID / Layout / Style 六项上均明显提升,尤其在 Layout-driven (a) 任务蒸馏 vs 直接混训: 我们对比了: 基座模型(如 Qwen-Image-Edit) 六任务直接混训(Mixed Training) 只训局部专家 / 只训全局专家 先训专家再蒸馏到学生(Task

    26110编辑于 2026-02-28
  • 来自专栏机器之心

    Snapchat提出Canvas-to-Image:一张画布集成 ID、姿态与布局

    这些异构视觉符号中包含的空间关系、语义信息,都由 VLM-Diffusion(基于 Qwen-Image-Edit)直接解析。

    13210编辑于 2025-12-24
  • 来自专栏AI进修生

    Seedream 4.0 登顶图像第一,实测+超详细教程来了!(对比nano banana)

    ,右边是Seedream4.0采用相同的提示词制作手办图片的效果: 新海诚风格转换 case1:这个西瓜原图也是我之前介绍的用谷歌4生成的 原图 flux-1-kontext-dev Vs qwen-image-edit VS Seedream4.0 case2:从左到右分别是原图、 flux-1-kontext-pro 、 Seedream4.0(p1、p2)、qwen-image-edit Seedream4.0生成的效果更加接近

    1.9K10编辑于 2025-09-30
  • 图文双指令开智能创作新纪元!DreamOmni2实现“意念级”P图,文字图片都是你的画笔!

    虽然 Kontext和 Qwen-Image-Edit原生不支持多图像输入,本文应用了 Diffusers的方法,将多张图像合并为一个输入。

    22110编辑于 2025-11-17
  • 每周AI论文速递(251201-251205)

    一种常见的架构设计是将多模态大语言模型 (Multimodal Large Language Model, MLLM) 编码器与扩散解码器相结合,例如 Step1X-Edit 和 Qwen-Image-Edit 此外,当与 Qwen-Image-Edit 结合构建 ReasonEdit-Q 时,其在 GEdit 和 Kris 基准上的表现也超越了此前所有的开源方法。

    29010编辑于 2025-12-21
  • AI合影毫无违和感!复旦&阶跃星辰重磅开源WithAnyone:可控、高保真多身份生成SOTA!

    通用定制模型包括 OmniGen、OmniGen2、Qwen-Image-Edit、FLUX.1 Kontext、UNO、USO、UMO 和本机 GPT-4o-Image。

    26210编辑于 2025-11-17
  • 来自专栏golang与云原生

    【翻译】2025年:大语言模型年度回顾

    这方面最著名的开放权重竞争对手来自 Qwen,他们在 8 月 4 日推出了 Qwen-Image 生成模型,随后在 8 月 19 日推出了 Qwen-Image-Edit

    85010编辑于 2026-01-09
  • 2025:LLMs(大语言模型)的元年(译)

    最值得关注的开放权重竞品来自 Qwen:他们在 8 月 4 日发布 Qwen-Image 生成模型,8 月 19 日又发布 Qwen-Image-Edit

    41710编辑于 2026-02-04
  • 每周AI论文速递(260209-260213)

    1.0 在多项基准测试中均取得了领先的性能表现,其在 WISE 基准上超越了 800亿 参数的 HunyuanImage 达 28%,在 UniREditBench 基准上超越了 270亿 参数的 Qwen-Image-Edit

    38810编辑于 2026-03-02
领券