

在 AGI-Eval 社区最新的文生图模型评测中,字节跳动新一代模型 Seedream 4.0以显著优势强势登顶。该模型的核心特点在于其统一化架构,尝试将图像生成、 编辑及多图处理等功能整合于单一创作流程中。本文旨在通过科学、公正的测试与分析,深度剖析其登顶背后的能力表现,并评估其对 AI 辅助创作的实际影响。

该榜单已同步更新至 AGI-Eval 评测社区,进入小程序,点击评测榜单,即可查看各模型完整细分指标。
Seedream 4.0 引入了数个关键的架构与功能升级,其设计目标是超越当前割裂的工具链,提供一体化且更强大的用户体验。
为了对 Seedream 4.0 的性能进行量化与质化评估,AGI-Eval 采用人工评测、自动评测两种形式,共有 1900 条数据集:自动评测包含人像生成 / 人物动物属性生成 / 实体生成 / 实体属性生成 / 字符信息生成 / 情感认知 6 个大类,共计 1000 条;主观评测包含美学专项/字符/人像/通用评测 4 个子集,共计 900 条。评估内容主要考察模型在内容理解、视觉元素生成、合成与渲染等方面能力。
2.1 评测核心维度
2.2 评测专项能力
为了得到符合用户主观感受的评估结果,评测社区对各模型在人工评测数据上进行了 5 档 MOS 分的人工评测,各模型得分归一化后的分值,如下图所示,为 AGI-Eval 社区最新的文生图模型人工评测榜单。

计算逻辑:综合分=通用维度得分*2/3 +美学维度得分*1/3
综合分排名虽然给出了直观的排序,但它无法展示各模型在能力上的具体差异与取舍。为了更全面地展现各模型的具体能力分布与特长,接下来,我们将继续为大家解读细分榜单。




光看分数不够直观?为此,我们精心挑选了几个典型 Prompt,聚焦于美学表现、多图生成、分维度及字符生成等关键场景,以直观对比的方式,深度检验 Seedream 4.0 的真实能力。
4.1 分维度评测案例
分维度指标中包含了一致性、合理性、真实性这三个细分子维度,下面一起来看实测效果。
prompt1:假如圆形代表女生,三角形代表男生,根据这个假设,仅用圆形和三角形,生成两男生、两女生被涂鸦在一面砖墙上的画面。
生成效果:Seedream 4.0 > Dreamina 3.0
Seedream 4.0:

Dreamina 3.0:

对比评估:在一致性方面更加明显,Seedream 4.0 能较好的理解题目中的推理假设信息,Dreamina 3.0 未理解题目。
prompt2:餐桌上放着一个电饭煲,它的左右两边各放了一碗冒着热气的白米饭。
生成效果:GPT-4o > Seedream 4.0
Seedream 4.0:

GPT-4o:

对比评估:在合理性方面,Seedream 4.0 主体电饭煲上的文字生成乱码、模糊,桌面米饭折射的光影形状也不太符合现实;GPT-4o 生成主体外观基本无异常。
prompt3:四个酒瓶
生成效果:GPT-4o > Seedream 4.0
Seedream 4.0:

GPT-4o:

对比评估:在一致性方面,Seedream 4.0 对数量生成出现错误,GPT-4o 生成准确。
prompt4:两只猫和一只狗正在草地上坐着
生成效果:Seedream 4.0 > GPT-4o
Seedream 4.0:

GPT-4o:

对比评估:在真实性方面,Seedream 4.0 生成实体质感较自然,但前景的水珠有一定的复制粘贴感;GPT-4o 整体实体质感僵硬,生物面部过于对称(相似),中间的狗的腿部以及没有绒毛的质感,拼贴感明显。
prompt5:树枝上,一只变色龙紧紧地盯着一只螳螂,变色龙的皮肤正在发生颜色变化,原本黄色的身体有一半已经变绿。
生成效果:Seedream 4.0 > GPT-4o
Seedream 4.0:

GPT-4o:

对比评估:真实性方面,Seedream 4.0 整体图片色彩饱和度、质感较自然,GPT-4o 整体数字化、锐化严重,实体之间边缘过于清晰,过渡不自然。
4.2 美学维度评测案例
prompt1:一个充满节日气氛的墨西哥亡灵节庆典,有着充满活力的糖颅骨脸部彩绘、多彩的剪纸装饰以及传统的万寿菊花。
生成效果:Dreamina 3.0 = Dreamina 2.1 > Seedream 4.0
Seedream 4.0:

Dreamina 3.0:

Dreamina 2.1:

对比评估:在美学方面,Seedream 4.0 较 Dreamina 3.0 和 Dreamina 2.1 下降,主要是色彩和光影方面的问题,色彩方面配色不平衡,饱和度与明度失衡;光影方面曝光控制不好,光源问题加重,对比度和锐化度的失衡加重,整体导致不自然、不平衡。但在人像构图上对动态感、瞬间感的把握有所提升。
prompt2:苏格兰高地的一座中世纪城堡,被郁郁葱葱的绿色植被、雾蒙蒙的山脉和历史氛围所环绕。
生成效果:Dreamina 3.0 = Dreamina 2.1 > Seedream 4.0
Seedream 4.0:

Dreamina 3.0:

Dreamina 2.1:

对比评估:在美学方面,Seedream 4.0 较 Dreamina 3.0 和 Dreamina 2.1 下降,主要是色彩和光影方面的问题,色彩方面偏重某一个色调,光影方面曝光控制不好,图例偏黄偏暗,光源问题加重,锐化偏高,对比度失衡,整体导致不自然、不平衡。但风景构图方面有增加空间感、视觉引导的尝试。
4.3 能力项评测案例
在能力项维度,我们重点考察“多图生成”这一行业普遍难题,以检验各模型对复杂序列指令的理解与执行能力。
prompt1:生成一组具有顺序关系图片,内容为一名穿着蓝色短袖的男士一口气把一瓶纯净水喝完,最后把空瓶子扔进垃圾桶。
生成效果:Dreamina 3.0 = GPT-4o > Seedream 4.0
Seedream 4.0:

Dreamina3.0:

GPT-4o:

对比评估:在多图生成方面,Seedream 4.0、Dreamina 3.0、GPT-4o 都存在无法理解“多图”指令,会在产品端以多张单图的形式呈现出来一系列图,以此组合为“多图”;其中 Seedream 4.0问题最严重,Dreamina 3.0 和 GPT-4o 也存在少量多图指令生成为单图。
prompt2:生成一组图片,展示一个人走在路上忽然开始下雨了,因为没带伞最终被淋成了落汤鸡,用简笔画风格体现出滑稽搞笑的氛围。
生成效果:GPT-4o > Seedream 4.0 = Dreamina 3.0
Seedream 4.0:

Dreamina 3.0:

GPT-4o:

对比评估:Seedream 4.0 未达成生成多图的要求,因此“下雨前后”的变化未能展现;Dreamina 3.0 则虽然生成了多图,但图片内的时序逻辑较混乱,也未能理解“落汤鸡”这一典型的中文词含义;GPT-4o 则体现较好,既符合多图的要求,也符合时序逻辑。
4.4 专项(字符生成)评测案例
prompt1:冰箱门上贴着一张便签,上面写着 “summer”
生成效果:Seedream 4.0>GPT-4o
Seedream 4.0:

GPT-4o:

对比评估:字符生成真实性方面,Seedream 4.0 字体呈现自然、流畅,倾向是真实手写的内容;GPT-4o 虽然字符清晰,但有明显的 AI 生成感,像印上去的,比较生硬。
prompt2:一个木桌上,雕刻着汉字“龘”
生成效果:Seedream 4.0>GPT-4o
Seedream 4.0:

GPT-4o:

对比评估:在生成复杂文字的一致性要求上,Seedream 4.0 与 GPT-4o 均有一定偏差,但在真实性维度上,Seedream 4.0 明显更符合“在木桌上雕刻” 所具备的质感和光暗面,与木桌协调,而 GPT-4o 生成的字符较为突兀生硬,不符合雕刻的真实感。
Seedream 4.0 所体现的技术进步,不仅是其自身的亮点,更揭示了生成式模型发展的宏观趋势,并指向了通往更强通用人工智能的关键前沿。
本次评测深度剖析了字节跳动新一代模型 Seedream 4.0。结果显示,其与 Dreamina 3.0、GPT-4o 等模型的对比,并非简单的线性超越,而是一次战略路径上的分化。一方面,它在抽象逻辑推理和自然字符生成等体现更高智能的维度上表现突出,标志着 AI 生图的演进方向;另一方面,评测也暴露了其在色彩、光影等核心美学上的下滑,且未能解决多图叙事这一行业普遍难题。
尤为重要的是,Seedream 4.0 所探索的“统一框架”方向,标志着国产 AI 正从技术追赶者,向下一代创作工具的定义者转变。
以上就是本次评测的全部内容,AGI-Eval 评测社区将持续追踪这场通往更强AI的演进之旅,关注我们,后续将带来更多模型的深度剖析,敬请期待!

点击“阅读原文”可跳转至官网玩耍~
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。