
如果说社交媒体和短视频上对即梦4.0的评测算是跑分测试的话,那么生产环境下的实际体验则是真刀真枪的用money投票。我在折腾了很多次,浪费上百刀之后,把生产环境API从Nano Banana切换到了即梦4.0(Seedream-4)。
Google的小动作
多位博主都发出了一个共同的感慨,相比于之前在LMArena上的卓越表现,正式版发布后的gemini-2.5-flash-image-preivew的出图效果有点掉预期,而且在群里群友反馈这两天nano banana似乎在降智,指令的遵循度下降,同时,本来可以出2k图的,现在全都无法得到2k的分辨率。不知是否因为这段时间nano banana太火,富如google也有意控制算力成本,还是因为催促用户赶紧升级Pro计划而故意降低性能,总之,从体感上,nano banana现在有点拉。
新王即梦4.0即位
作为字节在AIGC领域的拳头产品,即梦的进步肉眼可见,无论是生图还是生视频,都越来越接近国外顶尖水平。除了不开源和会员贵的毛病外,无可挑剔,可能贵也不是它的问题,而是……
在操作参数上,多图参考、4K全部给到用户,还提供了sequential_image_generation开关,方便用户生成系列图(例如故事情节图)。同时,对于开发者而言,尺寸控制也全部给到,可以固定比例或与参考图一致,也可以自己设定width height。从实用性上,可谓诚意满满。(这真不是在恰饭,官方看到请联系我赏饭吃。)
出图效果上,香蕉能给到的,它全给你,此外,在亚洲人面孔、汉字处理等方面更是领先。
场景举例
接下来,我们来看几个用最新即梦生成的图片的场景案例。

提示词:将图1的服装换为图2的服装

提示词:图1为画面背景,图2中狮子爬在图3人物旁边,图3人物蹲在海边研究图4中的箱子,巧妙的将4张图片合成至一张图片,要求画风一致,画面协调

提示词:参考这个LOGO,做一套户外运动品牌视觉设计,品牌名称为“GREEN",包括包装袋、帽子、纸盒、卡片、手环、挂绳等。绿色视觉主色调,趣味、简约现代风格

提示词:参考图1,生成四图片,分别为春夏秋冬四个场景的图片

提示词:参考这张图片,保持画面内容不变,将图像风格变为动漫风格

提示词:将平视视角改为俯视角,将近景改为中景

提示词:把图片文字换成创意字体

提示词:一个白板,上面写着以下方程式:E=mc^2sqrt (9) =3 (-b+/-sqrt (b^2-4ac) ) /2a

提示词:将画面比例调整为16:9

提示词:变成一张海报 “简约生活,尽在MUL”,花字,白色字体
以上都是官方的案例,可以看出,在各种图片处理的场景下,即梦4.0模型都是非常强大的。
另外,通过API还可以使用图组能力(即梦网站如何使用未知)。

提示词:生成3张女孩和奶牛玩偶在游乐园开心地坐过山车的图片,涵盖早晨、中午、晚上
注意,这可不是一张图,而是3张独立的图,因此,可以做到都是2K或4K的分辨率。基于这项能力,做连环画、漫画、剧情故事等,就显得非常简单啦。这可是香蕉没有的能力。
其实,之前Nano Banana的很多玩法,用即梦4.0也可以玩,而且关键是它还对中文prompt支持的更加准确。

提示词:把这张照片变成一个角色人偶,保持人偶动作与图片中的一致。在它后面,放置一个印有该角色图像的盒子,以及一台屏幕上显示Blender建模过程的电脑。在盒子前面,添加一个圆形塑料底座,让角色人偶站在上面。如果可能的话,将场景设置在室内。
感觉nano banana要更模板化一些,同样的提示词,基本是相同画面,而即梦更自由一些,一次出图4张各有不同。现在的新模型,即没有temperature,也没有seed,以至于无法固定出图效果,抽卡成为常态。
不足之处
目前来说,和Nano Banana相比,即梦4.0(我主要指API)还是有一些差距,主要包括如下几点:
为什么抛弃Nano Banana而且用Seedream?
我现在已经在多个生产环境场景下放弃Nano Banana了,它的出图无法达到我的预期,虽然在大家的评测下很强,但是在真正的生产中,它显得很犟,无论如何调整提示词,都不能按照我的想法出图,相反,Seedream很容易接近预期,虽然在稳定性和提示词理解上,即梦稍差一些,但是在符合图片结果预期上却显得很稳,总是能按照预期出图(虽不完美,但是比gemini可用)。
举一个我实际生产中的例子,上一篇我讲了视频人物替换,但是在实际生产中,我们必须先用生图模型先替换视频场景中的人物为目标人物,这对于gemini而言,简直就是噩梦,运行10次,可能只有1次结果可用,而使用即梦,调试好提示词之后,出图结果却非常稳定,虽然人物一致性表现差一些,但是整体画面接近预期的效率却高很多很多。

上图是我的一个换人视频的效果演示,用seedream-4完成了人物替换,从上面这张动图你可以发现,在人物的五官一致性、头发细节上,即梦还是差一些,但是人物整体的发型、服装都保持的很好,而至今为止,我还没有通过nano banana得到一张满意的图。这就是为什么,我在生产环境中,切换到seedream-4的原因。
小结
从gpt-4o到flux-kontext,再到Nano Banana的位置还未坐稳,如今seedream又站到了顶端,在AIGC的领域,我们的工具箱越来越丰富,这对于我们创作者而言是好事,近期B站又开源了IndexTTS,可以实现长语音合成,为我们进行创作又提供了非常棒的工具。人人都是创作者的时代来了,这是已经发生的事实。