调试2天，实锤了，Nano Banana退位，即梦4.0加冕！谷哥哭晕，创作者集体狂笑

www.tangshuang.net

发布于 2025-12-29 17:07:34

4320

如果说社交媒体和短视频上对即梦4.0的评测算是跑分测试的话，那么生产环境下的实际体验则是真刀真枪的用money投票。我在折腾了很多次，浪费上百刀之后，把生产环境API从Nano Banana切换到了即梦4.0（Seedream-4）。

Google的小动作

多位博主都发出了一个共同的感慨，相比于之前在LMArena上的卓越表现，正式版发布后的gemini-2.5-flash-image-preivew的出图效果有点掉预期，而且在群里群友反馈这两天nano banana似乎在降智，指令的遵循度下降，同时，本来可以出2k图的，现在全都无法得到2k的分辨率。不知是否因为这段时间nano banana太火，富如google也有意控制算力成本，还是因为催促用户赶紧升级Pro计划而故意降低性能，总之，从体感上，nano banana现在有点拉。

新王即梦4.0即位

作为字节在AIGC领域的拳头产品，即梦的进步肉眼可见，无论是生图还是生视频，都越来越接近国外顶尖水平。除了不开源和会员贵的毛病外，无可挑剔，可能贵也不是它的问题，而是……

在操作参数上，多图参考、4K全部给到用户，还提供了sequential_image_generation开关，方便用户生成系列图（例如故事情节图）。同时，对于开发者而言，尺寸控制也全部给到，可以固定比例或与参考图一致，也可以自己设定width height。从实用性上，可谓诚意满满。（这真不是在恰饭，官方看到请联系我赏饭吃。）

出图效果上，香蕉能给到的，它全给你，此外，在亚洲人面孔、汉字处理等方面更是领先。

场景举例

接下来，我们来看几个用最新即梦生成的图片的场景案例。

提示词：将图1的服装换为图2的服装

提示词：图1为画面背景，图2中狮子爬在图3人物旁边，图3人物蹲在海边研究图4中的箱子，巧妙的将4张图片合成至一张图片，要求画风一致，画面协调

提示词：参考这个LOGO，做一套户外运动品牌视觉设计，品牌名称为“GREEN"，包括包装袋、帽子、纸盒、卡片、手环、挂绳等。绿色视觉主色调，趣味、简约现代风格

提示词：参考图1，生成四图片，分别为春夏秋冬四个场景的图片

提示词：参考这张图片，保持画面内容不变，将图像风格变为动漫风格

提示词：将平视视角改为俯视角，将近景改为中景

提示词：把图片文字换成创意字体

提示词：一个白板,上面写着以下方程式:E=mc^2sqrt (9) =3 (-b+/-sqrt (b^2-4ac) ) /2a

提示词：将画面比例调整为16:9

提示词：变成一张海报 “简约生活，尽在MUL”，花字，白色字体

以上都是官方的案例，可以看出，在各种图片处理的场景下，即梦4.0模型都是非常强大的。

另外，通过API还可以使用图组能力（即梦网站如何使用未知）。

提示词：生成3张女孩和奶牛玩偶在游乐园开心地坐过山车的图片，涵盖早晨、中午、晚上

注意，这可不是一张图，而是3张独立的图，因此，可以做到都是2K或4K的分辨率。基于这项能力，做连环画、漫画、剧情故事等，就显得非常简单啦。这可是香蕉没有的能力。

其实，之前Nano Banana的很多玩法，用即梦4.0也可以玩，而且关键是它还对中文prompt支持的更加准确。

提示词：把这张照片变成一个角色人偶，保持人偶动作与图片中的一致。在它后面，放置一个印有该角色图像的盒子，以及一台屏幕上显示Blender建模过程的电脑。在盒子前面，添加一个圆形塑料底座，让角色人偶站在上面。如果可能的话，将场景设置在室内。

感觉nano banana要更模板化一些，同样的提示词，基本是相同画面，而即梦更自由一些，一次出图4张各有不同。现在的新模型，即没有temperature，也没有seed，以至于无法固定出图效果，抽卡成为常态。

不足之处

目前来说，和Nano Banana相比，即梦4.0（我主要指API）还是有一些差距，主要包括如下几点：

出图质量，虽说gemini出图的分辨率低，但是在现实真实性上，总给人更真实的感觉，就像用索尼相机和其他相机，出片总有自带优化的感觉
稳定性，即梦出图稳定性相对比较差，给人信心不足，上一秒还很对味儿，下一秒出来的可能就有点拉，即梦似乎喜欢给自己加戏，比如在出人物时，你不想有太多动作，希望和原图保持一致，但是它喜欢让人物歪头卖个萌
价格没有优势，毕竟对于国内用户而言，价格一如既往的比国内其他厂商都贵
不开源，贵有贵的原因
提示词的稳定性，即梦的提示词有种让人琢磨不透的感觉，不如gemini那样对提示词理解的更准确，不过提示词本身也需要用户有一定功底，例如上面的生成手办的提示词中“保持人偶动作与图片中的一致”有和没有，结果会存在巨大差别。要使用即梦来做人物、动作等元素的一致性，对提示词的要求会高很多。我个人感觉，不知道对不对，可能是这样：gemini是你给了什么提示词，它做什么动作，没有提示的它不做，即使提示了它也可能不做；即梦是你没给提示词的，它自由发挥，你给了提示词，它收着点发挥。这是完全两种规则的感觉，可能因为gemini是多模态大模型，即梦是生图模型的原因，两者是干同一件事的不同物种。

为什么抛弃Nano Banana而且用Seedream？

我现在已经在多个生产环境场景下放弃Nano Banana了，它的出图无法达到我的预期，虽然在大家的评测下很强，但是在真正的生产中，它显得很犟，无论如何调整提示词，都不能按照我的想法出图，相反，Seedream很容易接近预期，虽然在稳定性和提示词理解上，即梦稍差一些，但是在符合图片结果预期上却显得很稳，总是能按照预期出图（虽不完美，但是比gemini可用）。

举一个我实际生产中的例子，上一篇我讲了视频人物替换，但是在实际生产中，我们必须先用生图模型先替换视频场景中的人物为目标人物，这对于gemini而言，简直就是噩梦，运行10次，可能只有1次结果可用，而使用即梦，调试好提示词之后，出图结果却非常稳定，虽然人物一致性表现差一些，但是整体画面接近预期的效率却高很多很多。

上图是我的一个换人视频的效果演示，用seedream-4完成了人物替换，从上面这张动图你可以发现，在人物的五官一致性、头发细节上，即梦还是差一些，但是人物整体的发型、服装都保持的很好，而至今为止，我还没有通过nano banana得到一张满意的图。这就是为什么，我在生产环境中，切换到seedream-4的原因。

小结

从gpt-4o到flux-kontext，再到Nano Banana的位置还未坐稳，如今seedream又站到了顶端，在AIGC的领域，我们的工具箱越来越丰富，这对于我们创作者而言是好事，近期B站又开源了IndexTTS，可以实现长语音合成，为我们进行创作又提供了非常棒的工具。人人都是创作者的时代来了，这是已经发生的事实。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2025-09-10，如有侵权请联系 cloudcommunity@tencent.com 删除

调试