
最近,gpt-image-2 的讨论度很高。
作为 OpenAI 当前主推的生图模型,它在指令理解、图像生成和文字处理上的表现,确实把行业水位又往上抬了一截。
但如果把视线拉回开源这边,最近也有一件值得关注的事:
百度把文生图模型 ERNIE-Image 开源了。
这篇不聊谁强谁弱,也不做拉踩。 就只介绍一件事:
ERNIE-Image 到底有什么特点,值不值得关注。
ERNIE-Image 是一套开源文生图模型,采用 DiT 架构,参数规模约 8B。 这次一共放出了两个版本:
从定位上看,它不是单纯追求“能生成”,而是更强调几个很实际的方向:
也就是说,它想解决的不是“有没有图”,而是“这张图能不能更接近真实使用场景”。

官方示例图
做 AI 生图的人,对这个痛点应该都不陌生:
人物能画,光影能做,氛围也能堆, 但只要一碰到标题、招牌、按钮、宣传文案、界面文字,很多模型就开始失真、乱码、拼错字。
这也是为什么,ERNIE-Image 这次会被不少人注意到。
因为它主打的一个方向,就是文字渲染能力

通用基准测试里,开源模型第一

文字渲染是目前开源模型里最好的
注:Seedream 4.5是闭源的
按照官方给出的测试信息,它在中英文文字渲染方面有比较突出的表现,尤其适合下面这些场景:
换句话说,它特别适合那些本来就需要"图里有字"的内容。



官方示例
这次 ERNIE-Image 没有只放一个模型,而是分成了标准版和 Turbo 版。
标准版,推理步数更多,整体更偏稳定输出。 如果你更想看完整能力,先看这个版本。
Turbo 版更偏效率路线,推理步数更少,出图速度更快。 如果只是想先体验,或者更看重生成速度,这个版本会更适合。
这两个版本都已经上了魔塔:
ERNIE-Image: https://modelscope.cn/models/PaddlePaddle/ERNIE-Image
ERNIE-Image-Turbo: https://modelscope.cn/models/PaddlePaddle/ERNIE-Image-Turbo
如果你关心本地部署,这里也可以直接说结论:
它不是轻量级玩具模型,但也不是必须上服务器集群。
官方给出的方向是, 24GB 显存的消费级 GPU 就能运行,比如 RTX 3090、RTX 4090 这一类。
它确实有门槛, 但这个门槛还在很多本地玩家和开发者能接触到的范围里。
对于开源文生图模型来说,这个定位其实挺现实:
不是人人都能随手跑, 但也不是只能停留在“看看新闻”。
如果你只是想看看效果,其实不用一上来就折腾环境。
百度提供了在线体验入口:
https://aistudio.baidu.com/ernieimage/generate
注册账号之后就能直接生成(目前应该没有限额)。 先跑几张图,看看它对中文提示词的理解、看看文字渲染到底稳不稳,比先研究部署更实际。
另外还有一个小“后门”:
查看原图再保存,是没有水印的。

无水印保存
对普通用户来说,这一点反而很实用。
原因不复杂。
一方面,它是国产开源文生图里一个比较新的正式选手; 另一方面,它补的不是边角能力,而是一直很影响实用性的“文字渲染”。
如果你平时更常做的是:
那 ERNIE-Image 确实值得自己试一下。
至少从方向上看,它专注于补足真正会影响落地使用的那一块,而不是只卷画面感。
ERNIE-Image 不一定要一上来就下很重的判断。 但作为一个国产开源文生图模型,它已经有几个很明确的看点:
如果你最近正好在关注 AI 生图,这个模型可以自己去跑几张看看。
相关地址放在下面:
GitHub 开源项目: https://github.com/baidu/ernie-image
魔塔模型下载:
ERNIE-Image:
https://modelscope.cn/models/PaddlePaddle/ERNIE-Image
ERNIE-Image-Turbo:
https://modelscope.cn/models/PaddlePaddle/ERNIE-Image-Turbo
在线体验地址:
https://aistudio.baidu.com/ernieimage/generate
趁现在能免费体验,赶紧分享给身边的朋友吧