百度放出 ERNIE-Image，国产开源文生图多了个新选择

轻松玩K技

发布于 2026-04-24 19:43:47

1180

最近，gpt-image-2 的讨论度很高。作为 OpenAI 当前主推的生图模型，它在指令理解、图像生成和文字处理上的表现，确实把行业水位又往上抬了一截。

但如果把视线拉回开源这边，最近也有一件值得关注的事：

百度把文生图模型 ERNIE-Image 开源了。

这篇不聊谁强谁弱，也不做拉踩。就只介绍一件事：

ERNIE-Image 到底有什么特点，值不值得关注。

先说结论：它不是来“凑热闹”的

ERNIE-Image 是一套开源文生图模型，采用 DiT 架构，参数规模约 8B。这次一共放出了两个版本：

ERNIE-Image：标准版，适合看完整能力
ERNIE-Image-Turbo：更偏速度，适合日常体验和快速生成

从定位上看，它不是单纯追求“能生成”，而是更强调几个很实际的方向：

中文理解
中英文字渲染
图文混排能力
在消费级显卡上的可部署性

也就是说，它想解决的不是“有没有图”，而是“这张图能不能更接近真实使用场景”。

官方示例图

它最值得注意的一点，是“文字”终于没那么拉胯了

做 AI 生图的人，对这个痛点应该都不陌生：

人物能画，光影能做，氛围也能堆，但只要一碰到标题、招牌、按钮、宣传文案、界面文字，很多模型就开始失真、乱码、拼错字。

这也是为什么，ERNIE-Image 这次会被不少人注意到。

因为它主打的一个方向，就是文字渲染能力

通用基准测试里，开源模型第一

文字渲染是目前开源模型里最好的

注：Seedream 4.5是闭源的

按照官方给出的测试信息，它在中英文文字渲染方面有比较突出的表现，尤其适合下面这些场景：

海报标题
社媒配图
信息图
带文字的宣传图
带按钮和界面文案的页面示意图

换句话说，它特别适合那些本来就需要"图里有字"的内容。

官方示例

两个版本，思路很明确

这次 ERNIE-Image 没有只放一个模型，而是分成了标准版和 Turbo 版。

1、ERNIE-Image

标准版，推理步数更多，整体更偏稳定输出。如果你更想看完整能力，先看这个版本。

2、ERNIE-Image-Turbo

Turbo 版更偏效率路线，推理步数更少，出图速度更快。如果只是想先体验，或者更看重生成速度，这个版本会更适合。

这两个版本都已经上了魔塔：

ERNIE-Image： https://modelscope.cn/models/PaddlePaddle/ERNIE-Image

ERNIE-Image-Turbo： https://modelscope.cn/models/PaddlePaddle/ERNIE-Image-Turbo

部署门槛不算低，但也没高到离谱

如果你关心本地部署，这里也可以直接说结论：

它不是轻量级玩具模型，但也不是必须上服务器集群。

官方给出的方向是， 24GB 显存的消费级 GPU 就能运行，比如 RTX 3090、RTX 4090 这一类。

它确实有门槛，但这个门槛还在很多本地玩家和开发者能接触到的范围里。

对于开源文生图模型来说，这个定位其实挺现实：

不是人人都能随手跑，但也不是只能停留在“看看新闻”。

不想部署的话，直接在线试就行

如果你只是想看看效果，其实不用一上来就折腾环境。

百度提供了在线体验入口：

https://aistudio.baidu.com/ernieimage/generate

注册账号之后就能直接生成（目前应该没有限额）。先跑几张图，看看它对中文提示词的理解、看看文字渲染到底稳不稳，比先研究部署更实际。

另外还有一个小“后门”：

查看原图再保存，是没有水印的。

无水印保存

对普通用户来说，这一点反而很实用。

为什么这个模型值得看一眼

原因不复杂。

一方面，它是国产开源文生图里一个比较新的正式选手；另一方面，它补的不是边角能力，而是一直很影响实用性的“文字渲染”。

如果你平时更常做的是：

海报
封面
配图
页面草图
图文类视觉内容

那 ERNIE-Image 确实值得自己试一下。

至少从方向上看，它专注于补足真正会影响落地使用的那一块，而不是只卷画面感。

最后

ERNIE-Image 不一定要一上来就下很重的判断。但作为一个国产开源文生图模型，它已经有几个很明确的看点：

有正式开源项目
有标准版和 Turbo 版
有在线体验入口
有比较突出的文字渲染方向

如果你最近正好在关注 AI 生图，这个模型可以自己去跑几张看看。