首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >百度放出 ERNIE-Image,国产开源文生图多了个新选择

百度放出 ERNIE-Image,国产开源文生图多了个新选择

作者头像
轻松玩K技
发布2026-04-24 19:43:47
发布2026-04-24 19:43:47
1180
举报

最近,gpt-image-2 的讨论度很高。 作为 OpenAI 当前主推的生图模型,它在指令理解、图像生成和文字处理上的表现,确实把行业水位又往上抬了一截。

但如果把视线拉回开源这边,最近也有一件值得关注的事:

百度把文生图模型 ERNIE-Image 开源了。

这篇不聊谁强谁弱,也不做拉踩。 就只介绍一件事:

ERNIE-Image 到底有什么特点,值不值得关注。


先说结论:它不是来“凑热闹”的

ERNIE-Image 是一套开源文生图模型,采用 DiT 架构,参数规模约 8B。 这次一共放出了两个版本:

  • ERNIE-Image:标准版,适合看完整能力
  • ERNIE-Image-Turbo:更偏速度,适合日常体验和快速生成

从定位上看,它不是单纯追求“能生成”,而是更强调几个很实际的方向:

  • 中文理解
  • 中英文字渲染
  • 图文混排能力
  • 在消费级显卡上的可部署性

也就是说,它想解决的不是“有没有图”,而是“这张图能不能更接近真实使用场景”。

官方示例图
官方示例图

官方示例图


它最值得注意的一点,是“文字”终于没那么拉胯了

做 AI 生图的人,对这个痛点应该都不陌生:

人物能画,光影能做,氛围也能堆, 但只要一碰到标题、招牌、按钮、宣传文案、界面文字,很多模型就开始失真、乱码、拼错字。

这也是为什么,ERNIE-Image 这次会被不少人注意到。

因为它主打的一个方向,就是文字渲染能力

通用基准测试里,开源模型第一
通用基准测试里,开源模型第一

通用基准测试里,开源模型第一

文字渲染是目前开源模型里最好的
注:Seedream 4.5是闭源的
文字渲染是目前开源模型里最好的 注:Seedream 4.5是闭源的

文字渲染是目前开源模型里最好的

注:Seedream 4.5是闭源的

按照官方给出的测试信息,它在中英文文字渲染方面有比较突出的表现,尤其适合下面这些场景:

  • 海报标题
  • 社媒配图
  • 信息图
  • 带文字的宣传图
  • 带按钮和界面文案的页面示意图

换句话说,它特别适合那些本来就需要"图里有字"的内容。

官方示例
官方示例
官方示例
官方示例
官方示例
官方示例

官方示例


两个版本,思路很明确

这次 ERNIE-Image 没有只放一个模型,而是分成了标准版和 Turbo 版。

1、ERNIE-Image

标准版,推理步数更多,整体更偏稳定输出。 如果你更想看完整能力,先看这个版本。

2、ERNIE-Image-Turbo

Turbo 版更偏效率路线,推理步数更少,出图速度更快。 如果只是想先体验,或者更看重生成速度,这个版本会更适合。

这两个版本都已经上了魔塔:

ERNIE-Image: https://modelscope.cn/models/PaddlePaddle/ERNIE-Image

ERNIE-Image-Turbo: https://modelscope.cn/models/PaddlePaddle/ERNIE-Image-Turbo


部署门槛不算低,但也没高到离谱

如果你关心本地部署,这里也可以直接说结论:

它不是轻量级玩具模型,但也不是必须上服务器集群。

官方给出的方向是, 24GB 显存的消费级 GPU 就能运行,比如 RTX 3090、RTX 4090 这一类。

它确实有门槛, 但这个门槛还在很多本地玩家和开发者能接触到的范围里。

对于开源文生图模型来说,这个定位其实挺现实:

不是人人都能随手跑, 但也不是只能停留在“看看新闻”。


不想部署的话,直接在线试就行

如果你只是想看看效果,其实不用一上来就折腾环境。

百度提供了在线体验入口:

https://aistudio.baidu.com/ernieimage/generate

注册账号之后就能直接生成(目前应该没有限额)。 先跑几张图,看看它对中文提示词的理解、看看文字渲染到底稳不稳,比先研究部署更实际。

另外还有一个小“后门”:

查看原图再保存,是没有水印的。

无水印保存
无水印保存

无水印保存

对普通用户来说,这一点反而很实用。


为什么这个模型值得看一眼

原因不复杂。

一方面,它是国产开源文生图里一个比较新的正式选手; 另一方面,它补的不是边角能力,而是一直很影响实用性的“文字渲染”。

如果你平时更常做的是:

  • 海报
  • 封面
  • 配图
  • 页面草图
  • 图文类视觉内容

那 ERNIE-Image 确实值得自己试一下。

至少从方向上看,它专注于补足真正会影响落地使用的那一块,而不是只卷画面感。


最后

ERNIE-Image 不一定要一上来就下很重的判断。 但作为一个国产开源文生图模型,它已经有几个很明确的看点:

  • 有正式开源项目
  • 有标准版和 Turbo 版
  • 有在线体验入口
  • 有比较突出的文字渲染方向

如果你最近正好在关注 AI 生图,这个模型可以自己去跑几张看看。

相关地址放在下面:

GitHub 开源项目: https://github.com/baidu/ernie-image

魔塔模型下载: ERNIE-Image: https://modelscope.cn/models/PaddlePaddle/ERNIE-Image

ERNIE-Image-Turbo: https://modelscope.cn/models/PaddlePaddle/ERNIE-Image-Turbo

在线体验地址: https://aistudio.baidu.com/ernieimage/generate


趁现在能免费体验,赶紧分享给身边的朋友吧

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-04-23,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 轻松玩科技 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 先说结论:它不是来“凑热闹”的
  • 它最值得注意的一点,是“文字”终于没那么拉胯了
  • 两个版本,思路很明确
    • 1、ERNIE-Image
    • 2、ERNIE-Image-Turbo
  • 部署门槛不算低,但也没高到离谱
  • 不想部署的话,直接在线试就行
  • 为什么这个模型值得看一眼
  • 最后
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档