首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >刷屏背后的 AI画图:80% 可以被替代,剩下 20% 才是核心价值

刷屏背后的 AI画图:80% 可以被替代,剩下 20% 才是核心价值

作者头像
吃一大口奶酪
发布2026-04-25 20:25:15
发布2026-04-25 20:25:15
310
举报

最近彻底被 AI 画图刷屏了,各种群里都是 gpt-image-2 生成的抖音直播截图,大家也纷纷分享自己生成的图。推特同样疯狂,刷新时间线几乎每次都有新爆款。我常用的社交平台几乎全军覆没。

无处可逃。

我刷了一会儿,脑子里突然闪过一个念头——Nano Banana 刚出现的时候、GPT-4o 原生生图带动的吉卜力风潮,那几天也是一片疯狂,案例满天飞。一波接一波。但 AI 生图究竟是如何一步步发展到今天的,我好像从未系统梳理过。

于是我决定把近几年的生成图模型梳一遍:StyleGAN、DALL·E、Stable Diffusion、Midjourney、Flux、GPT-4o 原生生图、Nano Banana、gpt-image-2。每一代模型的诞生背景、解决的痛点,梳理清楚后再写这篇文章。

我本身学设计出身,画过画,也做过建模,对 AI 生图的变化感受比普通人直接。


01. 从「画不出人脸」到「以假乱真」

AI 生图经历了三个技术阶段,每一阶段都是为了解决上一阶段的局限。

第一阶段:GAN 时代(2014-2021)

生成对抗网络(GAN)原理像两人对练:一个负责造假,一个负责鉴别真假。造假者不断改进,经过数百万次博弈,最终生成的图连鉴定师都辨不出。

这一时期最知名的是 2018 年英伟达的 StyleGAN。网站 thispersondoesnotexist 每刷新一次就生成一张不存在的人脸。

GAN 的局限是明显的:它只能画训练过的类型。比如训练人脸,它只能画人脸。想让它画“穿宇航服的柴犬在月球喝咖啡”?不行。能力狭窄,像一个只会肖像画的画师。


第二阶段:Diffusion 时代(2021-2023)

2021 年 DALL·E、2022 年 DALL·E 2 是转折点。

DALL·E 1 可以根据文字生成图像,但画质低、像素小,画风稚嫩。不过它标志着AI 第一次能听懂文字描述画东西

扩散模型(Diffusion Model)原理是反向还原:先给图像加噪成一团杂点,再训练模型学会去噪生成清晰图。训练稳定,画质提升明显。

2022 年 Stable Diffusion 出现,实现了完全开源。任何人用消费级显卡都能生成高质量图像,推动了 ComfyUI、WebUI、ControlNet、LoRA 等生态发展。与此同时,Midjourney 在 Discord 社区走红,输出质量接近摄影级。


第三阶段:原生多模态时代(2023-2026)

扩散模型解决了画质和理解问题,但图像依旧有“AI 感”,文字渲染也不完美。

2023 年 DALL·E 3 集成 ChatGPT,理解能力大幅提升,文字可以准确渲染。

2024 年 Flux 使用 DiT 架构,将扩散模型与 Transformer 结合,文字渲染准确率提升至 88-92%。

真正的质变是 2025 年 GPT-4o 原生生图:文字和图像在同一个模型里生成,无需中间调用,边聊边生成图像,用户体验如同与画师互动。吉卜力风格潮流由此而起。

随后 Google 推出 Nano Banana 系列,重点在角色一致性多图融合,可以保证同一角色在多场景中保持一致,适合插画、游戏立绘、系列视觉创作。

2026 年 gpt-image-2 增加 Thinking Mode,AI 会先“思考”构图、配色、文字位置再作图,文字准确率高达 99%,极大提高了效率。


总结三个阶段:

GAN

Diffusion

原生多模态

画得像

画得多、稳、听得懂

画得准、画得一致、可对话迭代


02. AI 能替代什么

目前 AI 替代的主要是执行层工作:写作、排版、文案初稿、海报文字、产品描述等。图片生成方面,证件照、修图、写真、详情页配图等标准化任务,AI 已能覆盖 80% 以上。

我个人用 AI 跑教育行业项目,一个月就完成一个全流程项目,实现收入 26,540 元。以前人工无法在短时间完成,现在一个人加一套工作流就能搞定。

可复制经验总结三点:

  1. 客户不会用 AI,你帮他交付,这是利润空间。
  2. 批量任务价值高,单张生成价值低。
  3. 理解行业规则和客户需求的人少,懂得优化输出的人更值钱。

AI 替代的是执行,但思考和决策仍需人类。


03. 工具变了,但需求没变

从毛笔、油画、铅笔、PS 到 AI,每一次工具变革都会引发恐慌,但消失的只是重复劳动,不是创作本身。

AI 已替代标准化、重复性的 80% 任务,剩下的 20% 才是核心价值:思考、判断、审美、创意。

同样一张高质量 AI 图,价值差别取决于使用者的思维与创意。AI 只是工具,把你的想法放大百倍:想割韭菜,效率更高;想提升行业效率,也能事半功倍。

剩下的 20%,才是最值钱的。

作者:挽安学长 链接:https://juejin.cn/post/7632257742683668530 来源:稀土掘金 著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

本文系转载,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文系转载前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 01. 从「画不出人脸」到「以假乱真」
  • 02. AI 能替代什么
  • 03. 工具变了,但需求没变
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档