曹士圯、余一、袁晓辉 腾讯研究院
从“先验战场”到“丰饶之后”
2025 年 7 月,我们发布第一版《AI Coding 非共识报告》,用“AI 透镜”对准这个行业最快的变量,留下了一个判断:AI Coding 是通用 Agent 的先验战场,也是“丰饶时代”的第一块试验田。
9 个月过去,许多当时被称为“非共识”的判断,已经成了共识;而真正的非共识,又迁移到了新的位置。
在这 9 个月里:Claude Opus 从 4.1 走到 4.7,SWE-bench Verified 从 74% 跳到 87.6% 并被新的编程评测取代;Cursor 估值从 293 亿美元谈到 500 亿美元;Claude Code 收入从零增长到 25 亿美元;METR 那个著名的“AI 让开发者慢 19%”的实验结果,在后续实验里逆转为快 18%;YC W2025 批次里,25% 的创业公司 95% 以上的代码由 AI 生成。
进入 2026 年第一季度,变量的数量和速度都超过了我们自己去年的预期。于是我们决定刷新对 AI Coding 的观察:站在 9 个月后,重新看那 7 条非共识现在验证到了哪里;再把 9 个月里真正让我们震动的东西,提炼成 6 个结构性洞察。
这便是 《丰饶之后:AI Coding 观察报告 2.0》。
9 个月后:7 条非共识的回望
一版留下的 7 条非共识,9 个月后的验证情况是这样的。
01 产品形态(本地 vs 云端)
一版没有简单站队,而是用“本地×云端/交互辅助×自主执行”四象限切分出 IDE 插件、CLI、Vibe Coding、异步 Coding Agent 四类,并把 CLI 单独称为“进可攻退可守的通用潜力股”。9 个月后,这个判断兑现方式超预期:CLI 不只是通用,而是全面赢得了开发者内循环(Claude Code 8 个月成为最受使用和喜爱的工具);IDE 在专业场景坚守并 Agent 化(Cursor 3、Google Antigravity、VSCode Multi-Agent);Vibe Coding 产品向设计等通用场景迁移;云端异步 Agent 则在“龙虾热”下把 IM 变为交互入口。四象限结构仍然成立,重心向 CLI 与异步侧迁移。
02 模型选择(自研 vs 第三方)
一版的“自研 + 第三方”四象限仍是理解模型策略的基本框架,并指出“多模型策略 + 智能路由”正在成为主流。9 个月后,原问题“该选哪家模型”已被更深层问题取代:六大商业模型在 SWE-bench Verified 上压缩到 1 个百分点区间内,开源 Qwen3-Coder 追至 80% 段位。但 Anthropic 在 2026 年 4 月同时发布 Mythos Preview(93.9%,不公开)与 Opus 4.7(87.6%,公开),双轨机制表明前沿实验室的能力储备与已公开模型之间,正在拉开新的差距。
03 用户价值(提效 vs 降效)
已跨越争议期。METR 同批参与者在 2026 年 2 月的后续实验中,从慢 19% 逆转为快 18%(CI -38% 到 +9%),30%–50% 的开发者拒绝“无 AI”条件。争议期已跨越,但一版埋下的测量论(“自我报告的时间节省与 PR 吞吐量指标之间存在脱节”)在二版谈 AI 生产力时仍然值得引用。
04 付费模式(固定 vs 按需)
这条验证最彻底。所有主流产品(Cursor/Claude Code/Copilot/Devin/Replit Agent)都走向 Token/Credit/ACU(Agent Compute Unit)等抽象计费单元的按需或混合制。一个延伸判断:AI 的成本倒逼驾驭工程,每次 Agent 失败都是直接成本,这成为企业投资驾驭框架的直接商业理由。
05 企业态度(激进 vs 渐进)
两极分化进一步加剧。微软、谷歌内部 AI 代码占比约 30%、Meta 未到 50%,Dario Amodei 当年“3–6 个月内 AI 写 90% 代码”的最激进预测没达成;但激进做法仍在扩散:Microsoft、Shopify 把 AI 使用计入绩效,Perplexity 的“强制使用”被更多公司采纳,Jellyfish 调研显示“仅 22.5% 有正式政策”,分化继续放大。
06 组织影响(裁员 vs 扩张)
同时发生,但发生在不同技能层。一版的关键数据(软件开发岗位仅为 2020 年 1 月的 65%、初级岗位从 30% 降至 20%、高级岗位从 30% 升至 40%、“10 人做 100 人的事”、Cursor 20 人做到 1 亿美元 ARR)9 个月后每条都被进一步印证。但也出现了一版未充分展开的新维度:AI 不是简单替代 N 个人,而是在拉高下限(非开发者进入构建)的同时提高上限(高级工程师杠杆放大)。Staff+ 工程师 63.5% 是最重度 Agent 用户,最有经验的人受益最多。
07 市场格局(专业 vs 普惠)
“先验战场”充分验证。Karpathy Software 1.02.03.0(codeweightsprompts)、“代码 ≠ 编程,意图将成为编程的核心驱动力”、Replit CEO Amjad Masad 的“往下走/留在中间/往上走”三象限,每一个框架 9 个月后都被广泛引用并进一步深化。Vercel 注册用户翻番、Cursor 36 万个人开发者、GitHub 个人仓库年增 217%,专业开发者没有被取代但角色被重塑,非开发者正在以“构建者”身份进入软件生产。
丰饶之后:6 个结构性洞察
7 条非共识的验证只是起点。更值得追问的是:当这些争论尘埃落定之后,2026 年的 AI Coding 呈现出哪些真正的结构性图景?
二版把这些图景提炼为 6 个洞察。
模型加速趋同,前沿差距不减。
六大商业模型挤在 1 个百分点区间,但 2026 年 4 月 Anthropic 在 9 天之内同时发布 Mythos Preview(SWE-bench Verified 93.9%,仅对 11 家防御性安全伙伴)和 Opus 4.7(87.6%,公开)。“内部能力持续突破 + 阶段性差异化降权公开”正在成为一种新的发布节奏。趋同是商业层面的表象,分化才是前沿实验室正在发生的事。
Agent 原生正成为工具演化的收敛方向。
工具形态走向 Agent-First:Cursor 3、Codex App、Google Antigravity 把 IDE 从“代码编辑器 + AI 插件”升级为“Agent 编排平台 + 代码视图”;工具接口走向 Agent-native:CLI 赢得开发者内循环(gh CLI 仅需约 200 tokens,GitHub MCP 服务器要 55,000 tokens,差 275 倍),MCP 退守企业外循环,Skills 以 SOP 封装补齐非开发者层。给 Agent 最好的工作环境,是 Agent 编排平台;给 Agent 最好的能力接口,是代码与 SOP。
代码生成规模化,验证成新瓶颈。
SWE-bench 87.6% 意味着大多数标准编码任务可以被自动完成,“如何实现”正在退出核心瓶颈。新瓶颈出现在两端:向前是把需求翻译成可执行规格的能力(KTH 的实验中 AI Agent 已能从 926 字英文规格完整自举代码),向后是验证与维护(Veracode 发现 45% 的 AI 代码任务引入已知安全漏洞,GitClear 分析 2.11 亿行代码后发现技术债务增加 30%–41%)。下一波价值创造不在更好的代码生成,而在更好的规格、验证、维护基础设施。
产品构建零门槛,品味、运营逐渐稀缺。
YC W2025 批次 25% 的创业公司 95%+ 代码由 AI 生成,Solo founder 比例从 23.7% 升至 36.3%,Base44 一人 6 个月被 Wix 以 8,000 万美元收购。但“原型墙”也普遍存在:Forbes 报道的 vibe coding 留存危机、Google Chrome 工程师 Addy Osmani 提出的“70% 问题”(AI 代码看似 70% 正确,但完成剩余 30% 的代价往往超过从头手写)共同指向一个事实:AI 消除了“从零到原型”的门槛,但分发、运维、合规、品味这些让产品真正运营起来的能力,反而更加凸显。
SaaS 没有死去,它正在被重新分配。
过去三个月发生了三场“Anthropic Day”:2 月 5 日 Cowork 发布当日 FactSet 跌 10%,2 月 23 日 COBOL 现代化博客发布当日 IBM 跌 13.2%(25 年最大单日跌幅),4 月 17 日 Claude Design 发布当日 Figma 跌 6.89%。受害者全是“把 API 包成带收费 UI”的单功能中间层 SaaS。同一时期,Cursor 估值跃至 500 亿美元、Anthropic 拿下企业 AI 支出 37%、Skills 目录超过 2,600 个策展条目,平台层与自建层同时加速壮大。被淘汰的不是 SaaS,而是其中“复杂度封装层”那一部分;更深层的变化在计价单位本身,正从“为工具付费”迁向“为产出付费”。
做什么和谁能做,开发者被双向重定义。
“做什么”在变:开发者从“编写者”转为“编排者”,判断力与系统理解力成为核心技能。“谁能做”也在变:非开发者首次以“构建者”身份进入。Epic Games 超过 50% 的 Claude Code 使用来自非开发者,Block 的非工程师员工自己构建 MCP 服务器。就业结构在三层之间同步流动:底层被压缩、中层(管理 Agent 的技术项目经理)新生、高层被杠杆化放大,Cursor 用 20 人做到 1 亿美元 ARR 从预言变成了常态,“一人公司”已从边缘现象渐入主流。
最后:稀缺并未消失,它迁移了
如果说一版用“先验战场”刻画了 AI Coding 的位置,二版想刻画的是它走向成熟后的形态,以及那些在“丰饶”之后仍然稀缺的东西。
这不只关于编程。当生成代码变成商品,品味、判断力、验证能力、工程纪律,这些过去被代码本身遮蔽的能力,会在每一个被 AI 放大的行业里依次浮现。AI Coding 仍然是这场变革的先验战场,它正在告诉我们AI指向何方,以及未来的稀缺是什么。
后台回复 “AI Coding 2.0” 或 “丰饶之后”,即可下载完整 PDF。