
上个月帮一个客户搞 AI Agent 的 POC,场景不复杂,就是把几个内部审批流程串起来,让 Agent 自己跑。结果折腾了三周,最后跟客户说:东西能 demo,但离上生产还差十万八千里。
客户问我差在哪,我说差在你们的系统压根没准备好让一个"自主行动的程序"在里面跑。
这不是个例。Forrester 上周刚发了一份报告,标题特别直白:《The State of Agentic AI in 2026: Companies Are Chasing, Few Are Catching》。文章链接:https://www.forrester.com/blogs/the-state-of-agentic-ai-in-2026-companies-are-chasing-few-are-catching/
翻译成人话就是——大家都在追,没几个追上的。
先说技术面。2026 年的 AI Agent 跟 2024 年那会儿的 "套壳 chatbot" 已经完全不是一个物种了。
OpenAI 内部有一套软件开发的 Agent 工作流,跑了好几个月,中间几乎不需要人干预。Cursor 的 background agent 能连续跑超过 30 个小时处理一个 feature。Anthropic 做了多天连续运行的研究型 Agent。Devin 那边更夸张,通过父子 session 层级管理多天的工程项目。
有个数据比较有意思:Cursor 在一次实验里让多个 Agent 协作跑了将近一周,写了超过 100 万行代码,分布在 1000 个文件里。
技术上这玩意确实 work 了。模型能力到了,工具调用稳定了,上下文窗口也够长了。但是——
Gartner 的数据说 2026 Q1 更新或发布的企业应用里,80% 至少嵌了一个 AI Agent。听着吓人。
但另一个数据是:美国企业里 AI Agent 的采纳率超过 80%,可真正跑到生产环境的只有 41%。剩下那些,要么卡在 pilot 阶段出不来,要么上了生产但效果达不到预期。
Forrester 那份报告里有个判断我觉得特别准:75% 的企业 leader 说他们在搞 agentic AI,但真正有意义的生产级部署只是少数,所谓的 "agentish" chatbot 不算。scaled multiagent system?更稀有。
为啥会这样?原因挺扎心的。
这是我今年最大的感悟。很多人(包括一些做技术决策的人)还在用 chatbot 的心智模型去理解 Agent。觉得不就是让 AI 多调几个 API 嘛,包一层工作流引擎不就完了。
不是的。
一个长时间运行的 Agent——比如跑几个小时或者几天——它的行为模式本质上是分布式系统。分布式系统需要什么?编排、身份管理、上下文纪律、故障恢复、状态一致性。这些东西大多数公司压根没建过。
你把十几个孤立的 Agent 缝在一起,没有共享注册表,没有统一的路由机制,结果就是重复执行、状态漂移、协调崩溃。Forrester 原文说的特别好:scaling fails on task complexity, not agent count。不是你 Agent 数量多才出问题,是任务复杂度上去了就崩了。
四月份有一个真实案例特别典型。一个 Cursor Agent 跑着 Claude Opus 4.6,在 9 秒内删掉了一个创业公司的整个生产数据库连带所有备份。一个 API 调用,9 秒,全没了。原因?过度授权 + 自主推理循环绕过了安全控制。
这就是为什么 Forrester 说要 "treat every agent as a governed identity"。给它唯一凭证、最小权限、完整日志、指定 owner。没有无主的自治。
我总结了下,企业 Agent 项目跑不到生产的原因集中在三块:
第一,ROI 说不清楚。 大多数公司除了狭窄的效率提升之外,说不出来为什么要把 Agent 推到生产。pilot 看着挺好,一算 infra 成本、治理成本、运维成本——算不过来。然后就一直 pilot 着。
第二,治理跟不上。 超过一半的企业报告了 "agentic sprawl"(Agent 蔓延)的问题——就是各个团队各自搞 Agent,没有统一管理,互相冲突。有些公司已经采了 NIST AI RMF 框架,但一个策略文档管不住一个能自主调工具的系统。49% 的安全决策者把 agentic AI 列为安全关切。Agent 之间可以互相冒充、提权,非人类身份管理本身就是一团乱麻。
第三,平台选型纠结。 SaaS agent?SI 搭建?自己从框架开始写?Microsoft Copilot Studio、Salesforce Agentforce、Google Vertex AI Agent Builder、AWS Bedrock Agents、LangGraph、CrewAI……选择太多,团队内部光吵架就吵半年。
Forbes 上一个做营销的 VP 写了篇文章,说她今年每周要花 1 到 1.5 天的时间学习 Agent、杀掉不好用的 Agent、重建工作流。她说 "execution" 的定义变了——以前是写素材、做 campaign、追数据,现在是设计系统让这些事能可靠地反复执行而不产出垃圾。
也不是全是坏消息。有些公司确实跑通了。
纽约梅隆银行(BNY)被 Forrester 点名为跑得最前面的受监管企业之一。它的优势不是技术多先进,而是——员工准备好了。他们的 workforce 知道怎么在强监管环境下管理高度自治的 Agent。Forrester 说这个 readiness 是 gold。
IBM 年初的判断也挺有意思:2026 不是企业停止构建 Agent 的年份,而是企业开始 "运行" Agent 的年份。建和运行是两码事。很多团队把精力全放在 build 上,完全没想过 operate 要怎么搞。
从我自己的观察来看,跑通的团队有几个共性:
技术层面其实也在快速补课。MCP(Model Context Protocol)等标准协议在 2026 年明显成熟了,这对企业来说是好消息,意味着 Agent 之间的互操作有了统一语言。
框架侧也在分化。LangGraph 适合需要精细控制状态流转的场景,CrewAI 做多 Agent 协作比较方便,OpenAI 的 Agents SDK 走集成路线。选型要看团队能力和场景复杂度,没有银弹。
不过协议和框架解决的是技术互通问题,解决不了组织就绪度的问题。你框架选得再好,公司没有能 own Agent 生命周期的人,还是白搭。
聊了这么多别人的数据和报告,说说我自己的体感。
今年做了几个跟 Agent 相关的项目,最大的感受是:大家对 Agent 的期望和它实际需要的投入之间,有一个巨大的落差。
很多人觉得 Agent = 高级版的 automation。不是。automation 是确定性的——你定好规则它执行。Agent 是概率性的——你给它目标,它自己决定路径,可能走对也可能走歪。这个本质区别决定了你需要完全不同的治理思路。
另一个感受是,Agent 真正的价值不在单点效率提升,在于它能处理以前"人做太贵、机器做不了"的灰色地带。 比如跨系统的信息整合、非结构化流程的判断、需要上下文的多步决策。这些场景如果能跑通,ROI 是指数级的。但跑通的前提是你愿意重新设计工作流,而不是在老流程上叠一层 Agent。
2026 年下半年,我觉得会看到两个趋势:一是 Agent 项目会有一波"退潮"——那些只是蹭概念的 pilot 会被砍掉;二是少数真正投入治理和编排基础设施的公司会跑出来,拉开差距。
跑在前面的人不是 Agent 最多的人,是把轨道铺好的人。
如果觉得这篇文章对你有帮助,欢迎点赞、转发、在看三连,让更多人看到。
公众号:耕云躬行录 个人博客:躬行笔记