
最近,我在 AI 落地实践中完成了一次关键认知跃迁——从 Agent 编排转向 Skills 开发。这不仅是技术选型的变化,更是对“AI 如何真正赋能普通人”这一根本问题的回答。沉淀思考,分享给同行共勉。
我们团队去年模仿 Coze 搭建了一个企业级 Agent 平台。它的本质无非是“旧时代的流程引擎 + 大模型”。熟悉互联网时代流程引擎的人都知道:吹得再牛,真要落地到企业级场景,往往相当痛苦。
当前企业级 Agent 架构用一句话概括就是:提示词。不管你做什么,都逃不出提示词的束缚。你在编排过程中,所有前置节点的操作,归根结底都是为了让最终输入大模型的提示词更完美。
让提示词更完美,不是一件简单的事。毕竟你面对的用户不只是开发者,还有运营、一线业务人员——他们完全不懂编程。
更深层的问题在于:它要求人去适配 AI。业务人员必须学会“精准提问”,才能撬动大模型的能力。
我们转向 DeepAgent(大脑) + Sandbox(手脚) 的新范式:
Sandbox 的核心价值不在功能,而在安全边界:每个用户/任务的操作被严格限制在独立沙箱内,互不干扰。系统只需关注最终结果的可靠性。这为开放更强大的工具权限(如文件系统、代码执行)扫清了障碍。
对比维度 | 传统 Agent 编排 | Skills 开发 |
|---|---|---|
核心逻辑 | 人适配 AI,依赖精准提示词 | AI 适配人,接受模糊指令 |
权限限制 | 工具受限,无法访问敏感接口 | 借助 Sandbox,权限灵活开放 |
用户门槛 | 需掌握提示词工程,专业性强 | 无需 AI 知识,普通人可上手 |
核心价值 | 在旧流程上“贴”AI,效率提升有限 | 放大业务人员能量,实现效率普惠 |
一句话总结:
流程编排是“人教 Agent 怎么做”,而 Skills 是“Agent 自己知道该怎么做”。
想起当年 AlphaGo 与人类对战的时刻。它的招法让普通人根本看不懂。AlphaGo 的本质,是依靠海量数据和强大算力;而人类靠的是思维推理与反思——但数据量完全不可同日而语。
后来不少人开始研究它的下法,偶尔走出一步别人看不懂的棋,旁人就会说:“你这有点 AlphaGo 的意思。”
大多数人愿意接受前者,因为容易、成本低。 但后者很难——一方面,人喜欢待在舒适区,不愿打破惯性;另一方面,就算想打破,也常常“压根不知道怎么破”,也就是常说的“缺乏想象力”。
我对“想象力”的理解没那么玄乎:无非是“书读百遍,其义自见”——你大脑积累的数据越多,越可能产生新想法,而不是闭门造车。但人的见识不会突然爆发式增长,总是一步一步慢慢来。
所以我在想:想象力是不是不该全压在人类身上? 不如让 AI 帮你“想”,你只负责做选择、做判断,再结合业务场景评估是否可行。
企业里常说“要创新,要做不一样的东西”,但现实是:一个业务干了这么多年,哪来的创新?靠人脑硬想,实在太痛苦。
为何不动用 AI?还是说,你压根不知道怎么用?
又或者,你根本没理解需求背后的真实需求?
这正是我们希望通过 Skills 开发模式 解决的问题。
要实现上述效果,Skills 必须完成从“被动函数”到“主动智能体”的进化: 放弃对“完美提问”的执念,聚焦于构建具备主动升维能力的 AI 工具,让系统替人完成专业拆解,实现效率的普惠式提升。
从流程编排转向 Skills 开发,是实现 Agent 主动智能的关键一步:
具体来说:
落地建议:优先为核心 Skills 增加“需求解析”与“多路径执行”能力,再优化产物质量,最后构建复用机制。
我们的终极目标,是将 AI 使用逻辑从 “人找答案” 彻底反转为 “系统主动适配人”。 而这需要两大支柱:
系统应能感知用户场景、行为与目标,主动补全需求、推荐方案、执行动作。人只负责做选择、做决策,其余交给 AI。
这正是 CL-bench(论文)所强调的核心能力:模型必须能从全新、复杂、未见过的上下文(如虚构法律、实验数据、行业规则)中学习并应用新知识,而非仅调用预训练记忆。
CL-bench 揭示了一个残酷现实:即便是最强模型(GPT-5.1),在真实上下文学习任务上的解决率也仅 **23.7%**。这说明,当前 AI 距离“干中学”的能力仍有巨大差距。
但 CL-bench 评测的是“被动学习”——即在给定上下文中提取知识。 而真实世界的需求往往是模糊、碎片、未结构化的。因此,我们亟需补充一个新维度:“主动问询”场景评测。
希望AI受到太多提示词的时候能回一句
AI:“你在教我做事?”
少教 AI 做事,多让它自己去做事。
感谢你读到这里,不如关注一下?👇