首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >企业级 Agent 编排到 Skills 开发:别再教 AI 做事了

企业级 Agent 编排到 Skills 开发:别再教 AI 做事了

作者头像
老周聊架构
发布2026-03-04 13:52:26
发布2026-03-04 13:52:26
1450
举报

最近,我在 AI 落地实践中完成了一次关键认知跃迁——从 Agent 编排转向 Skills 开发。这不仅是技术选型的变化,更是对“AI 如何真正赋能普通人”这一根本问题的回答。沉淀思考,分享给同行共勉。

  • 个人 Agent:追求灵活、好玩、快速验证
  • 企业级 Agent:核心是稳定、安全、可维护,能落地到真实业务流程中

一、企业中 Agent 编排的问题

我们团队去年模仿 Coze 搭建了一个企业级 Agent 平台。它的本质无非是“旧时代的流程引擎 + 大模型”。熟悉互联网时代流程引擎的人都知道:吹得再牛,真要落地到企业级场景,往往相当痛苦。

当前企业级 Agent 架构用一句话概括就是:提示词。不管你做什么,都逃不出提示词的束缚。你在编排过程中,所有前置节点的操作,归根结底都是为了让最终输入大模型的提示词更完美。

让提示词更完美,不是一件简单的事。毕竟你面对的用户不只是开发者,还有运营、一线业务人员——他们完全不懂编程。

目前遇到的两个核心问题:
  1. 输出高度不确定:模型响应严重依赖提示词的精妙程度,需反复调试、人工确认,陷入“调参内耗”;
  2. 架构难以扩展:基于 Handlebars 等模板的静态拼接,无法支撑复杂推理(如自我反思、长程规划),导致代码臃肿、维护成本高。

更深层的问题在于:它要求人去适配 AI。业务人员必须学会“精准提问”,才能撬动大模型的能力。


二、新架构优化:Skills = DeepAgent + OpenSandbox(阿里开源),安全与智能分离

我们转向 DeepAgent(大脑) + Sandbox(手脚) 的新范式:

  • DeepAgent 负责高层决策、需求理解与任务规划;
  • Sandbox 作为隔离执行环境,承载所有文件读写、命令行操作等高风险行为。

Sandbox 的核心价值不在功能,而在安全边界:每个用户/任务的操作被严格限制在独立沙箱内,互不干扰。系统只需关注最终结果的可靠性。这为开放更强大的工具权限(如文件系统、代码执行)扫清了障碍。


三、Agent vs Skills

对比维度

传统 Agent 编排

Skills 开发

核心逻辑

人适配 AI,依赖精准提示词

AI 适配人,接受模糊指令

权限限制

工具受限,无法访问敏感接口

借助 Sandbox,权限灵活开放

用户门槛

需掌握提示词工程,专业性强

无需 AI 知识,普通人可上手

核心价值

在旧流程上“贴”AI,效率提升有限

放大业务人员能量,实现效率普惠

一句话总结

流程编排是“人教 Agent 怎么做”,而 Skills 是“Agent 自己知道该怎么做”。


四、怎么看“完美提问”?AI 究竟能帮我们做什么?

想起当年 AlphaGo 与人类对战的时刻。它的招法让普通人根本看不懂。AlphaGo 的本质,是依靠海量数据和强大算力;而人类靠的是思维推理与反思——但数据量完全不可同日而语。

后来不少人开始研究它的下法,偶尔走出一步别人看不懂的棋,旁人就会说:“你这有点 AlphaGo 的意思。”

创新有两种路径:
  1. 在原有基础上,用更适合当前业务的工具提升效率;
  2. 打破原有作业流程,更换更高效的方式。

大多数人愿意接受前者,因为容易、成本低。 但后者很难——一方面,人喜欢待在舒适区,不愿打破惯性;另一方面,就算想打破,也常常“压根不知道怎么破”,也就是常说的“缺乏想象力”。

我对“想象力”的理解没那么玄乎:无非是“书读百遍,其义自见”——你大脑积累的数据越多,越可能产生新想法,而不是闭门造车。但人的见识不会突然爆发式增长,总是一步一步慢慢来。

所以我在想:想象力是不是不该全压在人类身上? 不如让 AI 帮你“想”,你只负责做选择、做判断,再结合业务场景评估是否可行。

企业里常说“要创新,要做不一样的东西”,但现实是:一个业务干了这么多年,哪来的创新?靠人脑硬想,实在太痛苦。

为何不动用 AI?还是说,你压根不知道怎么用?

又或者,你根本没理解需求背后的真实需求?

这正是我们希望通过 Skills 开发模式 解决的问题。

我幻想中的案例:财务报销统计
  • 旧方式:需逐条说明分类规则、超支标准(不断优化提示词);
  • 新方式:一句“处理 10 月报销”,AI 自动匹配公司制度,确保安全合规,输出带预警公式的 Excel 表 + 合规检查清单。

五、Skills 开发的三大关键转变

要实现上述效果,Skills 必须完成从“被动函数”到“主动智能体”的进化: 放弃对“完美提问”的执念,聚焦于构建具备主动升维能力的 AI 工具,让系统替人完成专业拆解,实现效率的普惠式提升。

从流程编排转向 Skills 开发,是实现 Agent 主动智能的关键一步:

  • 核心转变:把 Skills 从“被动执行的原子函数”,升级为“主动解析 + 多路径执行 + 可落地交付 + 沉淀复用”的闭环能力;
  • 核心价值:用户无需打磨“完美提问”,仅用模糊指令就能获得专业、可落地的结果;
  • 落地优先级:先为核心 Skills(如你当前重点开发的技能)增加“需求解析”和“多路径执行”能力,再优化输出产物,最后构建复用机制——逐步迭代,更易落地。

具体来说:

  1. 从“步骤封装”到“能力封装”:内置领域知识与需求解析能力,自主拆解模糊指令;
  2. 从“单路径执行”到“多路径决策”:根据场景动态选择最优方案,无需用户预设所有条件;
  3. 从“交付信息”到“交付产物”:输出可直接复用的模板、脚本、文件,而非仅一段文字。

落地建议:优先为核心 Skills 增加“需求解析”与“多路径执行”能力,再优化产物质量,最后构建复用机制。


六、愿景:Skills + 上下文工程 + 评估体系

我们的终极目标,是将 AI 使用逻辑从 “人找答案” 彻底反转为 “系统主动适配人”。 而这需要两大支柱:

1. 交互路径倒置

系统应能感知用户场景、行为与目标,主动补全需求、推荐方案、执行动作。人只负责做选择、做决策,其余交给 AI。

2. 上下文学习(Context Learning)能力

这正是 CL-bench(论文)所强调的核心能力:模型必须能从全新、复杂、未见过的上下文(如虚构法律、实验数据、行业规则)中学习并应用新知识,而非仅调用预训练记忆。

CL-bench 揭示了一个残酷现实:即便是最强模型(GPT-5.1),在真实上下文学习任务上的解决率也仅 **23.7%**。这说明,当前 AI 距离“干中学”的能力仍有巨大差距。

但 CL-bench 评测的是“被动学习”——即在给定上下文中提取知识。 而真实世界的需求往往是模糊、碎片、未结构化的。因此,我们亟需补充一个新维度:“主动问询”场景评测

评估体系

  • 它衡量 AI 在无高质量输入时,能否主动发起对话、澄清意图、构建上下文;
  • 它评估 AI 的综合上限:能否融合知识、推理与工具调用,端到端交付可执行结果;
  • 它的终极目标,是衡量人效提升,而非回答准确率

写在最后

希望AI受到太多提示词的时候能回一句

AI:“你在教我做事?”

少教 AI 做事,多让它自己去做事。

感谢你读到这里,不如关注一下?👇

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-02-13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 老周聊架构 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一、企业中 Agent 编排的问题
    • 目前遇到的两个核心问题:
  • 二、新架构优化:Skills = DeepAgent + OpenSandbox(阿里开源),安全与智能分离
  • 三、Agent vs Skills
  • 四、怎么看“完美提问”?AI 究竟能帮我们做什么?
    • 创新有两种路径:
    • 我幻想中的案例:财务报销统计
  • 五、Skills 开发的三大关键转变
  • 六、愿景:Skills + 上下文工程 + 评估体系
    • 1. 交互路径倒置
    • 2. 上下文学习(Context Learning)能力
    • 评估体系
  • 写在最后
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档