
2026年苏超开幕式上,徐州的一首“百鸟朝凤”,让无数淮海人唤醒了开席密语“俺奶,给俺叨马虾”,马虾究竟是何方神物,先上图:

如此神物,当如何驾驭,今天就来念叨念叨,希望对大家能够领略马虾驾驭之乐。在AI领域,此处我用“马虾”代指基于HermesAgent(爱马仕)和OpenClaw(龙虾)之类的 Agent框架构建的马虾Agent。

2026年4月26日,在腾讯云长沙同盟和上海同盟联合举办的一场沙龙上,我分享了个人总结的一套训练马虾Agent的方法和驾驭经验,以及理论思考,以下是基于分享内容的整理,希望对大家有所启发。
第一篇讲了马虾Agent的驾驭方法;第二篇讲讲马虾驯化的一些踩坑经历以及一些实践中总结的经验,这些经验可以让Agent的训练过程快速收敛;第三篇讲了智能体Agent框架的不可能三角;第四篇基于不可能三角对Agent框架和场景进行了对比分析;本篇将深入探讨现在流行的驾驭工程和智能体框架,看看他们的关注要点和架构,这对于我们设计自己的智能体框架有着很好的借鉴意义。

驾驭工程是用于构建、部署和管控自主AI智能体的一套工程化体系。其核心目标是为大语言模型(LLM)提供一个结构化的“运行环境、约束框架与反馈系统”,从而引导、限制并评估AI的行为,确保其在执行复杂、多步骤的长期任务时,能够可靠、安全、可控地达成预期目标。
一个典型的企业级AI工程平台的分层架构如下图所示。

用户与应用层是用户操作接口
通过各式各样的渠道,提供特定人群用户,满足特定场景需求的交互界面和交互逻辑。
AI服务编排层是驾驭AI的逻辑层
通过将不同AI应用能力编排和调度起来,实现满足特定场景的AI业务服务,提供满足特定领域的智能体服务。本层依赖下层AI核心能力,会留存特定的AI业务处理逻辑,如Agent的特定记忆Memory,特定思维Mindset,特定技能Skill,因此本层是有状态的。
AI核心能力层是AI的眼睛、大脑、手和脚
通过Agent框架有机整合模型服务、工具使用,实现AI自动化信息处理。本层作为AI核心能力,为上层提供AI核心赋能,不保存任何业务处理逻辑,因此本层是无状态的。
基础设施与运维层
为上层提供基础运行环境和维护设施,保障上层的安全、稳定、合规运行。
一个典型的AI Agent框架的内部结构如下图所示。

开发者通过“Agent定义”来创建一个Agent:其中包括角色和目标设定,系统提示词模板,核心技能集配置。
运行时环境会生成“Agent实例”。实例通过“核心循环”进行思考,并通过“工具调用器”安全地调用“工具注册中心”中的工具。整个过程由运行时环境管理,确保高效和可靠。
“Agent实例” 会基于系统提示词模板,导入Agent的身份,角色职责和目标,注入灵魂,技能和工具。跟Agent的每个会话维护一个上下文,上下文管理会在上下文过长时进行压缩。
“核心循环”执行推理-行动和思维链,或者基于规划-反思,探索通往目标的最优路径。
“工具调用器”执行工具的调用和结果解析。可以按需读取“工具注册中心”中的工具,进行工具的安全使用。
在深入对比之前,我们先梳理一下构成一个强大AI Agent的四大核心能力:记忆、知识检索、技能和上下文管理。这四个要素共同决定了Agent的智能水平和实用性。

记忆 (Memory)能力是智能体的记忆与认知模块,包含长期的经验记忆与短时记忆。记忆的作用是记住历史交互,持续进行经验积累。
知识检索 (Retrieval)能力是智能体能从外部知识库或内部记忆中精准检索所需信息。该能力的作用可以突破模型知识边界,提供即时专业数据。
技能 (Skills)是智能体解决特定问题的思维方式、方法和过程,以及所依赖的工具的集合,是Agent通用能力的具体体现。技能的作用在于把思考转化为行动,实现与外部世界的交互,以实现特定的业务目标。
上下文管理 (Context)能力用于动态维护对话历史,确保在连续多轮对话中保持逻辑连贯。通过上下文管理,实现在有限窗口内高效传递信息,必要时进行上下文压缩,防止关键信息丢失。
我们首先对比记忆和知识检索能力。可以看到,OpenClaw侧重于工作流的可追溯性,Hermes-Agent强调深度推理和关联发现,而Claude Code Agent则专注于代码级别的精准记忆和检索。

接下来看技能架构和上下文管理。OpenClaw的技能体系是中心化的,便于复用;Hermes-Agent的技能与思考深度绑定,更智能;而Claude Code Agent则深度集成在IDE中,专注于提升开发效率。

最后,我们从Agent框架的不可能三角ACE原则来进行这三个框架的对比分析。
自主性:中等。它更像一个听话的数字员工,按照你的配置去干活,不会自己乱改计划。
可控性:很高。行为由配置文件和规则严格定义,你可以很清楚它每一步在做什么。
经济性:很高。结构化执行减少了很多无效的探索,Token消耗比较节约。
典型场景:生产级任务自动化,比如日常办公、本地数据处理、对接各种聊天平台。
自主性:极高。它能从每一次任务中学习,自己总结出新的技能,越用越聪明。
可控性:中低。因为它会自动进化,所以长期行为不太容易被完全预测。
经济性:中低。持续学习和自我优化会带来额外的计算开销。
典型场景:长期陪伴的个人助理或研究助手,需要不断适应用户的习惯和新需求。
自主性:很高。你能让它自己完成从需求分析、写代码、调试到测试的整个开发流程。
可控性:中高。它提供了预算控制、命令白名单等管理手段,可以在专业领域内“放权”给它。
经济性:中等。API调用成本比单次对话要高,但比完全开放式的探索要省。
典型场景:专业软件开发,比如代码生成、重构、自动化测试。
好了,关于驾驭工程和当前流行的几个Agent框架的架构设计关注点,设计对比就说到这,如何想了解前面的内容可以点击下面链接阅读。
马虾Agent的驾驭实践(一)-- 驾驭方法
马虾Agent的驾驭实践(二)-- 踩坑实践
马虾Agent的驾驭实践(四)-- 框架/模式和场景的“三角”选择
最后一篇将聊聊Agent未来的演进分化和行业应用的趋势。

关注本公众号,获取架构师相关的第一手资讯和活动信息。