马虾Agent的驾驭实践（五）-- 流行Agent框架对比

企业架构师思维

发布于 2026-05-08 10:38:58

1520

2026年苏超开幕式上，徐州的一首“百鸟朝凤”，让无数淮海人唤醒了开席密语“俺奶，给俺叨马虾”，马虾究竟是何方神物，先上图：

如此神物，当如何驾驭，今天就来念叨念叨，希望对大家能够领略马虾驾驭之乐。在AI领域，此处我用“马虾”代指基于HermesAgent（爱马仕）和OpenClaw（龙虾）之类的 Agent框架构建的马虾Agent。

2026年4月26日，在腾讯云长沙同盟和上海同盟联合举办的一场沙龙上，我分享了个人总结的一套训练马虾Agent的方法和驾驭经验，以及理论思考，以下是基于分享内容的整理，希望对大家有所启发。

第一篇讲了马虾Agent的驾驭方法；第二篇讲讲马虾驯化的一些踩坑经历以及一些实践中总结的经验，这些经验可以让Agent的训练过程快速收敛；第三篇讲了智能体Agent框架的不可能三角；第四篇基于不可能三角对Agent框架和场景进行了对比分析；本篇将深入探讨现在流行的驾驭工程和智能体框架，看看他们的关注要点和架构，这对于我们设计自己的智能体框架有着很好的借鉴意义。

什么是驾驭工程Harness Engeering？

驾驭工程是用于构建、部署和管控自主AI智能体的一套工程化体系。其核心目标是为大语言模型（LLM）提供一个结构化的“运行环境、约束框架与反馈系统”，从而引导、限制并评估AI的行为，确保其在执行复杂、多步骤的长期任务时，能够可靠、安全、可控地达成预期目标。

驾驭工程的分层架构概览

一个典型的企业级AI工程平台的分层架构如下图所示。

用户与应用层是用户操作接口

通过各式各样的渠道，提供特定人群用户，满足特定场景需求的交互界面和交互逻辑。

AI服务编排层是驾驭AI的逻辑层

通过将不同AI应用能力编排和调度起来，实现满足特定场景的AI业务服务，提供满足特定领域的智能体服务。本层依赖下层AI核心能力，会留存特定的AI业务处理逻辑，如Agent的特定记忆Memory，特定思维Mindset，特定技能Skill，因此本层是有状态的。

AI核心能力层是AI的眼睛、大脑、手和脚

通过Agent框架有机整合模型服务、工具使用，实现AI自动化信息处理。本层作为AI核心能力，为上层提供AI核心赋能，不保存任何业务处理逻辑，因此本层是无状态的。

基础设施与运维层

为上层提供基础运行环境和维护设施，保障上层的安全、稳定、合规运行。

驾驭工程核心组件和关系

一个典型的AI Agent框架的内部结构如下图所示。

开发者通过“Agent定义”来创建一个Agent：其中包括角色和目标设定，系统提示词模板，核心技能集配置。

运行时环境会生成“Agent实例”。实例通过“核心循环”进行思考，并通过“工具调用器”安全地调用“工具注册中心”中的工具。整个过程由运行时环境管理，确保高效和可靠。

“Agent实例” 会基于系统提示词模板，导入Agent的身份，角色职责和目标，注入灵魂，技能和工具。跟Agent的每个会话维护一个上下文，上下文管理会在上下文过长时进行压缩。

“核心循环”执行推理-行动和思维链，或者基于规划-反思，探索通往目标的最优路径。

“工具调用器”执行工具的调用和结果解析。可以按需读取“工具注册中心”中的工具，进行工具的安全使用。

Agent框架的核心能力

在深入对比之前，我们先梳理一下构成一个强大AI Agent的四大核心能力：记忆、知识检索、技能和上下文管理。这四个要素共同决定了Agent的智能水平和实用性。

记忆 (Memory)能力是智能体的记忆与认知模块，包含长期的经验记忆与短时记忆。记忆的作用是记住历史交互，持续进行经验积累。

知识检索 (Retrieval)能力是智能体能从外部知识库或内部记忆中精准检索所需信息。该能力的作用可以突破模型知识边界，提供即时专业数据。

技能 (Skills)是智能体解决特定问题的思维方式、方法和过程，以及所依赖的工具的集合，是Agent通用能力的具体体现。技能的作用在于把思考转化为行动，实现与外部世界的交互，以实现特定的业务目标。

上下文管理 (Context)能力用于动态维护对话历史，确保在连续多轮对话中保持逻辑连贯。通过上下文管理，实现在有限窗口内高效传递信息，必要时进行上下文压缩，防止关键信息丢失。

OpenClaw（虾）HermesAgent（马）ClaudeCodeAgent能力对比

我们首先对比记忆和知识检索能力。可以看到，OpenClaw侧重于工作流的可追溯性，Hermes-Agent强调深度推理和关联发现，而Claude Code Agent则专注于代码级别的精准记忆和检索。

接下来看技能架构和上下文管理。OpenClaw的技能体系是中心化的，便于复用；Hermes-Agent的技能与思考深度绑定，更智能；而Claude Code Agent则深度集成在IDE中，专注于提升开发效率。

最后，我们从Agent框架的不可能三角ACE原则来进行这三个框架的对比分析。

万能工：OpenClaw

自主性：中等。它更像一个听话的数字员工，按照你的配置去干活，不会自己乱改计划。

可控性：很高。行为由配置文件和规则严格定义，你可以很清楚它每一步在做什么。

经济性：很高。结构化执行减少了很多无效的探索，Token消耗比较节约。

典型场景：生产级任务自动化，比如日常办公、本地数据处理、对接各种聊天平台。

成长派：Hermes Agent

自主性：极高。它能从每一次任务中学习，自己总结出新的技能，越用越聪明。

可控性：中低。因为它会自动进化，所以长期行为不太容易被完全预测。

经济性：中低。持续学习和自我优化会带来额外的计算开销。

典型场景：长期陪伴的个人助理或研究助手，需要不断适应用户的习惯和新需求。

专家型：Claude Code Agent

自主性：很高。你能让它自己完成从需求分析、写代码、调试到测试的整个开发流程。

可控性：中高。它提供了预算控制、命令白名单等管理手段，可以在专业领域内“放权”给它。

经济性：中等。API调用成本比单次对话要高，但比完全开放式的探索要省。

典型场景：专业软件开发，比如代码生成、重构、自动化测试。

好了，关于驾驭工程和当前流行的几个Agent框架的架构设计关注点，设计对比就说到这，如何想了解前面的内容可以点击下面链接阅读。

马虾Agent的驾驭实践（一）-- 驾驭方法

马虾Agent的驾驭实践（二）-- 踩坑实践

马虾Agent的驾驭实践（三）-- 不可能三角

马虾Agent的驾驭实践（四）-- 框架/模式和场景的“三角”选择

最后一篇将聊聊Agent未来的演进分化和行业应用的趋势。

关注本公众号，获取架构师相关的第一手资讯和活动信息。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2026-05-06，如有侵权请联系 cloudcommunity@tencent.com 删除

agent

本文分享自架构师成长与关爱微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度