OpenClaw 小白式解读:架构设计与工程实践

用户1278550

发布于 2026-03-10 13:56:31

5.3K0

重要说明：OpenClaw 是一个新兴的开源个人 AI 助手项目（前身为 Moltbot/Clawdbot），主打“本地优先、隐私可控”的设计理念。本文基于其公开技术文档和社区资料，以小白友好的方式梳理其发展脉络、核心工作原理、整体架构及关键组件功能，并附上清晰的架构图。

创始人：Peter Steinberger（GitHub: @steipete），iOS 开发圈知名人物，PSPDFKit 创始人。他以个人项目的方式启动了这个 AI 助手，没想到一周内吸引了 200 万访问者，迅速成为 GitHub 上最热门的 AI 项目之一。

OpenClaw 的前身可追溯到 Clawdbot，由知名开发者 Peter Steinberger 于 2024 年初发起。项目初衷是打造一个运行在用户自有设备上的主权 AI 助手，能真正替用户执行任务（如操作文件、运行命令），而非仅提供聊天回复。

2024 年中：项目更名为 Moltbot，开始引入多渠道通信支持（Telegram、WhatsApp 等）和初步的工具调用能力。
2025 年初：为强调其开放性和本地优先特性，正式定名为 OpenClaw，并开源全部代码。
截至 2026 年初：项目在 GitHub 获得超 16 万星标，拥有近 400 名贡献者和近 9,000 人的开发者社区，成为个人 AI 基础设施领域的热门项目。

核心理念：将智能（来自大模型）与代理（本地控制权）分离，让用户完全掌控自己的数据和自动化流程。

开源协议：MIT License —— 完全免费，可商用，可修改。

想象你通过 Telegram/飞书/钉钉给 OpenClaw 发送一条指令：“帮我把上周的会议录音转成文字，并总结要点”。

系统会经历以下步骤：

接收与标准化：Telegram/飞书/钉钉等渠道适配器接收你的消息，将其转换为内部统一格式，并提取附件（录音文件）。
路由与排队：网关（Gateway）将消息分发到你专属的“会话”（Session），并放入该会话的串行指令队列（Lane Queue）中，确保操作有序。
Agent 执行：Agent Runner 被唤醒，它会：
- 动态拼接提示词（结合 SOUL.md 的性格、TOOLS.md 的可用工具、AGENTS.md 的角色定义）。
- 调用大模型 API（如 Anthropic 或本地模型）。
- 模型返回“调用音频转录工具”的指令。
工具调用：系统执行音频转录工具，将结果（文字稿）返回给 Agent。
循环与反馈：Agent 再次调用模型，基于文字稿生成总结。整个过程的进度通过 WebSocket 流式推回 Telegram，你看到的是实时打字效果。
持久化：完整的交互记录（包括你的指令、工具调用、模型响应）被保存为 .jsonl 文件，用于后续回溯或学习。

这个过程的核心是 可靠性 和 可控性：所有操作都在你的设备上串行执行，避免了并发混乱；所有数据都留在本地，保障隐私。

OpenClaw 采用清晰的分层架构，主要包含客户端层、接入协调层、渠道抽象层、核心逻辑层和基础设施层。以下是详细的架构图：

定位：系统的“大脑”和“交通枢纽”。
核心功能：
- 协议编排：统一处理来自不同渠道（CLI、Telegram、Web等）的消息，进行标准化。
- 会话管理：为每个用户-渠道组合创建独立的会话（Session），维护其状态。
- 指令队列：实现“车道式”（Lane-based）队列，确保指令按序、可靠地执行。
- 实时流式反馈：通过 WebSocket 将执行进度（如打字动画、工具调用状态）低延迟地推送给客户端。

定位：AI 能力的“承载者”和“执行引擎”。
核心功能：
- 动态提示词构建：在运行时，根据 SOUL.md（灵魂/性格）、TOOLS.md（工具集）、AGENTS.md（角色）和会话历史，动态拼接出发送给大模型的完整提示词。
- 模型调用与容错：自动选择并调用配置的大模型（OpenAI, Anthropic, 本地模型等）。若主模型失败，能自动降级到备用模型或切换 API 密钥。
- 上下文窗口守护：监控会话长度，当接近模型上下文上限时，自动触发内容压缩（总结）或优雅终止，防止崩溃。

定位：连接外部世界的“翻译官”。
核心功能：
- 消息归一化：将不同渠道（如 Telegram 的富文本、WhatsApp 的语音）的消息，转换为 OpenClaw 内部统一的数据结构。
- 附件处理：自动下载并缓存用户发送的图片、音频、PDF 等附件，供后续工具使用。

定位：Agent 的“长期记忆”和“个性”来源。
核心功能（四层架构）：
- SOUL（灵魂）：定义 Agent 不可变的核心价值观和行为准则（如 SOUL.md）。
- TOOLS（工具）：动态注册的工具元数据，告诉 Agent 它能做什么（如 TOOLS.md）。
- USER（用户记忆）：基于向量的长期记忆库，存储用户偏好、习惯等，实现“越用越懂你”。
- Session（会话记忆）：当前对话的短期情景记忆，保证上下文连贯。

定位：Agent 能力的“即插即用”扩展包。
核心功能：
- 能力赋予：通过安装一个 SKILL.md 文件，Agent 即可学会操作新系统。例如，安装 apple-notes Skill 后，它就能读写你的苹果备忘录。
- 自主学习：Agent 通过阅读 SKILL.md 中的“调用契约”（API 文档），自主构造正确的请求，无需重新训练模型。