OpenClaw自学习：AReaL 让智能体真正学会

编码如写诗

发布于 2026-03-05 12:56:33

8030

文章被收录于专栏：编码如写诗编码如写诗

一、智能体的进化困境

OpenClaw、LangChain、Claude Code等智能体框架如雨后春笋般涌现，但一个核心问题始终未被解决：智能体的能力在部署那一刻就被锁死了。

无论你的Agent多么强大，一旦交付，它的决策模式、推理能力就固定在预训练模型的权重上。无法根据真实使用反馈持续优化，就像一个永远无法从错误中学习的"固定算法"。

为什么会这样？主要有两大瓶颈：

接入训练成本高：不同框架接口各异，要接上强化学习训练需要写大量适配代码
缺乏持续进化能力：大多数框架没有"边用边训"的机制

直到——AReaL v1.0 稳定版发布。

二、AReaL是什么？

AReaL（A Large-Scale Asynchronous Reinforcement Learning System）是清华大学交叉信息学院和蚂蚁集团联合开发的全异步强化学习训练系统，专为大规模语言模型和智能体设计。

简单说：让智能体"一键接入"RL训练，在真实交互中边用边训、持续进化。

设计理念很接地气——像奶茶一样"美味、可定制、经济实惠"。

三、一键接入：零代码接入训练

AReaL最大的创新是Proxy Worker中转层。

开发者完全不需要修改智能体原有代码，只需要在配置文件（比如OpenClaw的配置）中改两个参数：

base_url：指向AReaL网关
api_key：换成AReaL的密钥

就这么简单，智能体就能接上强化学习训练。

训练流程

智能体正常执行任务
    ↓
用户周期性打分（提供反馈）
    ↓
AReaL后台自动采集训练数据
    ↓
模型自动更新
    ↓
智能体持续进化

整个过程对智能体透明，就像给它装上了一个"学习大脑"。

四、原生训练引擎Archon：1人·月打造千亿MoE

AReaL内置了原生训练引擎Archon，基于PyTorch从零实现。

这可不是简单封装，而是真正的硬核工程：

5D并行支持

并行类型	说明
数据并行	多卡数据分片
流水线并行	层级流水线
张量并行	模型张量切分
上下文并行	长序列拆分
专家并行	MoE专家分配

开发效率

开发周期：1人·月（32天）
代码量：累计修改近百万行
能力：可训练千亿参数MoE模型

这背后是AI辅助开发体系在发力——专属AI编程助手从规划、编码、校验到PR创建全链路支持，尤其在MoE并行、内存优化等核心模块提供针对性指导。

报道特别强调：这不仅是提效工具，更能承担"可交付"的研发工作。

五、全异步、训推解耦

AReaL是首个全异步、训推解耦的大模型强化学习训练系统。

这意味着什么？

全异步：训练和推理不阻塞，最大化资源利用率
训推解耦：推理和训练可以在不同集群独立扩展

性能数据：在数学推理、代码生成、搜索、客服等任务上达到SOTA水平。

六、支持的算法和模型

算法矩阵

算法	异步/同步	典型应用
GRPO	✅	数学推理
GSPO	✅	通用优化
PPO	✅	经典RL
DAPO	✅	分解异步
LitePPO	✅	轻量级

所有算法支持异步/同步切换（设置max_head_offpolicyness=0）。

模型家族

Qwen2/3（含MoE版本）
Qwen2.5-VL、Qwen3-VL（视觉语言）
Gemma 3
其他Hugging Face LLM

训练后端

后端	数据并行	张量并行	流水线并行	序列并行	LoRA
Megatron	✅	✅	✅	✅	❌
PyTorch FSDP	✅	✅	✅	❌	✅
PyTorch Archon	✅	✅	✅	✅	❌

推理后端

vLLM
SGLang

七、应用场景

1. 数学推理

GSM8K：支持多种算法的数学推理训练
多轮对话：跨轮次奖励折扣
Countdown：自定义奖励函数

2. 智能体强化学习

通用智能体：兼容多种框架
客服智能体：Tau2-Bench数据集
搜索智能体：端到端搜索流程
工具调用：多轮工具使用（Python执行器、计算器等）

3. 视觉语言模型

Geometry3K、CLEVR Count：7万视觉推理任务
NPU支持：华为昇腾NPU训练

八、快速开始

安装

git clone https://github.com/inclusionAI/AReaL
cd AReaL
pip install uv
uv sync --extra cuda

单节点训练（GSM8K数学推理）

python3 examples/math/gsm8k_rl.py \
  --config examples/math/gsm8k_grpo.yaml \
  scheduler.type=local

多节点训练（Ray集群）

python3 examples/math/gsm8k_rl.py \
  --config examples/math/gsm8k_grpo.yaml \
  cluster.n_nodes=2 \
  cluster.n_gpus_per_node=8 \
  scheduler.type=ray

九、未来路线图

AReaL团队计划持续迭代：

训练引擎优化：提升性能和稳定性
易用性提升：降低使用门槛
多模态智能体：支持更丰富的模态

项目每周发布小版本，每月发布大版本，团队正在积极招聘实习生和全职员工（中美均有岗位）。

十、开源信息

GitHub仓库：https://github.com/inclusionAI/AReaL

论文：ReaL: Efficient RLHF Training of Large Language Models with Parameter Reallocation (MLSys 2025)

官方文档：https://inclusionai.github.io/AReaL/

总结

AReaL v1.0的发布，标志着智能体从"固定能力"向"持续进化"转变的重要里程碑。

通过一键接入、全异步训练、训推解耦等创新设计，让智能体真正具备了从真实反馈中学习的能力。

边用边训，不再是梦想。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2026-03-04，如有侵权请联系 cloudcommunity@tencent.com 删除

强化学习

本文分享自编码如写诗微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度