OpenClaw、LangChain、Claude Code等智能体框架如雨后春笋般涌现,但一个核心问题始终未被解决:智能体的能力在部署那一刻就被锁死了。
无论你的Agent多么强大,一旦交付,它的决策模式、推理能力就固定在预训练模型的权重上。无法根据真实使用反馈持续优化,就像一个永远无法从错误中学习的"固定算法"。
为什么会这样?主要有两大瓶颈:
直到——AReaL v1.0 稳定版发布。
AReaL(A Large-Scale Asynchronous Reinforcement Learning System)是清华大学交叉信息学院和蚂蚁集团联合开发的全异步强化学习训练系统,专为大规模语言模型和智能体设计。
简单说:让智能体"一键接入"RL训练,在真实交互中边用边训、持续进化。
设计理念很接地气——像奶茶一样"美味、可定制、经济实惠"。
AReaL最大的创新是Proxy Worker中转层。
开发者完全不需要修改智能体原有代码,只需要在配置文件(比如OpenClaw的配置)中改两个参数:
base_url:指向AReaL网关api_key:换成AReaL的密钥就这么简单,智能体就能接上强化学习训练。
智能体正常执行任务
↓
用户周期性打分(提供反馈)
↓
AReaL后台自动采集训练数据
↓
模型自动更新
↓
智能体持续进化
整个过程对智能体透明,就像给它装上了一个"学习大脑"。
AReaL内置了原生训练引擎Archon,基于PyTorch从零实现。
这可不是简单封装,而是真正的硬核工程:
并行类型 | 说明 |
|---|---|
数据并行 | 多卡数据分片 |
流水线并行 | 层级流水线 |
张量并行 | 模型张量切分 |
上下文并行 | 长序列拆分 |
专家并行 | MoE专家分配 |
这背后是AI辅助开发体系在发力——专属AI编程助手从规划、编码、校验到PR创建全链路支持,尤其在MoE并行、内存优化等核心模块提供针对性指导。
报道特别强调:这不仅是提效工具,更能承担"可交付"的研发工作。
AReaL是首个全异步、训推解耦的大模型强化学习训练系统。
这意味着什么?
性能数据:在数学推理、代码生成、搜索、客服等任务上达到SOTA水平。
算法 | 异步/同步 | 典型应用 |
|---|---|---|
GRPO | ✅ | 数学推理 |
GSPO | ✅ | 通用优化 |
PPO | ✅ | 经典RL |
DAPO | ✅ | 分解异步 |
LitePPO | ✅ | 轻量级 |
所有算法支持异步/同步切换(设置max_head_offpolicyness=0)。
后端 | 数据并行 | 张量并行 | 流水线并行 | 序列并行 | LoRA |
|---|---|---|---|---|---|
Megatron | ✅ | ✅ | ✅ | ✅ | ❌ |
PyTorch FSDP | ✅ | ✅ | ✅ | ❌ | ✅ |
PyTorch Archon | ✅ | ✅ | ✅ | ✅ | ❌ |
git clone https://github.com/inclusionAI/AReaL
cd AReaL
pip install uv
uv sync --extra cuda
python3 examples/math/gsm8k_rl.py \
--config examples/math/gsm8k_grpo.yaml \
scheduler.type=local
python3 examples/math/gsm8k_rl.py \
--config examples/math/gsm8k_grpo.yaml \
cluster.n_nodes=2 \
cluster.n_gpus_per_node=8 \
scheduler.type=ray
AReaL团队计划持续迭代:
项目每周发布小版本,每月发布大版本,团队正在积极招聘实习生和全职员工(中美均有岗位)。
GitHub仓库:https://github.com/inclusionAI/AReaL
论文:ReaL: Efficient RLHF Training of Large Language Models with Parameter Reallocation (MLSys 2025)
官方文档:https://inclusionai.github.io/AReaL/
AReaL v1.0的发布,标志着智能体从"固定能力"向"持续进化"转变的重要里程碑。
通过一键接入、全异步训练、训推解耦等创新设计,让智能体真正具备了从真实反馈中学习的能力。
边用边训,不再是梦想。