暂无搜索历史
AI coding 出现后,传统项目角色分工和协作方式发生了改变。工程师不再是"写代码的人",而是"指挥 AI Agent 写代码的人"。这种转变不仅是角色的变...
Agent应用最难的是建立信任,而信任的关键,正是对Agent能力的精准度量。缺乏可量化指标和系统评测体系,Agent的能力就无从验证,也无法判断其在真实场景中...
工具是大模型与环境交互的主要媒介,使用工具的技术经历了三次“正规”的升级换代。从给大模型加上工具调用函数 Function calling,到模型与工具交互标准...
全球AI技术的竞争已经进入下半场!由此带来的是AI技术范式的转变,“从聊天到做事”,驱动范式转变的底层动力是“代码能力,智能体和多模态”技术的日渐成熟。未来AI...
智能体(Agent)与工作流(Workflow)已逐渐成为串联大模型、工具与实际业务场景的核心载体。业务场景的实际落地离不开标准化流程,而Agent则为标准化流...
智能体 Agent 核心是通过与环境交互更好的完成用户的指令或任务。一个合格的智能体应该具有那些能力,这些能力面临何种困难,又有那些的解决方案。为建立起Agen...
强化学习训练过程涉及模型多,数据流转复杂,经典的“串行”训练框架,存在资源闲置,训练效率低的情况。 verl 通过自动映射算法进行计算资源的智能规划,通过混合编...
随着模型参数规模扩大、生成序列变长以及混合专家(MoE)等稀疏结构的应用,RL训练的稳定性成为制约技术落地的核心瓶颈。围绕“解决训练不稳定性、提升样本效率”这一...
直接偏好优化(Direct Preference Optimization DPO)的核心理论突破在于通过数学变换,将 “奖励建模 + 策略优化” 的 RLHF...
群组相对策略优化 GRPO(Group Relative Policy Optimization)通过消除额外价值函数带来的内存和计算开销,降低了 LLM 强化...
近端策略优化PPO(Proximal Policy Optimization)针对策略梯度PG(Policy Gradient)中 “策略更新幅度过大导致不稳定...
策略梯度 PG(Policy Gradient)是强化学习中直接优化策略的最基础方法,是后续所有策略梯度类算法的 “源头”。通过计算 “策略的梯度”,即策略参数...
强化学习(Reinforcement Learning)是大模型后训练的重要一环,其主要是研究智能体和环境的交互问题,其中涉及多种强化学习策略和优化方案。本节围...
MoE(Mix of Expert)混合专家系统在训练和推理时,相比于稠密模型具有明显的优势,但同样也面临训练不稳定,知识混杂和知识冗余问题。本节在经典MoE的...
大模型的MoE架构日益流行,其利用路由发送特定数量的token到不同的专家,并聚合专家结果,得到同等参数量下相比稠密模型更优的效果,且冗余计算少性能更优。但其发...
低秩适应(LoRA,Low-Rank Adaptation )是参数高效微调(PEFT, Parameter-Efficient Fine-Tuning)领域的...
大模型训练中,当一个张量计算无法放到单张GPU上进行时,需要使用张量并行策略,将其拆分到不同的GPU上进行计算。张量如何拆分,才能达到计算和通信效率的平衡,使得...
大模型训练横向扩展方式,是组合多个GPU设备内存,以承载训练大模型的内存需求。其中典型的代表流水线并行,将模型按层组合成stage,分配到不同的GPU设备上,通...
数据并行简单易用,是大模型训练基础方式。DDP在每个GPU上拷贝一份模型状态,大量的显存被冗余状态占用。FSDP借鉴零冗余优化器的思想对模型状态进行分片后,由不...