AI老马

文章/答案/技术大牛

发布

LV0

发表了文章 25天前2026-04-02 11:59:08

智能体｜Agent 架构演进与选型

大模型能力一般具有“通用性”而非“专业性”，为了弥补专业的领域知识，Agent 架构应运而生，并经历了一场清晰而深刻的演进。

AI老马 25天前2026-04-02 11:59:08

通信、agent、工具、架构、模型

发表了文章 25天前2026-04-02 11:58:08

智能体｜ Agent Skill 技术介绍

写的Prompt越长，AI越容易跑偏；调教得越细，越无法复用、无法沉淀、无法交给团队。

AI老马 25天前2026-04-02 11:58:09

模型、系统、agent、工作流、脚本

发表了文章 25天前2026-04-02 11:57:01

复盘｜如何看懂业务和产品

做算法的同学，整天为优化召回率、准确率，响应耗时等指标焦头烂额，很少花时间考虑这些指标最终要支撑什么商业目标。导致把功能迭代当成业务进展，把模型效果当成产品成功...

AI老马 25天前2026-04-02 11:57:01

产品、模型、数据、算法、优化

发表了文章 2026-03-102026-03-10 11:38:10

智能体｜ AI coding 协作式编程

AI coding 出现后，传统项目角色分工和协作方式发生了改变。工程师不再是"写代码的人"，而是"指挥 AI Agent 写代码的人"。这种转变不仅是角色的变...

AI老马 2026-03-102026-03-10 11:38:10

开发、coding、编程、工具、工作流

发表了文章 2026-02-282026-02-28 17:25:41

智能体｜Agent 自动化评测系统构建

Agent应用最难的是建立信任，而信任的关键，正是对Agent能力的精准度量。缺乏可量化指标和系统评测体系，Agent的能力就无从验证，也无法判断其在真实场景中...

AI老马 2026-02-282026-02-28 17:25:42

系统、自动化、agent、框架、数据

发表了文章 2026-02-032026-02-03 14:45:45

智能体｜Agent Tool Use 技术演进路线

工具是大模型与环境交互的主要媒介，使用工具的技术经历了三次“正规”的升级换代。从给大模型加上工具调用函数 Function calling，到模型与工具交互标准...

AI老马 2026-02-032026-02-03 14:45:46

函数、模型、协议、agent、工具

发表了文章 2026-01-262026-01-26 17:19:17

AGI-Next｜AI技术范式转变，从聊天到做事

全球AI技术的竞争已经进入下半场！由此带来的是AI技术范式的转变，“从聊天到做事”，驱动范式转变的底层动力是“代码能力，智能体和多模态”技术的日渐成熟。未来AI...

AI老马 2026-01-262026-01-26 17:19:18

开源、next、工具、模型、数据

发表了文章 2026-01-262026-01-26 17:19:06

智能体｜Workflow和Agent的区别与构建

智能体（Agent）与工作流（Workflow）已逐渐成为串联大模型、工具与实际业务场景的核心载体。业务场景的实际落地离不开标准化流程，而Agent则为标准化流...

AI老马 2026-01-262026-01-26 17:19:06

工作流、模型、agent、workflow、工具

发表了文章 2026-01-202026-01-20 08:17:22

智能体｜Workflow和Agent的区别与构建

AI老马 2026-01-202026-01-20 08:19:38

应用与服务编排工作流、AIGC、agent、工作流

发表了文章 2026-01-132026-01-13 20:44:15

智能体｜AI Agent 框架介绍

智能体 Agent 核心是通过与环境交互更好的完成用户的指令或任务。一个合格的智能体应该具有那些能力，这些能力面临何种困难，又有那些的解决方案。为建立起Agen...

AI老马 2026-01-182026-01-18 12:12:11

模型、苹果、agent、工具、框架

发表了文章 2026-01-132026-01-13 20:43:54

强化学习｜训练框架verl介绍

强化学习训练过程涉及模型多，数据流转复杂，经典的“串行”训练框架，存在资源闲置，训练效率低的情况。 verl 通过自动映射算法进行计算资源的智能规划，通过混合编...

AI老马 2026-01-182026-01-18 12:12:33

数据、强化学习、工作、框架、模型

发表了文章 2026-01-132026-01-13 20:43:34

强化学习｜GRPO GSPO SAPO 演进

随着模型参数规模扩大、生成序列变长以及混合专家（MoE）等稀疏结构的应用，RL训练的稳定性成为制约技术落地的核心瓶颈。围绕“解决训练不稳定性、提升样本效率”这一...

AI老马 2026-01-182026-01-18 12:18:45

优化、强化学习、模型、设计、效率

发表了文章 2026-01-132026-01-13 20:43:17

强化学习｜直接偏好优化 DPO 介绍

直接偏好优化（Direct Preference Optimization DPO）的核心理论突破在于通过数学变换，将 “奖励建模 + 策略优化” 的 RLHF...

AI老马 2026-01-182026-01-18 12:19:05

数据、优化、强化学习、函数、模型

发表了文章 2026-01-132026-01-13 20:42:57

强化学习｜群组相对策略优化GRPO

群组相对策略优化 GRPO（Group Relative Policy Optimization）通过消除额外价值函数带来的内存和计算开销，降低了 LLM 强化...

AI老马 2026-01-182026-01-18 12:18:20

函数、模型、内存、优化、强化学习

发表了文章 2026-01-132026-01-13 20:42:21

强化学习｜近端策略优化 PPO

近端策略优化PPO（Proximal Policy Optimization）针对策略梯度PG（Policy Gradient）中 “策略更新幅度过大导致不稳定...

AI老马 2026-01-182026-01-18 12:19:35

强化学习、函数、数据、效率、优化

发表了文章 2026-01-132026-01-13 20:41:58

强化学习｜策略梯度算法介绍

策略梯度 PG（Policy Gradient）是强化学习中直接优化策略的最基础方法，是后续所有策略梯度类算法的 “源头”。通过计算 “策略的梯度”，即策略参数...

AI老马 2026-01-182026-01-18 12:19:57

强化学习、函数、算法、优化、神经网络

发表了文章 2026-01-132026-01-13 20:41:12

强化学习 | 优化策略 Roadmap 介绍

强化学习（Reinforcement Learning）是大模型后训练的重要一环，其主要是研究智能体和环境的交互问题，其中涉及多种强化学习策略和优化方案。本节围...

AI老马 2026-01-182026-01-18 12:20:26

模型、算法、优化、强化学习、框架

发表了文章 2026-01-132026-01-13 20:40:44

大模型｜DeepSeek MoE 混合专家系统介绍

MoE（Mix of Expert）混合专家系统在训练和推理时，相比于稠密模型具有明显的优势，但同样也面临训练不稳定，知识混杂和知识冗余问题。本节在经典MoE的...

AI老马 2026-01-132026-01-13 20:40:44

DeepSeek、基础、路由、模型、系统

发表了文章 2026-01-132026-01-13 20:40:26

大模型｜MoE混合专家系统介绍

大模型的MoE架构日益流行，其利用路由发送特定数量的token到不同的专家，并聚合专家结果，得到同等参数量下相比稠密模型更优的效果，且冗余计算少性能更优。但其发...

AI老马 2026-01-132026-01-13 20:40:26

token、路由、模型、网络、系统

发表了文章 2026-01-132026-01-13 20:38:38

大模型训练｜LoRA高效参数微调技术

低秩适应（LoRA，Low-Rank Adaptation ）是参数高效微调（PEFT, Parameter-Efficient Fine-Tuning）领域的...

AI老马 2026-01-132026-01-13 20:38:39

LoRa、基础、模型、性能、优化

12 3 下一页

个人简介

互联网大厂 | 高级算法工程师
我是风吹草低见牛羊的老马啊！
agent LLM 智能硬件 AI 语音助手
SDU | 控制科学
https://space.bilibili.com/438000569?spm_id_from=333.1007.0.0
北京
加入社区时间：2026-01-12

个人成就

获得 63 次赞同
文章被阅读 33.2K 次

关注了：2关注者：17

AI老马

智能体｜Agent 架构演进与选型

智能体｜ Agent Skill 技术介绍

复盘｜如何看懂业务和产品

智能体｜ AI coding 协作式编程

智能体｜Agent 自动化评测系统构建

智能体｜Agent Tool Use 技术演进路线

AGI-Next｜AI技术范式转变，从聊天到做事

智能体｜Workflow和Agent的区别与构建

智能体｜Workflow和Agent的区别与构建

智能体｜AI Agent 框架介绍

强化学习｜训练框架verl介绍

强化学习｜GRPO GSPO SAPO 演进

强化学习｜直接偏好优化 DPO 介绍

强化学习｜群组相对策略优化GRPO

强化学习｜近端策略优化 PPO

强化学习｜策略梯度算法介绍

强化学习 | 优化策略 Roadmap 介绍

大模型｜DeepSeek MoE 混合专家系统介绍

大模型｜MoE混合专家系统介绍

大模型训练｜LoRA高效参数微调技术

个人简介

个人成就

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐