
关注腾讯云开发者,一手技术干货提前解锁👇
大语言模型发展历程摘要
大语言模型的发展历程:
大语言模型发展历程摘要模型应用发展历程
2.1 RAG知识库应用

RAG理论提出
在2020年之前,学术界已有将检索与生成结合的零星尝试,但尚未形成系统化的方法论。2020年,这一领域迎来了两个具有里程碑意义的工作:Facebook在论文Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks正式提出"RAG"概念并将其应用于知识密集型任务,同时Google的REALM通过在预训练阶段融入潜在知识检索器,显著提升了开放域问答的性能。
引入模型应用
2022年底ChatGPT发布后,迅速引爆大模型,然而在实际业务应用场景落地中,大模型所面临的问题,包括:
知识的局限性:模型的知识源于它的训练数据,而现有的主流大模型训练集都是基于现有的网络公开数据,对于一些实时性的、非公开的、离线的数据无法获取到,存在知识盲区;
幻觉问题:模型输出基于概率模型,存在知识边界感知不准确和因过度自信一本正经的胡说八道的情况,尤其在大模型自身不具备的某一方面的知识或者不擅长的场景该问题表现更明显;
数据安全性:对于企业来说,数据安全问题非常重要,如何保障自身私域数据的安全性是大模型应用中不得不面对的问题。
Agent代理应用中,知识库作为代理的LongMemory也是必不可少的一个基础设施。
快速发展
ChatGPT发布后,RAG研究更是进入了加速发展的黄金时期。在这个过程中,RAG技术逐渐从单一的检索-生成框架,演化为包含多跳推理、记忆增强和多模态等复杂功能的综合系统。

NaiveRAG
2020年10月,Meta团队在论文《Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks》中首次定义Naive RAG架构,确立了"索引-检索-生成"三阶段流程:
AdvancedRAG
Advanced RAG 的雏形源于对 Naive RAG(索引→检索→生成)的局限性突破。早期研究者发现单纯依赖向量检索存在 语义鸿沟 (如用户提问模糊或需多跳推理时检索失效)和 信息冗余 (检索结果重复或无关)等问题。为此,Meta、微软等团队开始探索全流程优化框架,提出 检索前预处理 、检索后精炼以及Embedding模型优化等方向:
关键性技术突破:
ModularRAG
Modular RAG是RAG范式的又一演变,强调灵活性、多样化和定制化。ModularRAG通过将检索和生成流程分解为独立、可重用的组件,实现了针对特定领域的优化和任务适应性。
Augmented Module

Augmented Process

技术特点:
GraphRAG
Graph RAG 引入了知识图谱的概念,通过构建实体之间的关系网络,增强了对复杂知识的表示和检索能力。在索引阶段,Graph RAG 不仅提取文本中的实体和关系,还构建了知识图谱,将文档中的知识组织成一个结构化的网络;在查询阶段,利用知识图谱的语义信息,能够更准确地理解用户问题,检索到相关的知识。Graph RAG 在处理需要深层逻辑推理和知识关联的问题时表现出色。

Graph RAG的特点包括:
Graph RAG局限性:
Graph RAG适用于医疗诊断、法律研究等需要对结构化关系进行推理的应用领域。
AgenticRAG
Agentic RAG,在RAG的基础上引入了AI“代理”(Agent)。在Agentic RAG中,AI代理模块负责协调检索和生成过程,而不是简单地遵循固定的单次检索-生成流程。通过将RAG的知识检索能力与AI代理的决策能力相结合,突破传统RAG在多源异构数据整合和多跳推理任务上的局限。

技术性突破:
2.2 Agent应用
概念
AI Agent是任何可以通过传感器感知其环境并通过执行器对环境采取行动的东西。——罗素和诺维格,《人工智能:一种现代方法》(2016 年)
技术演进
框架构成

Agent的概念框架,由大脑、感知、行动三个部分组成。作为控制器,大脑模块承担记忆、思考和决策等基本任务;感知模块负责感知和处理来自外部环境的多模态信息;行动模块负责使用工具执行任务并影响周围环境。上述框架同样适用于所有与各种环境互动的代理,比如与物理环境互动的机器人或与软件互动的AI Agents。
一个基于大模型的LLM-Based AI Agent 系统可以拆分为大模型、规划、记忆与工具使用四个组件部分:
发展摘要

设计模式
COT
思维链,Chain-of-Thought Prompting ,22年5月,谷歌发表论文Chain-of-Thought Prompting Elicits Reasoning in Large Language Models,提出方法在输入提示(Prompt)中加入人工编写的推理步骤示例,引导模型生成类似的分步思考过程,最终得出答案。通过在提示词中显式要求模型生成推理链(如“因为...所以...”),提升模型在需要逻辑、数学或符号推理的任务的准确率。通过将“黑箱”输出转化为可解释的推理过程,COT不仅提升了模型性能,也为后续的AI可解释性研究和复杂任务处理奠定了基础。

主要贡献:
方法论突破 :首次证明大语言模型可通过显式推理链提升复杂任务性能。
提出“推理即生成”(Reasoning via Generation)的新范式。
TOT
思维树 (Tree Of Thoughts),CoT通常只有一条解决问题的路径,ToT等于是CoT的一个拓展,把一条reasoning路径拓展至多条reasong paths,这样模型可以综合多条reasoning path的结果得到最终的结论。
Tree of Thoughts: Deliberate Problem Solving with Large Language Models

主要贡献:
从线性到树状推理的跃迁:ToT首次将复杂任务建模为树状搜索过程,每个节点代表一个中间状态(如数学问题的分步计算、写作任务的段落规划),并通过分支生成和动态评估探索多路径可能性。这种设计突破了传统模型仅支持单向推理(如CoT的链式结构)的限制,使模型能够像人类一样进行前瞻性探索和回溯修正,模拟人类启发式决策机制;
自主规划与评估:通过引入“状态评估器”和“搜索算法”,ToT允许模型自主评估不同推理路径的潜在价值;
建立可解释性新标准:通过可视化推理路径(如展示决策树的分支与剪枝过程),ToT增强了模型输出的透明度。
ReAct
Reasoning and Acting,受COT以及强化学习(RL)通过行动(Action)与反馈(Feedback)优化决策过程启发,22年10月,普林斯顿与谷歌发表论文ReAct: Synergizing Reasoning and Acting in Language Models,将推理(Reasoning)与行动(Acting)结合,让模型动态规划思考步骤,并在需要时调用外部工具,形成“思考-行动-观察”循环。

主要贡献:
ReAct局限性:
变种与后续发展:
Reflection
Reflection,反思,该模式的核心思想是让AI模型能够自动地对自己的输出进行批判性思考和改进,而不是仅仅生成一次性的最终结果。


Actor:Actor模型基于大型语言模型(LLM),被提示生成所需的文本和行动,这些行动会根据状态观察进行条件化。Actor模型可以是Chain of Thought或ReAct等。
Evaluator:Evaluator模型对Actor产生的输出进行评分,评估其在给定任务中的表现。对于推理任务,可以使用基于精确匹配的评分,确保生成的输出与预期的解决方案高度一致。对于决策任务,可以采用预定义的启发式函数。根据任务要求,提供奖励或惩罚作为反馈。
Self-Reflection:Self-Reflection模型是一个LLM,它通过生成语言反馈来提供有价值的反馈,帮助Actor进行自我改进。Self-Reflection模型分析当前轨迹和奖励信号,生成具体的反馈,并将其存储在Actor的记忆中。
记忆核心:Reflexion过程的核心是短期和长期记忆的概念。在推理时,Actor根据短期和长期记忆做出决策。短期记忆由轨迹历史组成,而长期记忆则存储Self-Reflection模型的输出。
主要贡献
将传统强化学习的参数更新机制转化为语言形式的反馈信号,通过自然语言总结错误经验并存入记忆系统,指导后续决策,模型不仅接收“失败”信号,还会获得具体错误原因的文本反馈;利用自然语言作为反馈信号,将二进制或标量环境反馈转化为文本形式的自反反馈,从而为智能体提供了更加清晰和可解释的方向;
使用长短期记忆(LSTM)网络存储自反反馈经验,以便于智能体在未来的学习过程中参考;这种记忆机制使得Agent能够记住重要的经验并应用于后续的决策过程中,从而提高了决策能力和适应性。
结合了 reflection/evaluation、search(蒙特卡洛树搜索) 来实现更好的任务性能。
它采用标准的强化学习(RL)任务框架,将RL代理、价值函数和优化器都替换为对一个大型语言模型(LLM)的调用。目的是帮助 Agent 适应并解决复杂任务,避免陷入重复的循环中。

搜索过程的4个步骤:
LATS将其他代理架构的推理、规划和反思组件统一起来,如Reflexion、思维树(Tree of Thoughts)和计划执行代理(plan-and-execute agents)。LATS还来自于基于反思和环境反馈的反向传播,用于改进搜索过程。
Planning
REWOO的全称是Reason without Observation,是相对ReAct中的Observation 来说的。它旨在通过以下方式改进 ReACT 风格的Agent架构:
第一,通过生成一次性使用的完整工具链来减少token消耗和执行时间,因为ReACT模式的Agent架构需要多次带有冗余前缀的 LLM 调用;
第二,简化微调过程。由于规划数据不依赖于工具的输出,因此可以在不实际调用工具的情况下对模型进行微调。

ReWOO 架构主要包括三个部分:
Planner:规划器,负责将任务分解并制定包含多个相互关联计划的蓝图,每个计划都分配给Worker执行。
Worker:执行器,根据规划器提供的蓝图,使用外部工具获取更多证据或者其他具体动作。
Solver:合并器,将所有计划和证据结合起来,形成对原始目标任务的最终解决方案。
Plan-and-Execute这个方法的本质是先计划再执行,即先把用户的问题分解成一个个的子任务,然后再执行各个子任务,并根据执行情况调整计划。Plan-and-Execute相比ReWOO,最大的不同就是加入了Replan机制。

Plan-and-Execute架构上包含规划器、执行器和重规划器:
规划器Planner,负责让 LLM 生成一个多步计划来完成一个大任务,在书籍运行中,Planner负责第一次生成计划;
执行器,接收规划中的步骤,并调用一个或多个工具来完成该任务;
重规划器Replanner,负责根据实际的执行情况和信息反馈来调整计划
LLM Compiler是伯克利大学的SqueezeAILab于2023年12月提出,其在ReWOO引入的变量分配的基础上,进一步训练大语言模型生成一个有向无环图(Directed Acyclic Graph,DAG,如下图所示)类的规划。DAG可以明确各步骤任务之间的依赖关系,从而并行执行任务,实现类似处理器“乱序执行”的效果,可以大幅加速AI Agent完成任务的速度。

LLM Compiler主要构成:
Planner:输出流式传输任务的DAG,每个任务都包含一个工具、参数和依赖项列表。相比ReWOO的Planner,依赖项列表是最大的不同。
Task Fetching Unit:调度并执行任务,一旦满足任务的依赖性,该单元就会安排任务。由于许多工具涉及对搜索引擎或LLM的其他调用,因此额外的并行性可以显著提高速度。
Joiner:由LLM根据整个历史记录(包括任务执行结果),决定是否响应最终答案或是否将进度重新传递回Planner。
MultiAgent
多智能体协作MAS(Multi-agent collaboration): 由多个智能体组成的集合。这些Agent可以是不同的软件程序、机器人、传感器等,它们各自具备一定的智能和自主性,并处理各自擅长的领域和事情。MAS的核心思想是通过多个Agent的协作与协调,共同完成一个复杂任务,从而实现单个Agent无法完成的复杂目标。
相比单Agent系统,Multi-Agent系统具备以下优势:
MAS形态
社会模拟型:例:斯坦福小镇 《Generative Agents :interactive simulacra of human behavior》
任务导向型:例:软件开发团队
开源框架:
MetaGPT(GitHub - FoundationAgents/MetaGPT: 🌟 The Multi-Agent Framework)
Phidata( https://www.phidata.com/ )
OpenAI Swarm( https://github.com/openai/swarm )
Microsoft Autogen( https://www.microsoft.com/en-us/research/project/autogen/ )
CrewAI( https://www.crewai.com/ )
Vertex AI( https://cloud.google.com/vertex-ai )
协同框架:

SingleAgent: 整个系统重只有一个Agent负责处理所有的工作;
Network:每个Agent都可以与其他所有Agent通信。任何Agent都可以决定接下来要调用哪个其他Agent;
Supervisor:每个Agent只与一个Supervisor Agent通信,Supervisor Agent作为团队指挥官,决定接下来应该调用哪个Agent;
Supervisor As Tools:这是Supervisor架构的一种特殊情况。单个Agent可以被表示为一个工具。在这种情况下,Supervisor Agent使用一个tool-call调用LLM来决定调用哪个Agent工具;
Hierarchical:可以定义一个具有多个Supervisor的多Agent系统。这是Supervisor架构的一个泛化,允许更复杂的控制流程;
Custom:每个Agent只与部分Agent通信。流程的部分是确定性的,只有某些Agent可以决定接下来要调用哪个其他Agent;
Why MAS Failed
https://arxiv.org/abs/2503.13657


规范问题 :「地基」没打好 或 「规章制度」有问题,诸如不遵循任务要求、步骤重复以及不知何时终止等问题;
沟通问题:系统执行过程中,是 Agent 之间沟通不畅、协调失误、目标不一致导致的。就像一个团队,成员之间互相误解、信息不流通、各行其是;
任务验证问题:「质检环节」形同虚设,该类失败与最终结果的质量控制有关。要么是没检查,要么是检查了但没查出问题,要么是还没完成就提前收工了;
改进建议:
改进提示与角色规范:明确任务终止条件、增强验证步骤。
标准化通信协议:减少非结构化文本交互的模糊性。
强化验证机制:结合领域知识(如符号验证、单元测试生成)。
概率置信度集成:智能体在低置信度时暂停行动,请求更多信息。
通信协议
LLM的快速进步,Agent智能体正在各种行业得到越来越广泛的应用。然而,随着应用场景范围不断扩大以及来自不同供应商、具有不同结构的智能体不断涌现,智能体与实体之间的交互规则变得日益复杂。这一发展过程中的关键瓶颈在于缺乏标准化协议。这种缺失严重阻碍了智能体与前述资源的互操作能力,限制了它们利用外部功能的潜力。

Agent生态中三个核心角色 用户、Agent、外部世界,不同协议定位主要面向不同角色之间的链接。
FunctionCall
FunctionCall 最早由 OpenAI 于 2023 年引入,最初用于支持 ChatGPT 插件系统。这项能力使 Agent 可以通过标准接口请求宿主程序调用外部插件、API 或服务,从而突破模型固有知识边界和算力限制。OpenAI 提供了基于 JSON Schema 的函数定义方式,要求开发者为每个工具(即函数)定义名称、描述、输入参数类型和结构。模型一旦识别出用户的问题属于某个工具所能处理的范围,就会生成符合 JSON 格式的调用请求,而宿主应用接收请求、执行对应操作并返回结果,模型继续生成最终答复。

局限性:
缺乏统一标准:各大模型平台的调用机制、参数格式等不同,难以实现完全兼容;
上下文不统一:每个模型对工具行为的解释可能不同,可能出现调用失败、误判等情况;
扩展复杂度提升:当工具数量众多或有调用依赖关系时,开发者需要构建中间调度逻辑,增加了代码复杂度和维护成本;
MCP
MCP(Model Context Protocol)以更简单、更可靠的方式将LLM智能体连接到包括外部数据、工具和服务在内的各类资源。MCP的高度标准化有效解决了不同基础LLM和工具提供商带来的系统分散问题,显著提升了系统集成能力。同时,MCP的标准化也为LLM智能体的工具使用带来了极强的可扩展性,使它们能更容易地集成各种新工具。

基本组成
MCP Host:运行 MCP Client 的宿主环境,可能是 Claude 桌面端、IDE、企业 Copilot 系统等。
MCP Client:代表模型一侧发起任务请求的客户端 SDK,封装成标准协议消息发送给 MCP Server。
MCP Server:暴露功能或数据接口的服务提供者,可是本地数据库、文件系统,也可以是远程 API。
数据源或远程服务:MCP Server 后端连接的数据或服务。
Functioncall VS MCP

FunctionCall:函数调用,它允许 LLM 根据用户的自然语言输入识别它需要什么工具以及格式化的工具调用的能力;
MCP:提供了一个通用的协议框架来发现、定义、以及调用外部系统提供的工具能力;
A2A
A2A旨在实现不同平台和生态中的 AI 智能体之间的安全、标准化协作,无论它们基于何种框架或由哪家公司构建。协议的核心目标是打通智能体间的互操作性,支持跨平台、多模态的协同工作。通过 A2A,智能体可以彼此通信、发现对方能力、协商任务分配,并协作完成复杂的企业级流程,即便它们来自不同的技术体系。

其功能特性主要有以下四点:
Capability discovery: 代理可以使用 JSON 格式的“Agent Card”来宣传其能力,从而允许客户端代理识别能够执行任务的最佳代理并利用 A2A 与远程代理进行通信。
Task management: 客户端与远程代理之间的通信以任务完成为导向,代理负责执行最终用户的请求。此“Task”对象由协议定义,并具有生命周期。它可以立即完成,或者,对于长时间运行的任务,每个代理可以进行通信,以彼此保持同步,了解任务的最新完成状态。任务的输出称为“Artifact”。
Collaboration: 代理可以互相发送消息来传达上下文、回复、Artifact或用户指令;通过引入认证/授权机制,保证 Agent 之间的身份互信。
User experience negotiation: 每条消息包含“部分”,即完整形成的内容片段,例如生成的图像。每个部分都有指定的内容类型,允许客户端和远程代理协商所需的正确格式,并明确包含对用户 UI 功能(例如 iframe、视频、Web 表单等)的协商,这意味着 A2A 不仅关注 Agent 之间的语义协作,还主动考虑最终用户界面呈现方式的兼容性和体验质量,这是前所未有的细节设计。
AG-UI
AG-UI,即智能体用户交互协议(Agent User Interaction Protocol),是由CopilotKit公司于2025年推出的一个开放、轻量且基于事件的协议。它旨在通过标准的HTTP或可选的二进制通道,以流式方式传输一系列JSON事件,标准化AI智能体与前端应用程序之间的交互。

AG-UI关键特性:
实时交互:支持实时事件流,确保用户与AI状态同步
人机协作:允许用户介入AI决策过程,适合需要人工确认的复杂工作流
传输灵活性:支持多种传输方式,如SSE、WebSocket等
轻量设计:最小化依赖,易于集成到各种规模的项目中
标准化事件:定义统一的事件类型,简化开发流程
通用Agent与应用
伴随多模态技术成熟和大模型能力突破,OpenAI推出的Operator以及Monica的Manus,标志着AI技术从被动响应迈向主动执行的跨越。
Computer Use
24年11月,Anthropic官宣了Claude 3.5的同时,也低调官宣了一个Beta版本的能力 Computer Use,目前处于公开测试阶段,这项功能允许 Claude 像人类一样使用计算机,具体表现为:用户可以指导 Claude 像人类一样使用计算机 —— 通过查看屏幕、移动光标、单击按钮和输入文本,来完成各类任务。https://www.anthropic.com/news/3-5-models-and-computer-use
贡献:
Agent工具使用范式的重构,从 API软件能力到Action 操作系统;
Operator
25年1月,OpenAI发布名为Operator的Agent代理,旨在通过模拟人类在浏览器上的操作(如打字、点击和滚动)来完成各种重复性任务,从而扩展 AI 的实用性。

Operator 由名为 Computer-Using Agent (CUA) 的新模型驱动。CUA 结合了 GPT-4o 的视觉能力和通过强化学习获得的先进推理能力,使其能够与图形用户界面 (GUI) 进行交互。Operator 可以“看到”(通过屏幕截图)和“交互”(使用鼠标和键盘的所有操作)浏览器,无需自定义 API 集成即可在 Web 上执行操作。
这款发布的AI agent主要应用场景是面向GUI,其框架主要分成perception reasoning action三部分。perception就是截图作为视觉信息,然后用多模态模型来理解;reasoning过程的训练用了reinforcement learning,用step-by-step慢推理的方式;action就是模仿人类鼠标操作。
Manus
2025年3月,由Monica推出的Manus引发了广泛关注与讨论。Manus 采用了多智能体协同架构(Multiple Agent Architecture)。简单来说,就是在一个任务中由多个专门的 AI Agent 分工合作,由一个中央决策模块(“大脑”)进行规划和协调。
Monica.im 官方介绍 Manus 运行在独立的虚拟机沙盒中,类似于 Anthropic 的“Computer Use”模式。在这个隔离的环境中,Manus 可以安全地调用各种工具,包括代码编辑器/执行环境、浏览器、文档处理器等,实现对电脑的操作。与传统单一LLM(大型语言模型)直接对话不同,Manus 会自主产生一系列思维链(Chain of Thought)和待办事项清单来逐步完成复杂任务。它具有出色的任务规划与执行能力:能够将复杂任务自动分解为子任务,并行或顺序执行,直到完成最终目标。Manus 还内置长短期记忆模块,可以在对话和执行过程中记录关键信息和用户偏好,实现持续学习与自我调整。

人机协作Agent范式:

Manus的贡献在于重新定义了AI Agent的产品形态,推动了AI从“对话交互”向“人机协作”的范式跃迁:
从“生成答案”到“执行闭环” :通过多Agent架构(规划、执行、验证模块协同)实现了任务全流程自动化。例如,在简历筛选中,它能解压文件、逐页分析内容并生成排名报告,展现了类似人类的分步工作模式。这种“思考-规划-执行”闭环突破了传统AI仅提供建议的局限,直接交付成果(如PPT、代码、分析报告);
技术整合与工程化创新 :Manus未依赖底层模型原创突破,而是通过集成现有大模型(如Claude、DeepSeek)、强化学习算法和工具包生态,构建了高效的工程化编排能力。其核心在于动态调度多模型资源,例如在股票分析中调用数据抓取、建模和可视化模块协作生成报告;
虚拟机环境与安全机制 :借鉴Anthropic的“ComputerUse”架构,Manus在隔离的云端虚拟机中执行任务,支持非在线异步处理(用户可关闭设备等待结果),并通过沙盒环境验证代码可行性以降低风险;
模型Agent
Alexander Doria(The Model is the ProductActual LLM agents are coming)
Shunyu Yao(The Second Half – Shunyu Yao)
下一代Agent范式:
端到端Agent,模型即产品。
研究与市场发展趋势
基础模型 => 推理模型
在靠语言模型预训练的Scaling Law这个经典物理规律遇到瓶颈后,包括OpenAI在内的多家模型公司资源中心发生转变,走向了从快思考走向慢思考的道路:

o3 和 o4-mini 两款模型都可以自由调用 ChatGPT 里的各种工具,包括但不限于图像生成、图像分析、文件解释、网络搜索、Python。
此外,o3 和 o4-mini 首次实现了将图像直接融入思维链的能力,它们不仅“看得见”图像,更能“通过图像思考”。这带来了视觉与文本推理的全新融合方式,显著提升了它们在多模态任务中的表现。
同时DeepseekR1通过把它的「思考过程」,也就是思维链(Chain-of-Thought, CoT)以文字的方式展示出来, 这不仅大幅提升了用户的体验,也让模型的可解释性再一次成为关注的焦点。
DeepResearch
OpenAI 推出的 DeepResearch是典型的「模型即产品」的案例,端到端实现(All-IN-One)Agent的典范。
25年2月,OpenAI 推出的 DeepResearch,关于 DeepResearch,很多人存在误解,这种误解随着大量仿制版本(开源和闭源)的出现,变得更严重了。实际上,OpenAI 并非简单地在 O3 模型外面套了层壳,而是从零开始训练了一个全新的模型: https://cdn.openai.com/deep-research-system-card.pdf
OpenAI 的官方文档:
强化学习+推理
模型化Agent:内生智能



强化学习 RL:与传统智能体类似,LLM 智能体也通过强化学习进行训练。这里的「maze」是所有可能的文本组合,而「way out」或「reward」则是最终的目标。验证是否达成奖励的过程被称为「verifier」——William Brown 新开发的验证器库正是为此而生。目前,验证器主要用于形式化结果,如数学方程或编程代码。但 Kalomaze 的研究表明,通过训练专门分类器,也可为非严格可验证的输出构建验证器。值得注意的是,语言模型在评估方面的表现优于生成,因此即使用小型 LLM-as-judge,也能显著提升性能和奖励设计。
草稿模式(Drafts):LLM 智能体的训练依赖于生成草稿并同时评估。这一选择并非显而易见,因为早期研究主要集中在扩展搜索到整个 token 序列。计算限制和「推理」模型的突破推动了这一转变。典型的训练过程是让模型生成逻辑序列,假设能得出正确答案的序列更可能是正确的。这可能导致反直觉的结果(如 DeepSeek-R0偶尔在英语和中文间切换)。然而,正如苦涩的教训所示,强化学习只关注结果的有效性,甚至允许非正统或计划外的捷径。就像智能体在迷宫中寻找出路,语言模型必须通过纯粹推理找到路径 —— 没有预定义提示,只有奖励和获取奖励的方式。
结构化输出(rubric):LLM 草稿通常被预定义为结构化数据部分,以便于奖励验证,并在一定程度上简化整体推理过程。这是一种「评分标准工程」,既可以直接作为奖励函数进行管理,也可以在大型实验室的训练设置中通过后训练阶段实现。
多步训练:LLM 智能体的训练需要大量草稿和多步骤迭代。搜索领域的情况尤其如此:我们不会一次性评估搜索结果,而是评估模型获取资源、处理结果、进一步获取资源、调整计划、回溯等能力。因此,DeepSeek 的 GRPO结合 vllm 的文本生成成为当前首选方法。计算需求的降低将是未来几年强化学习和智能体设计普及的关键因素。
Build Your Agent
Anthropic:https://www.anthropic.com/engineering/building-effective-agents
Openai:a-practical-guide-to-building-agents
Google:https://www.kaggle.com/whitepaper-agents
使用场景与选择依据
框架使用建议
多智能体使用建议

在LLM应用中,成功的关键不在于打造最复杂的系统,而在于找到适合自身需求的最佳方案。从简单的提示词开始,通过全面评估优化其效果,仅当简单方法不足以满足需求时再考虑引入多步骤智能体系统。
在构建智能体时,建议遵循以下三项核心原则:
-End-
原创作者|李会珠