上周我分享了Google推出的Agents入门课程及相关白皮书。课程中重点推荐了5篇Google最新的Agents技术白皮书,内容涵盖从架构设计到生产实践的全面总结,共计337页,约十万余字。考虑到内容篇幅较大,我将其浓缩整理为一份约5000字的解读版本,以便大家快速把握重点。
摘要
人工智能领域正经历一场范式转变:从被动的内容生成模型转向自主问题解决的AIAgent。这一转变标志着软件工程的深刻变革,AIAgent不再是简单的工具,而是能够规划、执行多步任务并与环境交互的智能系统。本总结基于五篇技术白皮书,系统性地阐述了AIAgent的架构、开发、评估与生产部署全过程。这些文档由Google等机构的专家撰写,涵盖了Agent工具互操作性、上下文工程、Agent质量、生产化流程以及Agent架构基础等内容,为构建企业级可信Agent提供了完整框架。
AIAgent的核心优势在于其自主性:它们能理解用户意图、制定计划并调用工具完成任务,而无需逐步人工指导。然而,这种自主性也带来了独特挑战,包括非确定性行为、安全风险和生产环境复杂性。传统软件测试方法在此失效,因为Agent失败往往源于推理缺陷而非代码错误。成功部署Agent要求新的工程纪律——AgentOps,它将DevOps和MLOps原则扩展到Agent生命周期管理。
内容按逻辑流组织:从Agent基础架构开始,深入上下文工程与内存管理,探讨质量评估框架,解析生产部署策略,并展望安全与互操作性前沿。文中将嵌入原始文档中的图片以增强理解,所有图片均紧邻相关描述放置。
图中展示了Agent的核心问题解决循环:获取任务、扫描环境、思考规划、执行行动、观察迭代。这一循环是Agent自主性的基础。
第一章:AI Agent基础与架构
Agent定义与分类
AIAgent是模型、工具、编排层和运行时服务的组合,它使用语言模型(LM)在循环中实现目标。与仅生成内容的传统LM不同,Agent具备行动能力:它们能调用工具、访问数据并影响外部世界。Agent架构可划分为五个成熟度级别:
- Level 0:核心推理系统:孤立的LM,仅依赖预训练知识,无工具交互能力。例如,能解释棒球规则但无法查询最新比分。
- Level 1:连接的问题解决者:基础Agent,能调用外部工具(如搜索API)获取实时信息。例如,通过Google搜索查询洋基队昨晚比分。
- Level 2:战略问题解决者:具备多步规划和上下文工程能力,能动态管理信息。例如,找咖啡店时先计算中点位置再搜索评分高的选项。
- Level 3:协作多Agent系统:多个专业Agent协同工作,如项目经理Agent delegating 任务给研究Agent、营销Agent。
- Level 4:自我进化系统:Agent能自主创建新工具或Agent以填补能力缺口,实现动态扩展。
图中使用分层金字塔模型,用于呈现不同层级的智能系统(或问题解决能力)的发展阶段:底层是基础支撑,越往上层,系统的复杂性、自主性与智能程度越高。
核心架构组件
Agent架构由三个核心组件构成,类比于“大脑”、“手”和“神经系统”:
- 模型(大脑):LM是Agent的推理引擎。选择模型时需平衡认知能力、成本和延迟。例如,Gemini 2.5 Pro用于复杂规划,Gemini 2.5 Flash处理高频简单任务。模型应具备可靠的工具使用和多步推理能力,而非仅依赖基准分数。
- 工具(手):工具连接Agent与现实世界,分为信息检索(如RAG、NL2SQL)和行动执行(如发送邮件、运行代码)。工具通过函数调用集成,需清晰定义名称、参数和描述。例如,天气查询工具需包含位置参数和温度单位说明。
图中展示了工具调用实例:用户询问天气,Agent调用get_weather工具并返回结构化结果。工具定义需清晰,避免歧义。
- 编排层(神经系统):管理Agent的“思考-行动-观察”循环。它处理状态、记忆和推理策略,确保Agent按计划执行。编排层需支持动态上下文组装,仅向模型提供最相关信息。
设计模式与原则
开发Agent时,需遵循关键设计原则:
- 领域知识注入:通过系统提示定义Agent角色和约束,如“您是无助的客服Agent,需遵循公司政策”。
- 上下文增强:短期记忆维护会话历史,长期记忆通过RAG系统持久化用户偏好。
- 多Agent模式:对于复杂任务,采用“专家团队”模式:
- 协调者模式:管理器Agent分解任务并路由给专家Agent。
- 顺序模式:Agent流水线处理,输出即输入。
- 迭代优化模式:生成Agent创建内容,评审Agent评估质量。
图中展示了迭代优化模式:生成Agent产出内容,评审Agent提供反馈,循环直至满足标准。此模式提升输出质量。
第二章:上下文工程与内存管理
上下文工程的核心概念
上下文工程是动态组装和管理LM上下文窗口信息的过程,它超越了提示工程,涵盖整个有效载荷构建。Agent的上下文包括:
- 指导推理的上下文:系统指令、工具定义、少样本示例。
- 证据与事实数据:长期记忆、外部知识(如R检索)、工具输出。
- 即时会话信息:会话历史、状态、用户提示。
上下文工程的关键挑战是管理长会话。随着对话进行,上下文窗口可能溢出,导致成本增加、延迟升高和模型性能下降(“上下文腐烂”)。解决方案包括历史截断、递归摘要和选择性修剪。
图中展示了上下文管理流程:获取上下文、准备上下文、调用LLM和工具、上传新信息。这一循环确保Agent始终基于相关数据操作。
会话与内存的作用
会话和内存是上下文工程的两大支柱:
- 会话:封装单次对话的历史和工作记忆,包含事件(用户输入、Agent响应)和状态(临时数据)。会话需持久化存储以支持无状态Agent运行时。
- 内存:长期持久化机制,跨会话捕获关键信息。内存使Agent个性化,如记住用户偏好。
会话说与内存的关系可类比为“工作台”与“文件柜”:会话是临时工作空间,内存是整理后的长期存储。内存生成遵循ETL流程:从会话数据中提取信息,整合到现有知识库,并持久化存储。
内存类型与架构
内存可按内容和功能分类:
- 声明性内存:“知道什么”,包括事实、数字事件。例如用户生日、产品详情。
- 程序性内存:“知道如何”,指导技能和工作流。例如正确调用工具序列。
内存存储架构影响检索效率:
- 向量数据库:基于语义相似性检索,适合非结构化内存。
- 知识图谱:存储实体关系,支持复杂查询。
- 混合方法:结合两者优势,实现语义和关系搜索。
内存生成可通过显式命令(用户指示“记住此信息”)或隐式提取(Agent自动从对话中推断)。生产系统需异步处理内存生成以避免延迟。
图中说明了会话、内存和外部知识间的信息流。内存管理器从会话提取信息,整合后存储,供后续检索。
内存与RAG的对比
内存管理器与RAG引擎互补:
- RAG:Agent的“研究图书馆员”,提供静态事实知识(如文档、API数据),通常共享且只读。
- 内存:Agent的“个人助理”,存储动态用户特定信息(如偏好、历史),高度隔离。
例如,RAG可查询产品规格,内存可记录用户上次购买记录。两者结合使Agent既懂世界又懂用户。
第三章:Agent质量与评估框架
Agent质量的独特挑战
Agent的非确定性行为打破了传统QA范式。失败模式包括:
- 算法偏见:Agent放大训练数据偏见,导致不公平结果。
- 事实幻觉:生成看似合理但错误信息。
- 性能漂移:现实数据变化使Agent过时。
- 突发意外行为:Agent开发非预期策略,如利用规则漏洞。
评估Agent需从“验证产品正确性”转向“验证产品价值”,采用由外而内的方法:先评估最终输出是否达成用户目标,再分析内部轨迹。
四大质量支柱
Agent质量建立在四大支柱上:
- 有效性:Agent是否准确达成用户意图?衡量指标包括任务成功率、用户满意度。
- 效率:Agent以多少资源解决问题?关注令牌消耗、延迟、步骤数。
- 稳健性:Agent如何处理异常(如API超时、模糊提示)?需优雅降级而非崩溃。
- 安全性与对齐性:Agent是否在伦理边界内操作?包括偏见检测、提示注入防护。
图中展示了Agent质量的四大支柱:有效性、效率、稳健性、安全性。全面评估需覆盖所有维度。
评估方法与法官类型
评估Agent需混合方法:
- 自动化指标:ROUGE、BLEU用于文本相似度,BERTScore用于语义匹配。适合回归测试但缺乏深度。
- LLM作为法官:使用强大模型(如Gemini Advanced)评估Agent输出。提供规模化质量反馈。例如,对比两个Agent响应,判断哪个更 helpful。
- Agent作为法官:评估完整推理轨迹,检查规划质量、工具使用合理性。
- 人在环(HITL)评估:人类专家提供细微判断,尤其针对领域特定任务。HITL是黄金标准但成本高。
配对比较优于单一评分:让LLM法官选择AgentA或B的响应更优,计算胜率更可靠。
可观测性三支柱
评估依赖可观测性数据:
- 日志:Agent的“日记”,记录时间戳事件(如工具调用、错误)。需结构化以便查询。
- 追踪:连接日志的“叙事”,显示端到端执行路径。OpenTelemetry等标准支持。
- 指标:聚合“健康报告”,如P99延迟、错误率。分为系统指标(性能、成本)和质量指标(正确性、帮助性)。
图中说明了可观测性的三大支柱:日志、追踪、指标。它们共同提供Agent行为的全面视图。可观测性使调试成为可能。当Agent失败时,追踪可揭示根本原因:例如,RAG检索失败导致工具调用错误,最终生成荒谬响应。
第四章:从原型到生产的部署与运维
生产化挑战与AgentOps
Agent原型可快速构建,但生产部署消耗80%精力,用于基础设施、安全性和验证。生产化挑战包括:
- 动态工具编排:Agent路径不可预测,需版本控制和访问管理。
- 可扩展状态管理:会话和内存需持久化,支持多用户。
- 不可预测成本与延迟:不同任务路径导致资源波动。
AgentOps是MLOps的演进,结合CI/CD、可观测性和安全实践。它要求评估门控部署:无Agent版本可通过全面评估前不触及用户。
CI/CD管道三阶段
稳健的CI/CD管道分三个阶段:
- 预合并集成(CI):在PR阶段运行单元测试、代码检查和质量评估。快速反馈阻止回归。
- 合并后验证(暂存):部署到类生产环境,进行负载测试和内部用户测试。
- 门控生产部署:人工审批后,将经过验证的构件推广到生产环境。
管道需自动化,使用基础设施即代码(如Terraform)和秘密管理(如Secret Manager)。例如,Agent Starter Pack提供模板自动化此流程。图8展示了CI/CD管道的三个阶段:预合并检查、暂存验证、生产部署。每个阶段增加信心。
安全部署策略
为降低风险,采用渐进式推出策略:
- 金丝雀发布:先向1%用户发布,监控异常行为。
- 蓝绿部署:并行运行两个环境,瞬时切换以便回滚。
- A/B测试:比较Agent版本对业务指标的影响。
- 功能标志:动态控制功能发布,快速禁用问题组件。
生产运维循环
生产运维遵循“观察-行动-进化”循环:
- 观察:通过日志、追踪、指标监控Agent行为。例如,Cloud Trace记录延迟,Cloud Monitoring触发警报。
- 行动:实时干预杠杆:
- 系统健康:水平扩展(如Cloud Run)、异步处理(如Pub/Sub)、外部状态存储(如AlloyDB)。
- 风险管理:安全响应剧本:遏制(禁用工具)、分类(HITL审查)、解决(通过CI/CD修补)。
- 进化:从生产数据学习,更新评估数据集,部署改进。例如,用户负面反馈转化为新测试用例。
图中描绘了Agent质量飞轮:定义质量目标、仪器化可观测性、评估过程、构建反馈循环。飞轮驱动持续改进。
第五章:安全、互操作性与高级主题
安全与隐私基础
Agent安全需纵深防御:
- 策略定义:系统提示中编码伦理约束,如“不得泄露用户数据”。
- 护栏与过滤:输入过滤(如Perspective API检测恶意提示)、输出过滤(Vertex AI安全过滤器屏蔽PII)。
- 持续保证:红队测试、自动化评估、更新护栏。
独特风险包括:
- 提示注入:恶意用户操纵Agent执行未授权行动。
- 数据泄露:Agent意外暴露敏感信息。
- 内存中毒:错误信息污染Agent知识库。
Agent身份与访问管理
Agent是新类别主体,需独立身份(如SPIFFE标准)。与用户和服务账户不同,Agent代表委托权威。访问控制需遵循最小权限原则,如销售Agent仅访问CRM数据。
互操作性协议:MCP与A2A
互操作性解决“N x M”集成问题:避免每个Agent-工具对的定制连接。
- 模型上下文协议(MCP):工具互操作开放标准。采用客户端-服务器架构,MCP服务器提供工具定义,客户端(Agent)调用它们。MCP标准化通信,支持本地(stdio)和远程(HTTP)传输。
图中展示了MCP架构:主机托管Agent,客户端管理连接,服务器提供工具。此解耦设计促进工具生态系统。
- Agent到Agent(A2A)协议:Agent间协作标准。Agent发布“Agent卡”描述能力,其他Agent通过任务委托交互。A2A支持复杂多Agent工作流,如项目经理Agent协调专家Agent。
MCP用于工具交互(“做此具体事”),A2A用于目标委托(“实现此复杂目标”)。两者协同:Agent用A2A协作,内部用MCP调用工具。
多Agent系统与注册表架构
多Agent系统将复杂任务分解给专家团队,提高效率。规模扩大时,需注册表架构:
- 工具注册表:目录化所有工具,方便发现和治理。
- Agent注册表:管理Agent清单,支持重用。
注册表防止蔓延,但需维护开销。建议在工具或Agent数量庞大时构建。
自我进化与学习Agent
高级Agent能自我进化:
- 在线学习:从会话日志和用户反馈中提取知识,更新内存。
- 模拟环境:Agent健身房提供安全试验场,通过试错优化行为。
- 人类协作:域专家纠正Agent,反馈转化为持久规则。
例如,合规Agent人类标记错误后,学习Agent更新规则,未来自动避免类似错误。
图中展示了多Agent合规工作流:查询Agent获取数据,报告Agent生成草稿,评审Agent检查合规性,学习Agent从反馈中进化。
先进Agent实例
- Google Co-Scientist:研究协作Agent,生成和评估科学假设。采用多Agent架构,管理器Agent委托任务给专家。
- AlphaEvolve:算法发现Agent,通过进化过程优化代码。人类可理解输出并指导搜索。
这些案例显示Agent如何超越自动化,成为创造性伙伴。
结论与未来展望
AIAgent代表软件范式的根本转变:从工具到自主伙伴。本总结综合了架构、工程和质量原则,为构建生产级Agent提供蓝图。关键洞察包括:
- 架构重要性:Agent质量始于设计时,需内置可观测性和评估点。
- 轨迹即真理:评估必须分析完整推理路径,而非仅最终输出。
- 人为仲裁者:自动化提供规模,但人类价值观设定标准。
未来方向包括:
- 标准化与互操作性:MCP和A2A等协议将促进Agent生态系统成长。
- 自我进化能力:Agent将学会从经验中改进,减少人工干预。
- 企业治理:随着Agent普及,集中控制平面和注册表将成为必需。
成功部署Agent需文化转变:团队需接受非确定性,投资AgentOps纪律。Agent不是银弹,但通过严谨工程,它们能解锁新水平的自动化与协作。未来属于能有效集成人类智慧与机器自主性的系统。
推荐阅读
认识AI智能体:是什么?能做什么?
20个行业的企业智能体案例集合
Google推出Agents课程及白皮书