用户与Agent的多轮对话过程中会出现很多记忆,包括用户原始的意图、诉求、关键词,还包括Agent的推理、规划、工具调用的执行结果及模型最终的响应。 每轮对话背后,都由一个智能体记忆模块会进行会话信息提炼和通用信息整理,不断抽取用户偏好、画像、核心事实、个性化信息等,用于辅助Agent在后续对话中进行推理。 如果哪天底层切换存储组件,Agent层完全不需要感知,切换很灵活。 因为在接口层面做了抽象,所以可以很好的面向功能进行接口涉及,而无需关注这个功能接口究竟是用了一个文件系统还是多个类型的文件系统。 回过头来,我们看一下从用户提出问题,到最终Agent给出回答的整个流程如下。 最终实现类似于操作系统的文件系统能力,让智能体的记忆可追溯(每一步有据可查)、可审计(所有操作都有日志)、可演化(新组件无缝接入),整个Agent的记忆历史都是可以回溯的,而不是黑盒了。
开发者Rohit面试失败后,开始深入研究Agent记忆系统,最终构建出生产级方案。核心洞察:记忆是基础设施,不是功能。 标准方案为何失效方案一:对话历史塞入上下文10轮对话后,上下文窗口填满,系统开始截断旧消息。结果?Agent忘记了用户是素食者。问题根源:对话历史不是记忆,只是聊天日志。 Agent幻觉出错误的综合答案。问题根源:Embedding衡量的是相似性,不是真实性。向量数据库不理解时间、上下文或更新。短期记忆:Checkpointing每个Agent作为状态机运行。 Embedding,调整图谱边权重,归档冷数据推理时检索从上下文窗口约束反向工作:用合成查询广泛搜索搜索结果是候选,不是答案相关性评分×时间衰减=最终排序近期记忆往往击败六个月前的完美匹配结果:只注入5-10 Agent当操作系统,不是聊天机器人:RAM:当前对话的快速易失上下文硬盘:持久化、索引化的知识存储垃圾回收:定期维护,否则系统崩溃总结记忆系统的关键在于:不是存储,而是组织和衰减。
2026年Agent记忆系统方案横评与选型指南AI发展正经历从模型时代向智能体时代再向认知时代的跃迁。 伴随这一进程,Agent记忆系统由辅助模块跃升为核心基础设施,承担“让AI记住过去、理解未来”的使命,支撑跨会话、长周期、多任务的连续智能表现。 技术路线全景与阶段跃迁Agent记忆技术沿时间轴铺展为十余条路线,形成全局视图。 OS化记忆中枢:记忆系统成为Agent的操作系统级组件,统一管理多模态、多Agent共享状态。时间图谱深化:引入时间戳与因果边构建事件网络,支撑长周期推理与回溯。 从外挂工具到原生核心,记忆系统正经历从“辅助”到“定义”的蜕变,未来智能体将以持续懂你、跨会话不断线的能力,成为可信赖的第二大脑。
但如果要选出最能体现其差异化价值的三个能力,一定是:记忆系统——这是"越用越聪明"的基础技能引擎——这是"自我进化"的实现消息网关——这是"随时可达"的保障核心能力一:三层记忆架构第一层:短期工作记忆(
人去观察模式、记录下来、维护文件,Agent 只负责执行。 其实记忆应当是 Agent 在反复实践中习得的,而非人工分配的。 核心思想:基于置信度的学习 多数 AI Agent 记忆系统采用显式建模,即人写规则、Agent 遵照执行。 4: raw (observed, not actionable) Confidence 5-9: mature (ready to suggest) Confidence 10 到第五次会话,Agent 对工作流的熟悉程度已经超过一个新加入的团队成员。 stats = store.stats() # 汇总统计 # 导出 rules = store.export_rules() # 仅置信度 >= 10
一个好的记忆系统,本质上就是一个“抠门且高效的管家”,它能帮你把原本需要几万甚至几十万Token才能说清楚的事情,压缩到几百字。这不仅关乎钱包的厚度,更直接决定了应用的响应速度和用户体验。 以下是为您更新后的终极选型对比表,特别增加了【费用降低效果】列:记忆系统开发团队情况核心范式与特色主打场景/杀手锏费用降低效果(Token/CostSavings)上手难度与集成方式潜在槽点MemoriMemoriLabs SQL原生+全链路归因Agent原生记忆层,将交互自动转结构化持久状态。打造极致的多智能体协同,需要精确追踪“谁在什么时候做了什么”。 解决长尾上下文遗忘难题,需要Agent具备“举一反三”的学习力。高(智能压缩降耗)通过反射机制过滤无效信息,极大减少上下文窗口膨胀带来的边际成本。 端侧设备、极度追求隐私保护、零成本的微型Agent。极高(零额外推理费)纯数学运算,无任何外部LLM依赖,完全杜绝了Embedding和推理的API调用费。
这篇文章记录了我如何用 Elasticsearch 的原生能力,给 Agent 装上一套真正能用的长期记忆系统。 Elastic 近期推出的 Agent Builder 和 Workflows 这两个功能,让你不用写一行应用代码,就能把上面所有能力串成一个完整的记忆系统。 这意味着整个记忆系统的工具层,零应用代码。5.1 工具一:Save_Memory(写入记忆)这个工具让 AI 在对话过程中,把识别到的高价值信息写入 Elasticsearch。 六、串联起来:Agent 如何使用记忆配置好工具后,在 Agent Builder 中把这两个工具分配给你的 Agent,再在 system prompt 里加上记忆管理的指令。 写在最后我一直觉得,AI Agent 领域最被低估的问题不是"推理能力",而是"上下文工程"。模型越来越聪明,但如果你喂给它的上下文是垃圾,输出就是垃圾。记忆系统就是上下文工程的核心基础设施。
1: 用户显式要求 用户: "帮我查一下上周三我记了什么" ↓ LLM 推理: 用户询问历史记忆 → 需要读取特定日期文件 ↓ 调用: read_file(path="memory/2024-01-10 长期记忆是用户的第二大脑,不是日志" ❌ 不会自动把所有对话都塞进去 ❌ 没有复杂的自动摘要算法 ✅ 依赖 LLM 的推理能力判断"什么值得记住" ✅ 保持简洁,只存真正重要的信息 总结 nanobot 的记忆系统通过分层设计解决了记忆膨胀问题
比如你是一个素食主义者,但因为智能体记忆缺陷,Agent给你推荐了烤肉,这会降低你对Agent的信任感。 更长的上下文会显著增加大模型的推理延迟,带来高昂的Token成本。 为了解决这一问题,业界开源了Mem0长期记忆系统。 它通过动态的提取、整合、检索对话中的关键信息,赋予了智能体长期记忆的能力。 底座是包含向量数据库和知识图谱架构设计。 这样memory记住的不是原始的对话,而是结构化的事实,让Agent更好掌握对话实质内容。 这些结构化信息将作为后续存储和检索的基础。 向量存储,解决的是语义理解。 最有效的记忆系统会将语义相似性搜索和关系遍历相结合的混合搜索。 当用户问:“其他具有相似风险偏好的客户提出过哪些投资担忧?”
记忆系统奠定理论基石。 因此,记忆超越了其作为桥接历史交互的被动存储库的角色,而是充当 Agent 认知架构中的关键主动组件。因此,给 Agent 装上记忆系统,并非只是为了记住,而是为了实现三大核心作用: 图 1. 2.Agent 中的记忆存储 不同于人脑浑然天成的神经网络,Agent 的记忆系统是显式的工程构建。 Agent 记忆系统评测 综述将现有的 Benchmark 分为了两类: 面向语义(Semantic-oriented):重点关注 Agent 如何构建、维护和利用其内部记忆中的信息状态。 面向情景(Episodic-oriented):旨在评估复杂下游应用场景(使用外部工具完成任务)中 Agent 上记忆系统的实际性能增益。 表 1. 面向语义的基准 表 2.
(不仅记得技术栈,还记得历史操作记录)记忆系统的技术细节写入机制记忆不是简单的"保存聊天记录"。 /project-docs/开始体验要充分体验记忆系统的价值,建议持续使用至少一周。在云端部署可以确保Agent持续运行,记忆不断积累。 Q3:如何防止Agent记住不该记住的信息?A:可以在对话中明确告诉Agent"不要记住这个",也可以在config中配置记忆过滤规则。
通过分析长期记忆在 Agent 系统中的核心作用,详细阐述 MCP 与向量数据库、知识图谱等记忆系统的集成机制。 )的一个重要设计目标就是支持与长期记忆系统的深度集成,通过标准化的接口和协议,让 Agent 能够高效地存储、检索和利用长期记忆。 1.3 行业动态与技术趋势 当前,长期记忆系统已成为 AI Agent 领域的研究热点。 五、实际工程意义、潜在风险与局限性分析 5.1 实际工程意义 MCP 与长期记忆系统的结合在实际工程中具有重要意义: 提高 Agent 智能水平:赋予 Agent 持续学习和知识积累的能力,提高其决策质量和适应性 支持复杂任务:长期记忆支持 Agent 处理复杂的多步任务和长期项目 促进知识共享:不同 Agent 之间可以共享记忆资源,促进知识的传播和复用 5.2 潜在风险 尽管 MCP 与长期记忆系统的结合具有诸多优势
本文就总结了构建AI系统时真正绕不开的10个基础概念 1、MCP:通用插件系统 假设你需要Agent读取Gmail、更新Notion、查询数据库。 有了长期记忆,Agent会让人觉得"它记得我",而不是每次都像跟陌生人打交道。 来看一个场景:用户说过"我习惯把会开在上午10点之前"。这条偏好被写入长期记忆,关联到用户ID。 一周后用户说"帮我跟Sarah约个会",Agent检索记忆,发现早会偏好,直接推荐上午9点的空档,而不是随机塞一个下午的时间。没有记忆系统的话用户每次都得重复说明自己的习惯。烦。 三次重试都失败后,Agent告诉用户——"邮件服务暂时挂了,草稿已保存,10分钟后自动重发。"出了什么问题、接下来怎么办,交代得清清楚楚。 10、运行时编排:管理执行环境 Agent不是跑一次就结束的脚本。它是一个长期运行的系统,要响应事件、并行处理任务、扛住重启、还得在资源限制内运转。 运行时编排就是这套基础设施。
核心思路:你在用 Claude Code 干活的过程中,它通过生命周期钩子自动把工具调用、观察和结果捕获下来,再用 Claude Agent SDK 做语义压缩,存进本地 SQLite 和 Chroma 500-1000 tokens 用法大概是这样: // Step 1: 先扫一圈拿索引 search(query="authentication bug", type="bugfix", limit=10 看索引里哪几条 ID 值得细看(比如 #123、#456) // Step 3: 只对筛出来的 ID 拿全文 get_observations(ids=[123, 456]) 官方说这一套能省大约 10x
│ └─────────────────────────────────────────────────────────────┘ 核心能力 能力 说明 记忆系统 安全性 Rust 的所有权系统在编译时就能避免很多错误: // 编译器会帮你检查空指针、数据竞争等问题 let context = ContextManager::new(10); context.add_message 性能 场景 Python Rust 向量相似度计算 较慢 快 10-100 倍 并发处理 GIL 限制 真正的并发 内存占用 较大 小且可控 对于需要处理大量请求的 Agent 系统,性能意味着更好的用户体验 记忆系统 - 管理对话历史和用户信息 2. 工具管理器 - 注册和调用各种工具 3. 推理规划 - 理解问题,拆解任务 4. 知识库的搭建方法 ✅ 了解了 Rust 在 Agent 场景的优势 未来可以扩展 方向 说明 多模态 支持图片、语音输入 多 Agent 协作 多个 Agent 分工合作 个性化 学习用户偏好 主动服务
简单地扩大上下文窗口反而导致性能下降,必须通过记忆系统来管理什么该进入上下文窗口。 二、短期记忆与长期记忆的区别 人类大脑进化出了分层记忆系统,因为将一切保留在工作记忆中是不可能的。AI同样需要分层记忆架构。 现代AI Agent的记忆系统通常包含多种记忆类型,每种承担不同功能: 3.1 核心记忆类型 记忆类型 功能描述 示例 情景记忆 记录具体交互或环境事件的序列和结果,用于复盘和经验学习 记录用户上次讨论的项目细节 参考文档 [1] 构建有记忆的 AI Agent:SQLite 存储 + 向量检索完整方案示例,阿里云开发者社区,2025-10 [2] 2026 AI Agent 记忆系统三大主流范式:从检索到记忆的本质 ] 深入解析AI智能体记忆机制:八大策略与实现方案,华为云社区,2025-08 [9] Anthropic突破智能体长时记忆瓶颈,双代理架构实现跨会话连续工作,国家科技图书文献中心,2025-11 [10
在此,我们将重点介绍10个具有代表性的Agent应用构建框架,并对其他常见的框架进行简要概述,以期为大家提供一个相对全面的视角,了解这一领域的现状和潜在趋势。 1. CrewAI已经成为增长最快的Agentic AI生态系统,并在2024年10月成功筹集了1800万美元的资金。 10. Haystack Haystack 是由 deepset 开发的一个开源框架,专门帮助企业构建生产级的 大模型应用、RAG(检索增强生成)流水线以及复杂的搜索应用。 由于目前对“Agent”这一概念的理解还不够清晰,甚至存在滥用(比如把简单的Bot当成Agent),导致市面上的Agent框架良莠不齐。如果你有其他喜欢的Agent框架,欢迎留言补充! 大模型应用的10种架构模式 LLM运行框架对比:ollama与vllm浅析
背景 在这个周末我安装了Windows 10 Spring Update,最令我期待的就是它的内置OpenSSH工具,这意味着Windows管理员不再需要使用Putty和PPK格式的密钥了。 在Windows 10中使用OpenSSH 测试要做的第一件事就是使用OpenSSH生成几个密钥对并将它们添加到ssh-agent中。 然后确保新的ssh-agent服务正在运行,并使用ssh-add将私钥对添加到正在运行的agent中: ? 运行ssh-add.exe -L显示当前由SSH agent管理的密钥。 最后,在将公钥添加到Ubuntu box之后,我验证了我可以从Windows 10进入SSH,而不需要解密我的私钥(因为ssh-agent正在为我处理): ? 监控SSH Agent 为了了解SSH代理是如何存储和读取我的私钥,我开始静态检查ssh-agent.exe。
简单地扩大上下文窗口反而导致性能下降,必须通过记忆系统来管理什么该进入上下文窗口。 现代AI Agent的记忆系统通常包含多种记忆类型,每种承担不同功能:3.1 核心记忆类型记忆类型功能描述示例情景记忆记录具体交互或环境事件的序列和结果,用于复盘和经验学习记录用户上次讨论的项目细节、记录操作步骤语义记忆存储概念性 :分解任务并执行子任务Reflect Agent:每个子任务结束后自动评估,成功则提炼为过程记忆,失败则生成诊断并触发重新规划任务完成后:全局回顾,将执行经验升华为更高层次的战略记忆和工具记忆八、伦理与合规考量引入记忆系统也带来了新的治理挑战 参考文档1 构建有记忆的 AI Agent:SQLite 存储 + 向量检索完整方案示例,阿里云开发者社区,2025-10 2 2026 AI Agent 记忆系统三大主流范式:从检索到记忆的本质,OceanBase 01 8 深入解析AI智能体记忆机制:八大策略与实现方案,华为云社区,2025-08 9 Anthropic突破智能体长时记忆瓶颈,双代理架构实现跨会话连续工作,国家科技图书文献中心,2025-11 10
记忆系统:存储和管理历史对话和上下文信息。 规划系统:负责复杂任务的分解和规划。 Agent系统:协调各组件,实现自主决策和执行。 与Agent的关系是什么? MCP与Agent系统的边界和协作方式尚不清晰。 如何与记忆系统集成? MCP如何处理和管理上下文信息。 在不同AI架构中的适配方式? 3.3 MCP与记忆系统的集成 MCP v2.0支持与记忆系统的深度集成,实现智能上下文管理: # MCP与记忆系统集成示例 import asyncio import aiohttp import json 技术深度拆解与实现分析 5.1 MCP系统集成实践 下面是一个完整的MCP系统集成示例,展示如何将MCP与LLM、记忆系统和Agent系统集成: import asyncio import aiohttp MCP与AI系统中的其他组件(如LLM、Agent、记忆系统等)密切协作,共同构成现代AI系统的核心架构。明确MCP在AI系统中的位置,对于理解和构建现代AI系统至关重要。