搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

2026年Agent记忆系统方案横评与选型指南
目前主流第三方评测包括PersonaMem（20个用户画像、6462条上下文、589道推理题）、Terminal-Bench2.0（编码能力）、SWE-benchVerified（软件工程任务）等，为行业建立了权威参照系底层基于腾讯云向量数据库，在OpenClaw3.7与Kimi-K2.5环境通过PersonaMem评测，验证海量上下文与高难推理题下的记忆稳定性。评测数据：接入后OpenClaw总体准确率76.10%，较原生提升59%，用户事实召回率由不足30%升至79%以上。复现一致性：基于固定PersonaMem集与统一环境，确保结果可重复验证。应用实例主观评测测试围绕信息提取、主动推断、时间戳与事件认知四类能力设计案例，采用“问题—标准答案—结果—评价”四段式呈现。问题1（信息提取）：用户曾在3月5日约定每周五提交进度表，提取该事实与周期。总结与愿景腾讯云AgentMemory在PersonaMem评测中以76.10%准确率与59%提升，超越Full-context基准，破除“上下文越长越好”的迷思，彰显精细记忆管理的价值。
28110编辑于 2026-05-07
腾讯云Agent Memory登顶2026主流方案首选榜
我们基于PersonaMem评测集（20个独立画像、6462条海量上下文、589道高难推理题），在OpenClaw3.7框架与Kimi-K2.5模型环境中，对主流Agent记忆方案进行排位，让优势与差距一目了然在PersonaMem高难推理题测试中，原答对不足48题，现稳定答对76题，意味着记忆保真与精准召回能力在复杂场景已实现断层领先。其四层渐进式架构（L0原始对话、L1原子记忆、L2场景分块、L3用户画像）可在信息流转中自动完成从碎片化到个性化画像的进化，使AI在跨会话、长任务中持续记录用户偏好与进度，显著减少重复确认。 CEO邓亚峰曾任职360集团、格灵深瞳，团队2025年启动项目，仅用四个月在多项记忆评测达SOTA。 Top3专家：mem9核心优势：作为服务端记忆系统，可将AIAgent记忆从本地文件升级为可抽取、可去重、可重塑、可共享的形态，并非单纯向量检索替代关键词搜索。
18710编辑于 2026-05-07
来自专栏李俊飞的专栏
3D XPoint 存储性能评测（1）
此次实测对比一下 3D XPoint 和 SSD 等存储的性能。 1、3D XPoint, SSD, SAS 与 SATA 读写速度对比结果分析：（1）3D XPoint 读写峰值速度在 2GB/s 左右，随机读写能到 1.8GB 左右，SSD 读写为 300～ 2、3D XPoint 在不同读写比例下的读写速度峰值注：横轴为读写比例结果分析：（1） 3D XPoint 在不同业务模式的读写速度差别不大，读峰值 2.1GB/s，写峰值 1.9GB/s，混合读写速度在二、测试环境 1、硬件环境存储类型设备型号和容量 3D XPoint INTEL SSDPED1K375GA v1.0 ／ 375.08 GB SSD／SAS／SATA SSD：Z3 12*800G ， SAS／SATA：实验室测试设备 2、软件环境测设设备测试软件及版本实验室设备 fio 2.0.8 Z3 fio 2.0.8
2.2K00发布于 2017-07-05
腾讯云发布龙虾记忆服务Agent Memory，免费一键开启
评测数据显示，接入该服务后，OpenClaw的总回答准确率高达76.10%，较原生记忆提升近59%。 L3 用户画像：形成稳定的用户画像，让 AI 适应你的习惯。信息沿着这条链路逐步进化：碎片化对话 → 结构化事实 → 场景化认知 → 个性化画像。数据说话，基于 PersonaMem 评测集结果（20个模拟用户画像、6000+条消息、589道测评题）：原本 100 个关于“你的问题”，以前只能答对不到 48个，现在能答对 76个。
3K81编辑于 2026-04-03
【AGI-Eval评测报告 NO.6】o3 o4-mini 文本权威评测：o3 强势登顶
目录： 1. o3 和 o4 mini评测分析 1.1 评测概述 1.2 o3 评测结果 1.3 o4-mini评测结果 2. o3 和 o4 mini 信息回顾 1.o3 和 o4 mini评测分析 1.1 评测概述【评测对象】 OpenAI-o3 与 OpenAI-o4-mini 【评测方式】基于自建的通用能力评测集与公开评测集【评测结论】 ① o3 毫无悬念的登顶，在交互能力接下来我们继续为大家拆解 o3 和 o4-mini 的详细评测内容 1.2 o3 评测结果 o3 核心结论： o3 在综合能力上表现优异，尤其在交互能力、推理能力和指令遵循方面处于领先地位。同类型模型能力对比：本次评测，我们基于自建的通用能力评测集与公开评测集，将 OpenAI o3 与 o1 进行了对比：在通用能力上，OpenAI o3 水位优于 OpenAI o1，其中推理能力有明显提升 * 评测指标是被评测模型相对于标杆模型的五档加权胜率 *标杆模型为 GPT4-turbo-0125 评测方案：可点击阅读原文跳转官网，评测榜单处点击评测方案查看 2.o3 和 o4 mini 实测回顾
46110编辑于 2025-05-08
【AGI-Eval评测报告 NO.2】DeepSeek V3-0324抢先评测！最全报告输出
DeepSeek V3-0324 评测分析 2.1 核心结论 2.2 通用评测结果 2.3 场景评测结果3.DeepSeek 历史发布轨迹总结4.DeepSeek 未来发布计划01 DeepSeek 关注我们，第一时间获取最新模型评测分析~02 DeepSeek V3-0324 评测分析2.1 核心结论DeepSeek V3-0324 的具体实力如何，AGI-Eval 大模型评测社区第一时间做了模型评测 2.2 通用评测结果DeepSeek V3-0324 更新后，在AGI-Eval自建的通用能力评测集，综合能力水位从Claude-3.5提升至Claude-3.7，各能力普遍有提升，其中推理能力提升最明显公开评测结果DeepSeek V3-0324 相较上一版本，在各公开数据集上均有提升。反对关系**2.3 应用场景评测结果在信息处理、衣食住行、情感陪伴、代码4个典型应用场景客观评测集上，DeepSeek V3-0324 均对比上一版本均有明显提升，其中信息处理和代码场景提升显著。
1.2K10编辑于 2025-03-26
来自专栏搜狗测试
软件品质评测系统-评测体系
2 ● 评测体系的内容 ● 评测体系可大可小，根据评测的内容而有所不同，一个完整的评测体系应包含：评测对象评测属性评测场景评测指标在进行评测体系的设计之前，首先应明确评测对象是什么，可以大到一个系统有了评测对象后，根据产品的需求或者应解决的问题，就可以确认哪些评测属性，比如准确度，覆盖度，再比如多样性，健壮性等。评测属性再向下，确认好评测属性的应用场景及指标项，综合形成评测矩阵。将以上结合，就是一个完整的评测体系。 ? 3 ● 评测体系的设计方法 ● 评测对象相对来说比较明确，接下来就是被测对象的特质进行评测属性的选择，以及确认好评测属性后进行评测矩阵的划分。评测场景的选择确认好了评测属性以后，接下来就是针对评测属性进行评测场景的覆盖及指标项的选择。评测场景一般是根据实际应用场景结合实现细节进行敲定。评测矩阵当评测属性，评测场景及评测指标一一敲定后，我们可以根据矩阵思想，将属性，场景及指标建立成一个二维矩阵，后续可以按照迭代的版本维护起来，全面的展示该评测对象需要重点评测的全部内容。
3.1K20发布于 2020-07-14
来自专栏喔家ArchiSelf
如何评测语音技能的智能程度（3）——交互流畅
《如何评测语音技能的智能程度》是5篇系列文字，来自一位创业者，也是DuerOS开发者的投稿，老曹尽量不做变动和评价，尽量保持系列文章的原貌，这是第3篇。这里有3个细节。第一个是反馈的行为折损。根据历史数据表现，1个问题被报上来，背后往往有至少10个以上的用户遇见过，只是用户懒/报问题麻烦，没有报而已。 3、业务逻辑处理表现，其实是NLP领域最为核心的部分，也是最为耗时的部分，从效率角度上而言，此处尽管追求越快越好。【交互流畅】（3）交互形式丰富度每一种交互形式的存在，都有着其依赖的场景。 ? 下图是我尝试穷举人类的输入行为（尽力做到MECE）。 ? 同样的，在【交互流畅】这个单元模块，有更多评测点去列举，但是受限于篇幅以及能力所限，删掉的一些内容。保留以及删除评测点的原则，也是基于评测指标的普适性。同样用提问的方式，列举一下我删除掉的考核点。
5.4K20发布于 2020-06-04
来自专栏搜狗测试
软件品质评测系统-评测结果展示
1 ● 为什么要进行数据展示 ● 在前几次的分享中，设计了好的评测体系、具备了数据挖掘分析能力、选择高效稳定的评测执行工具后，我们会拿到第一手的评测数据。在我们之前的实践过程中，拿到原始评测数据后会通过观察数据给出一个评测结论。长此以往发现这样并不利于保存数据记录，并且没法反映出一段时间内评测指标的变化趋势。 2 ● 哪些数据需要展现 ● 评测结果展现对于在评测设计时选定的评测指标，需要准确完整地展现在评测系统中。我们据此设计了一个评测的结果报告，每次评测完成后会通过该报告给出评测结论： ? 3 ● 如何进行结果展示 ● 准确对于评测结果的展示，最重要的就是数据准确性。
2.8K20发布于 2020-08-11
来自专栏前行的CVer
LLM评测
数据集包含 500 多个提示，每个提示包含一个或多个可验证的指令，例如“写一篇超过 800 字的文章”或“在响应中至少提到 3 次 AI 关键词”。 3. 中文 Benchmark 通用&数学&code——OpenCompass 司南，会分中文榜单和英文榜单。
1.8K10编辑于 2024-08-05
AI 3D建模工具对比 - InstantMesh vs TripoSR全面评测
昨天刷到一个视频，有人用AI十几秒就做出了一个超精细的3D模型，我当时就想：这不可能吧？然后我就去找了两个最火的AI建模工具来测试——InstantMesh和TripoSR。 InstantMesh 和 TripoSR 虽然都是单图转 3D，但底层逻辑完全不同。如果你要做一个3D展示网站，用户上传照片立即看到3D效果，TripoSR几乎是唯一选择。服务器成本也可控，一台配置不算太高的GPU服务器就能支撑不少并发。 TripoSR证明了实时3D生成的可行性，这为很多应用场景打开了大门。想象一下，以后在电商网站上传商品照片，立即就能生成3D预览，这体验得多棒。 InstantMesh则在质量上做了突破，让AI生成的3D模型真正达到了可用于生产的标准。虽然现在还有些慢，但随着硬件性能提升，这个问题会逐步解决。
92210编辑于 2025-07-23
来自专栏LuckQI
icx项目评测
（注：在评测公链项目时，我把“使用区块链的必要性”调整为了“产品特色与创新”） ◆代币升值逻辑：16/40 这一点看的有点困惑，感觉icon项目代币升值逻辑的不确定性主要体现在两个方面：一是每年增发与否取决于一个名叫
1.6K20发布于 2018-07-19
来自专栏LuckQI
项目评测etherparty
●总得分：51.1/100分想做的目标很好，但是产品特色和目前的团队配置可能还需要进一步的补强，未来也有必要根据后续的推动情况，作进一步的动态评测。
1.6K20发布于 2018-07-19
来自专栏PHP学习网
PHP技能评测
公司出了一些自我评测的PHP题目，其中好多题目在面试的时候都会碰到，大家可以看看学习学习。 1. 魔术函数有哪些,分别在什么时候调用? NULL，也返回 FALSE 若变量存在且值不为NULL，则返回 TURE 同时检查多个变量时，每个单项都符合上一条要求时才返回 TRUE，否则结果为 FALSE 版本：PHP 3, 3.PHP的与定义变量有哪些,分别是什么? ◆3.对于AUTO_INCREMENT类型的字段，InnoDB中必须包含只有该字段的索引，但是在MyISAM表中，可以和其他字段一起建立联合索引。　　 2、非聚集索引（non-clustered index）从逻辑角度 1、主键索引：主键索引是一种特殊的唯一索引，不允许有空值 2、普通索引或者单列索引 3、
1.5K30编辑于 2022-08-03
来自专栏数据结构与算法
2840 WIKIOI——评测
2840 WIKIOI——评测时间限制: 1 s 空间限制: 2000 KB 题目等级 : 白银 Silver 题目描述 Description Wikioi上有一题有N个测试点，时限为输出描述 Output Description 结果样例输入 Sample Input 3 100 ABC ABD 50 AB AB 10 ABSTGDH ABSTGDH 120 样例输出 Sample 分类标签 Tags 点此展开 1 #include<iostream> 2 #include<cstdio> 3 #include<cstring> 4 using namespace
1.5K80发布于 2018-04-13
来自专栏搜狗测试
不可缺少的评测方案-主观性能感知评测！
“主观性能感知评测”。该评测选取主要使用场景，由人工操作与竞品对比，根据执行人员的主观感受来评测应用的流畅度，下面来介绍一下如何制定主观性能评测方案。 APP选取 1. 制定评测标准由于本评测为主观性能评测，不会有详细数据输出，因此就以是否卡顿制定标准，制定标准如下： 1. 流畅：无任何卡顿感觉，使用顺畅； 2. 一般流畅：没有明显的卡顿感觉，用户难以感知； 3. ，网络环境需要保持一致，最好不要切换网络，如果网络情况不佳，建议更换一个稳定的网络进行评测； 3．每次执行评测时，应用版本不能更换； 4．每次执行评测时，执行人员不能更换；执行测试根据测试方案执行表格中的总结主观性能感知评测，在评测中是不可缺少的，能直观的反映出应用与竞品在用户使用层面的差距。
1.7K10发布于 2020-06-04
来自专栏个性化推荐评测
TTS系统评测方法介绍--WSRD AI评测实验室
AI评测实验室针对TTS前端、后端的存在的问题，选取TTS评测指标，制定各指标评测方法，形成了一套系统的TTS评测方案。二、评测指标介绍针对上文提到的前后端可能存在的问题，选择如下指标来评测TTS。 [lf3hxj32az.png] 三、评测方法介绍本章详细介绍评测时重点关注的发音准确性评测和MOS评测。评测方法数字部分的评测方法与符号类似，为加快标注速度直接对前端归一化输出做判断，而不是对测试语料进行标注后再与前端输出结果做比较，形式如下： [lqd2s3xxui.jpg] 3.2 MOS评测 MOS 语料建设前端的评测通过发音准确、韵律准确等来评测，MOS评测应该专注于整体自然度，因此准备测试语料的时候尽量避开了多音字、符号、数字语料，从各领域和TTS实际应用场景摘选常规文本作为测试语料。
18.5K115发布于 2018-07-02
来自专栏VRPinea
大朋E3评测：拒绝负重前行，轻松打造优质娱乐体验
日前，VRPinea收到了大朋VR寄来的E3定位版。趁着开箱这股新鲜劲还没过去，先放两张E3的定妆照仙仙你们。外形：清新雅致，细节之处彰显用心大朋E3定位版采用黑灰二色，流线型的设计，彰显大气。质量变轻后，E3对于玩家的头部压力就变小了，因此E3佩戴起来更加舒适，没有很大的负重感。除了重量方面的瘦身，E3还简化了线索，仅保留了一根三合一的数据线和音频线。为了减少眩晕，其将E3的延迟优化得格外出色，仅为16ms。而E3的表现果然没有让小编失望，并没有出现余晖和延迟等问题。此外，E3的优势还体现在画面的精致清晰上，可以将VR视频中的每一帧所要表现的震撼体现得淋漓尽致。大朋E3定位版（双基站），直降近千元，到手仅需4078元，大朋E3定位版（单基站），降价七百多元，到手价3238元。相比HTC Vive还是有着一千多元的价格优势。
93480发布于 2018-05-17
来自专栏技术成长
如何评测图系统
可以使用工具来进行性能测试，例如使用Apache JMeter等工具模拟并发请求，测量系统的吞吐量和响应时间。
97461编辑于 2023-11-03
来自专栏移动应用测试
视频负反馈评测
图：众测任务说明界面图：众测用户标注界面众测的后台会将同一个题目随机分给 3 个不同的众测用户标注，然后将 3 个标注结果进行统计，如果某个分类结果有 2 个以上的用户标注，则为有效的评论标注，图：标注结果统计（绿色为有效标注，红色为无效标注） 3、开始训练有了标注的数据，就可以训练模型了。视频的评论使用工具是tensorflow，网络是CNN，速度比RNN快很多。视频评测 1、获取视频vid 评测的模型训练完成后，就可以用来评测线上的数据了。线上数据的获取，视频这边是从播放记录拿的数据。 3、开始评测将一个视频的所有评论使用模型评测，如果评论结果为问题视频（根据负面视频的占比），还会将该 vid 对应的信息补全（视频标题，封面图等信息）方面后期运营同学处理评测结果。 3、模型结果和优化当前的的评测模型每天能识别出 100 多个问题视频，经过人工确认的视频有 40-80 个，占比 70% 左右。运营同学手工确认的问题视频，后台也会收集用来优化模型。
1.5K60发布于 2018-07-17

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

2026年Agent记忆系统方案横评与选型指南

腾讯云Agent Memory登顶2026主流方案首选榜

3D XPoint 存储性能评测（1）

腾讯云发布龙虾记忆服务Agent Memory，免费一键开启

【AGI-Eval评测报告 NO.6】o3 o4-mini 文本权威评测：o3 强势登顶

【AGI-Eval评测报告 NO.2】DeepSeek V3-0324抢先评测！最全报告输出

软件品质评测系统-评测体系

如何评测语音技能的智能程度（3）——交互流畅

软件品质评测系统-评测结果展示

LLM评测

AI 3D建模工具对比 - InstantMesh vs TripoSR全面评测

icx项目评测

项目评测etherparty

PHP技能评测

2840 WIKIOI——评测

不可缺少的评测方案-主观性能感知评测！

TTS系统评测方法介绍--WSRD AI评测实验室

大朋E3评测：拒绝负重前行，轻松打造优质娱乐体验

如何评测图系统

视频负反馈评测

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐