首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 2025年AI Agent评测基准全景指南:从选型困惑到落地实战

    评测基准。 、多任务评测基准,其核心价值在于全面衡量大语言模型驱动的Agent在多场景下的泛化能力。 设计理念:统一接口:提供标准化的任务接口,确保评测结果的可比性多环境覆盖:涵盖代码开发、数据分析、游戏交互等多个领域实际表现评估:重点关注Agent在真实任务中的执行效果根据AWS在Agent质量评估实践中的分析 6.1新兴评测趋势:从静态到动态动态评测成为主流:传统评测基于静态数据集,无法反映真实环境的复杂性新一代评测基准开始采用动态生成的任务和环境强调Agent在不确定环境中的适应能力多智能体协同评测:单一Agent 评测已无法满足复杂业务场景需求多Agent协同、竞争和博弈成为新的评测维度需要评估Agent在团队协作中的表现持续学习能力评测:评估Agent从经验中学习和改进的能力关注长期性能变化和知识积累效果测试Agent

    2.2K11编辑于 2025-11-27
  • 来自专栏有文化的技术人

    Agent评测机制概述

    主流评测基准 3.1 通用Agent评测基准 基准名称 发布机构 评测重点 任务类型 AgentBench 清华大学等 综合Agent能力 8种环境任务 GAIA Meta+HuggingFace 通用 AI助手 多步推理+工具使用 WebArena CMU Web交互能力 网页操作任务 OSWorld 多机构 操作系统交互 桌面操作任务 3.2 专项评测基准 基准名称 评测重点 特点 SWE-bench 工具错误 工具选择或参数错误 选错工具、参数格式错误 推理错误 逻辑推理出现偏差 错误推断、信息遗漏 执行错误 工具执行失败 API调用失败、超时 效率问题 完成任务但效率低下 冗余步骤、重复操作 5. : -明确评测目标和范围 -选择合适的评测基准 -准备测试数据集 -配置评测环境 评测执行: -记录完整执行轨迹 -收集多维度指标 -多次运行取平均值 -记录异常情况 结果分析: -计算各项指标得分 -对比基准线和竞品 -分析错误模式分布 -生成评测报告 7.

    32420编辑于 2026-04-09
  • 来自专栏星河细雨

    Agent常见测评基准概述

    对于 agent 的测评,学术界和工业界提出了多种评测基准。 环境与任务:基准包含操作系统、数据库、知识图谱、数字卡牌游戏、智力拼图、家庭服务、网页购物和浏览等八个环境,任务通常需要 5–50 步才能完成。 特点:通过跨多个环境考察模型的多轮决策和长程推理能力。 τ-Bench 目的:补足通用基准对真实业务流程可靠性评测的不足。 场景:在零售、客服、航空等真实领域构建任务,要求 Agent 与模拟用户和 API 多轮互动以完成复杂目标。 创新:提出 HomerAgents 多智能体框架自动生成长链任务和对话,用以构建规模化基准。 AppWorld 专门用来评测交互式编码 Agent 在"多应用 + 多用户"的复杂数字环境中的能力。 该基准弥补了医疗 AI 评测仅停留在问答层面的不足,重视规划、决策和执行的综合能力。

    1.4K10编辑于 2025-12-24
  • 美团 LongCat 团队发布 VitaBench:基于复杂生活场景的交互式 Agent 评测基准

    然而,现有的智能体评测基准与现真实生活场景的应用需求之间依然存在显著差距,主要体现在以下几个方面:工具生态简单化:早期的工具调用基准主要评估单次 API 调用的准确率(如:函数选择、参数填充),忽视了真实工具间的复杂依赖关系与组合调用需求 同时,这种模式下,除了进行深度思考、有效环境交互的能力外,模型的长文本指令遵循能力也对执行结果有很大影响;交互动态性缺失:用户作为环境的重要组成部分,大多数交互式 Agent 基准当前没有充分考虑到用户交互行为的多样性 id=125为系统衡量这三重挑战下的模型表现,美团 LongCat 团队构建了 VitaBench,一个依托“生活服务”场景、高度仿真的综合性 Agent 评测基准。 04.实验结果与分析美团 LongCat 团队在 VitaBench 上评测了包括 GPT-5、Claude-4.1-Opus、Gemini-2.5-Pro、Kimi-K2、GLM-4.5、LongCat-Flash 05.总结与展望VitaBench 是一个新发布的开源评测基准,旨在评估 AI Agent 在模拟真实生活场景中的表现。

    55110编辑于 2025-10-22
  • 来自专栏自然语言处理

    中文语言能力评测基准「智源指数」

    智源指数简介 http://cuge.baai.ac.cn/#/ 智源指数是指中文语言理解和生成评测基准,智源指数包含高质量中文自然语言处理数据集、排行榜与在线评测平台,旨在构建全面系统的中文机器语言能力评测体系 ,形成多层次维度的评测方案,力求更加科学、规范、高质量地推进中文自然语言处理技术的标准评测。 排行榜 智源指数排行榜提供多层次维度的评测方案,提供数据集、任务、能力得分,以及智源指数总体得分。 智源指数根据标准基线模型(mT5-small)的得分,对参与评测模型的得分进行归一化(括号中显示),最大程度消除不同数据集和评测指标的差异。 登录个人账号后即可在参与评测页面提交。

    1.3K10编辑于 2022-01-06
  • 来自专栏有文化的技术人

    Agent实时评测与最佳实践

    实时评测的发展阶段 1.1 当前所处阶段 Agent评测正在从「离线评测」向「在线实时评测」演进,目前处于「过渡期」: ┌──────────────────────────────────────── ─────────────────────────────┐ │ Agent评测演进路线 │ ├── # 5% severity:critical message:"Agent错误率异常" -name:cost_spike condition:hourly_cost>daily_budget [5m]) -title:"延迟分布" type:heatmap query:agent_latency_seconds -title 「持续迭代」:评测体系需要随业务演进不断优化

    15110编辑于 2026-04-09
  • 来自专栏AI SPPECH

    61_自定义基准:构建专属评测体系

    自定义评测基准的重要性与价值 1.1 通用基准的局限性 尽管通用基准测试在评估大模型综合能力方面发挥着重要作用,但在实际应用中仍存在明显局限性: 领域覆盖不足:通用基准难以覆盖特定行业的专业知识和任务特点 因此,构建自定义评测基准已成为企业大模型应用成功的关键因素。 :生成不同难度级别的评测数据 4.2.4 开源数据整合 合理整合开源评测数据: 通用基准:MMLU、C-Eval等通用基准的相关子集 领域数据集:特定行业的开源数据集 评测框架:借鉴成熟的评测框架和方法 构建客服对话数据 # 模拟真实的金融客服场景 # 5. 技术栈更新 → 5. 体验优化 9.1.3 迭代更新流程 # 评测体系迭代更新流程示例 def update_evaluation_system(current_system): # 1.

    31110编辑于 2025-11-16
  • 来自专栏

    Agent Workflow界的strapi,开源Flowise评测

    在《基于Workflow的Agent应用设计与实战》一文中我介绍了扣子、dify、fastgpt三款产品,它们可以帮助善于使用工具搭建自己的智能体的朋友们快速实现自己的想法,今天在朋友的提醒下,发现dify 最近这段时间,flowise也快速以优秀的姿态出现在大众眼中,和扣子、dify、fastgpt等产品的目标相同,flowise也是作为agent开发平台面向公众的,不过不同的是,它在理念上与前三款存在诸多不同 Flowise和上述三款产品不同,它不以创建应用为目标,而是创建Chatflow Agent为目标。它没有简易配置模式,开发者们,只能通过wokflow来创建Agent。 集成度更高,还体现在节点端口上,我们以一个AutoGPT Agent的使用为例: 对于这个Agent,它依赖于一些tool、向量检索和chat model,它把autoGPT高度集成了,在workflow 全栈的开发者们来说,我觉得还是可以入局的,如果之前使用过strapi,那么可以几乎0抵触的接受它,如果玩过langchain,那么使用的难度将极限降低,如果还玩过前文提到的coze等用workflow搭建agent

    4.4K10编辑于 2024-05-13
  • 来自专栏机器之心

    边缘深度学习设备基准评测:英伟达Jetson Nano胜出

    近日,机器学习和数据科学咨询公司 Tryolabs 发布了一篇基准评测报告,测试比较了英伟达 Jetson Nano、谷歌 Coral 开发板(内置 Edge TPU)、英特尔神经计算棒这三款针对机器学习设计的边缘计算设备以及与不同的机器学习模型的组合 本报告是对五种新型边缘设备的基准评测。我们使用了不同的框架和模型来测试哪些组合表现最佳。我们将重点关注边缘机器学习的性能结果。 什么是边缘计算? 神经网络模型 我们这次基准评测主要包含了两种网络:更古老一点的众所周知的 Resnet-50 和谷歌今年推出的全新的 EfficientNet。 我们计算了所有测试的 top-1 准确度以及特定模型的 top-5 准确度。 top-1 准确度:这是常规的准确度,即模型的答案(概率最高的答案)必须等同于确切的期望答案。 top-5 准确度:即模型的概率最高的前五个答案中任意一个与期望答案匹配。

    2.1K20发布于 2019-10-24
  • 来自专栏新智元

    视频理解+开放网络搜索=首个视频Deep Research评测基准

    为了填补这一空白,来自QuantaAlpha、兰州大学、香港科技大学(广州)、北京大学等机构的研究者联合推出了首个视频深度研究(Video Deep Research)评测基准VideoDR。 然而,真正的智能Video Agent应该具备Deep Research的能力。 为了保证评测的含金量,VideoDR并没有采用自动化生成,而是进行了严格的人工标注与质检。 双重依赖性测试:剔除了那些「只看视频就能答」或「只搜文字就能答」的样本,确保模型必须结合两者能力。 评测模型: 闭源模型: GPT-5.2, GPT-4o, Gemini-3-pro-preview 开源模型: Qwen3-Omni-30B-a3b, InternVL3.5-14B, MiniCPM-V 评测结果深刻揭示了「端到端」并非万能药:在面对长链路搜索时,模型往往会陷入「记忆衰退」的困境。 未来的视频 Agent 只有在保持视觉线索的长程一致性上取得突破,才能真正胜任真实世界的复杂调研任务。

    18510编辑于 2026-01-26
  • 来自专栏AI前沿技术

    智能体|Agent 自动化评测系统构建

    Agent应用最难的是建立信任,而信任的关键,正是对Agent能力的精准度量。缺乏可量化指标和系统评测体系,Agent的能力就无从验证,也无法判断其在真实场景中的表现。 以上指标,都需要 Agent 评测集和自动化评测工具的支撑。Agent 执行任务,会进行多轮"工具调用+推理“循环,显而易见Agent 评估要复杂得多。 2,评分器&评测系统 评测器的定义: Agent 能力评估体系中核心的判定工具或系统,用于依据预设标准、任务要求对 Agent 的执行结果 / 行为轨迹进行量化打分、有效性判定,最终输出 Agent 在对应任务上的能力表现结论 这一严格的审核过程最终产生了构成 DeepResearch Bench 的100个高质量基准任务。 4,评估方法 测试数据集构建完成后,需要指定评测任务的维度和标准。 5,Anthropic 评测建议 评测Agent规模化迭代的加速器,轻松获取质量基准与回归影响,快速判断新模型是否值得切换、优势在哪、短板在哪。

    62210编辑于 2026-02-28
  • 来自专栏技术杂记

    Zabbix Agent 安装5

    这个脚本是用来进行端口发现的,作为基础服务提供给其它监控条目使用 Note: zabbix用户要有这个脚本的执行权限,因为实际信息收集过程中,是以zabbix这个用户的身份进行的 [root@zbx-

    83810编辑于 2022-03-21
  • 来自专栏深度学习与python

    评测也很酷,Data Agent 自动化评测的三层框架与实战

    作为字节跳动数据平台的大模型效果评估团队,他们深耕数据应用 Agent 领域,构建了覆盖从数据开发到数据应用垂直领域 Agent 应用的评测技术体系,尤其在自动化评测算法、Agent评测框架等方面形成了可落地的技术方案 这些评测会接入我们的平台,提供给数据平台的各个探索团队使用。 第二个层面是组件(或子 Agent)的评测,面向的是 Agent 的各个组成部分。 Data Agent 评测技术创新和实践 基于上述“三层评测”框架,下一步将聚焦 Data Agent 这一主题,结合两个具体案例展开说明。 其一为 Text-to-SQL 任务。 我们最新的探索是 用 Agent评测 Agent。 原因很简单:写一份数据分析报告,没办法把数据直接丢给大模型就指望一次性产出完整结果,中间需要大量 Agent 能力来完成过程性的工作,所以在评测侧同样要引入 Agent 技术。 从评测角度来讲。

    53711编辑于 2025-12-18
  • 来自专栏LINUX阅码场

    Linux 系统性能评测基准系统配置及其原理

    最终的目标是搭建基准平台,在特定的cpu上实现”0”干扰。 Cpu 运行中存在的几种背景噪声干扰来源 1. 这些电源管理的功能如果使用不当也会对于性能评测造成影响。 4. 时间源: 如果要进行性能评测, 就离不开时间戳。所以时间戳的正确采集方法也是至关重要的。 X86_64 Boot Parameter: BOOT_IMAGE=/boot/vmlinuz-5.0.0-38-generic root=UUID=697aea9f-2de2-4b9c-921d-5bd5f963c91f =7 nohz_full=7 mce=off tsc=reliable no_watchdog irqaffinity=0hpet=disablequiet splash vt.handoff=1 基准系统配置目标 对于性能评测来说最典型的就是APERF/MPERF, 以及HWP对应的MSR, 以及PMU的配置接口 MSR 都是Per-Core。

    2.3K20发布于 2020-03-20
  • 来自专栏GPUS开发者

    DGX Spark 实测评测:官方基准与实际应用的差距解析

    NVIDIA 推出的 DGX Spark 凭借亮眼的官方基准数据成为 AI 开发者关注的焦点,其宣称的高吞吐、低精度损失、大内存支持等特性让业界对其实际表现充满期待。 3.2 3B:82,739 tokens / 秒(全量微调,bf16 精度) Llama 3.1 8B:53,657 tokens / 秒(LoRA 微调,bf16 精度) Llama 3.3 70B:5,079 tokens / 秒(QLoRA 微调,fp4 精度) (二)推理性能 Qwen 3 14B:提示词处理 5,928 tokens / 秒,生成阶段 22.71 tokens / 秒 GPT-OSS- 六、评测总结 DGX Spark 作为 NVIDIA 推出的新一代 AI 硬件,其官方公布的基准数据在技术层面真实有效,核心训练与推理算力具备官方宣称的水平,是一款能支撑大模型训练、推理的高性能硬件。 但本次实测也证明,理想性能的实现高度依赖标准化的软件环境配置,官方基准未提及的软件兼容性、内存管理、故障排查等问题,是开发者实际部署中需要解决的核心难点。

    1.3K10编辑于 2026-03-02
  • 来自专栏机器之心

    GPT-5、Grok 4、o3 Pro都零分,史上最难AI评测基准换它了

    AAI,一个专注于超智能和高级 AI 系统研究的机构,近期提出的一个新基准 FormulaOne,让一众大模型集体得零分,包括 GPT-5、o3 Pro、Gemini 2.5 Pro、Grok 4 等前沿模型 在深层难度上,Grok 4、Gemini-Pro、o3-Pro、Opus-4 等模型最多只能解出 1/100 的题目;GPT-5 Pro 表现相对更好,但也只解出了 4/100。

    37210编辑于 2025-08-24
  • 来自专栏AI SPPECH

    23:WorldVQA 深度解析:多模态大模型视觉常识能力的评测基准

    作者: HOS(安全风信子) 日期: 2026-02-07 主要来源平台: ModelScope 摘要: WorldVQA作为一个专注于评估多模态大模型「视觉常识」能力的评测基准,包含3000组图文问答对 与主流方案深度对比 5. 工程实践意义、风险与局限性 6. 未来趋势与前瞻预测 1. 缺乏对图像背后常识的深度理解 文化偏见:模型训练数据主要来自西方文化,对其他文化的常识理解存在偏差 语言依赖:模型在处理多语言视觉常识问题时,表现出明显的语言偏见 评估不足:缺乏专门针对视觉常识能力的全面评测基准 作为一个专注于评估多模态大模型「视觉常识」能力的评测基准,它通过精心设计的3000组图文问答对,覆盖8大生活常识类别,并特别注重语言与文化多样性,让AI不仅「看得见」,更能「看得懂」真实世界。 科学知识 84.3% 83.1% 82.5% 历史文化 81.5% 80.2% 78.9% 艺术审美 83.7% 82.4% 81.6% 关键词: WorldVQA, 视觉常识, 多模态大模型, 评测基准

    22510编辑于 2026-02-08
  • 来自专栏DrugAI

    Methods | 单细胞多组学整合方法的多任务基准评测

    研究人员进一步提出七类常见分析任务: (1) 降维;(2) 批次校正;(3) 聚类;(4) 分类;(5) 特征选择;(6) 缺失模态补全;(7) 空间配准。 在单批数据中,scBridge、GLUE、Seurat v5、uniPort与scJoint 综合表现最佳:scBridge在降维与聚类上居首,GLUE在批次校正上最优。 研究人员评测了 PASTE(中心/成对)、SPIRAL、GPSA与PASTE2 五种方法。 不同聚类算法间的相关性均高于0.9,说明基准结果具有鲁棒性。 该基准框架不仅为学界提供了可复现的评估体系,也为未来算法改进、任务扩展及跨平台整合奠定了坚实基础。

    28320编辑于 2026-01-06
  • 来自专栏时空探索之旅

    VLDB2024 |TFB: 全面且公平的时间序列预测方法评测基准

    图2总结了现有多变量时间序列预测基准中使用的多变量数据情况。我们观察到,TSlib、LTSF-Linear、BasicTS 和BasicTS+ 仅包括大约10个数据集,涵盖不到或等于5个领域。 此外,由于统计方法的训练机制与基于深度学习的方法不同,现有的基准难以评测统计方法。我们认为,通过比较广泛的方法,消除对传统方法的刻板印象是有益的。 频率从5分钟到1个月不等,维度范围从5到2,000,序列长度从728到57,600不等。这些数据集的巨大多样性使得可以对预测方法进行全面的研究。 为了便于可视化,我们采用PCA将维度从五维降低到二维,并在六边形网格中可视化了分布最广的八个单变量时间序列数据集——见图5。我们观察到,TFB和M4覆盖的单元格最多,而其他所有基准相对于TFB都较小。 5. 总结 我们提出了TFB时间序列预测基准,以解决三个问题,实现对TSF方法的全面和可靠比较。

    88110编辑于 2024-11-19
  • 来自专栏机器之心

    大规模开放数字商业知识图谱评测基准来了:OpenBG上线天池

    由藏经阁团队和浙江大学开放的数字商业知识图谱评测基准 OpenBG 提供了丰富的数字商业领域知识图谱的评测数据集,覆盖基于知识图谱的商品显著性推理、商品同款挖掘、商品知识图谱链接预测等任务,对模型展开了全方位评测 由藏经阁团队和浙江大学开放的数字商业知识图谱评测基准 OpenBG Benchmark 提供了在数字商业领域知识图谱的评测数据集,覆盖基于知识图谱的商品显著性推理、商品同款挖掘、电商知识图谱链接预测等任务 OpenBG Benchmark 介绍 OpenBG Benchmark 是一个大规模开放数字商业知识图谱评测基准,包含多个子数据集任务。 OpenBG 为基础构建,构建流程如下: OpenBG Benchmark 挑战榜 OpenBG Benchmark 的提出旨在解决当前数字商业领域知识图谱数据集相对匮乏的问题,为算法和科研人员提供评测基准去衡量算法模型的有效性 目前 OpenBG Benchmark 已经在阿里云天池平台长期开放,感兴趣的研究者们可以访问如下链接参与挑战,平台会在每个月的月底评出榜单 Top5 选手,并赠予天池定制礼品!

    49220编辑于 2022-12-16
领券