首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 2025年AI Agent评测基准全景指南:从选型困惑到落地实战

    评测基准。 、多任务评测基准,其核心价值在于全面衡量大语言模型驱动的Agent在多场景下的泛化能力。 设计理念:统一接口:提供标准化的任务接口,确保评测结果的可比性多环境覆盖:涵盖代码开发、数据分析、游戏交互等多个领域实际表现评估:重点关注Agent在真实任务中的执行效果根据AWS在Agent质量评估实践中的分析 6.1新兴评测趋势:从静态到动态动态评测成为主流:传统评测基于静态数据集,无法反映真实环境的复杂性新一代评测基准开始采用动态生成的任务和环境强调Agent在不确定环境中的适应能力多智能体协同评测:单一Agent 评测已无法满足复杂业务场景需求多Agent协同、竞争和博弈成为新的评测维度需要评估Agent在团队协作中的表现持续学习能力评测:评估Agent从经验中学习和改进的能力关注长期性能变化和知识积累效果测试Agent

    2.2K11编辑于 2025-11-27
  • 来自专栏有文化的技术人

    Agent评测机制概述

    主流评测基准 3.1 通用Agent评测基准 基准名称 发布机构 评测重点 任务类型 AgentBench 清华大学等 综合Agent能力 8种环境任务 GAIA Meta+HuggingFace 通用 AI助手 多步推理+工具使用 WebArena CMU Web交互能力 网页操作任务 OSWorld 多机构 操作系统交互 桌面操作任务 3.2 专项评测基准 基准名称 评测重点 特点 SWE-bench : -明确评测目标和范围 -选择合适的评测基准 -准备测试数据集 -配置评测环境 评测执行: -记录完整执行轨迹 -收集多维度指标 -多次运行取平均值 -记录异常情况 结果分析: -计算各项指标得分 -对比基准线和竞品 -分析错误模式分布 -生成评测报告 7. 未来趋势 评测标准化:行业统一评测标准逐步形成 实时评测:从离线评测向在线监控演进 多模态评测:覆盖文本、图像、视频等多模态能力 安全评测Agent安全性评测日益重要 人机协作评测:评估Agent与人类协作的能力

    32420编辑于 2026-04-09
  • 来自专栏星河细雨

    Agent常见测评基准概述

    对于 agent 的测评,学术界和工业界提出了多种评测基准。 τ-Bench 目的:补足通用基准对真实业务流程可靠性评测的不足。 场景:在零售、客服、航空等真实领域构建任务,要求 Agent 与模拟用户和 API 多轮互动以完成复杂目标。 创新:提出 HomerAgents 多智能体框架自动生成长链任务和对话,用以构建规模化基准。 AppWorld 专门用来评测交互式编码 Agent 在"多应用 + 多用户"的复杂数字环境中的能力。 该基准弥补了医疗 AI 评测仅停留在问答层面的不足,重视规划、决策和执行的综合能力。 内容:基准包含导航、推荐、机器人操作、诗歌生成等 8 类互动学习任务,通过随机化口头反馈使模型难以依赖提示词匹配。

    1.4K10编辑于 2025-12-24
  • 美团 LongCat 团队发布 VitaBench:基于复杂生活场景的交互式 Agent 评测基准

    然而,现有的智能体评测基准与现真实生活场景的应用需求之间依然存在显著差距,主要体现在以下几个方面:工具生态简单化:早期的工具调用基准主要评估单次 API 调用的准确率(如:函数选择、参数填充),忽视了真实工具间的复杂依赖关系与组合调用需求 同时,这种模式下,除了进行深度思考、有效环境交互的能力外,模型的长文本指令遵循能力也对执行结果有很大影响;交互动态性缺失:用户作为环境的重要组成部分,大多数交互式 Agent 基准当前没有充分考虑到用户交互行为的多样性 id=125为系统衡量这三重挑战下的模型表现,美团 LongCat 团队构建了 VitaBench,一个依托“生活服务”场景、高度仿真的综合性 Agent 评测基准。 “思考型”模型显著优于“非思考型”:启用链式推理(thinking)的模型普遍提升 5–8 个百分点,且交互轮次更少,说明深度规划对复杂任务至关重要。 05.总结与展望VitaBench 是一个新发布的开源评测基准,旨在评估 AI Agent 在模拟真实生活场景中的表现。

    55110编辑于 2025-10-22
  • 来自专栏自然语言处理

    中文语言能力评测基准「智源指数」

    智源指数简介 http://cuge.baai.ac.cn/#/ 智源指数是指中文语言理解和生成评测基准,智源指数包含高质量中文自然语言处理数据集、排行榜与在线评测平台,旨在构建全面系统的中文机器语言能力评测体系 ,形成多层次维度的评测方案,力求更加科学、规范、高质量地推进中文自然语言处理技术的标准评测。 排行榜 智源指数排行榜提供多层次维度的评测方案,提供数据集、任务、能力得分,以及智源指数总体得分。 智源指数根据标准基线模型(mT5-small)的得分,对参与评测模型的得分进行归一化(括号中显示),最大程度消除不同数据集和评测指标的差异。 登录个人账号后即可在参与评测页面提交。

    1.3K10编辑于 2022-01-06
  • 来自专栏有文化的技术人

    Agent实时评测与最佳实践

    实时评测的发展阶段 1.1 当前所处阶段 Agent评测正在从「离线评测」向「在线实时评测」演进,目前处于「过渡期」: ┌──────────────────────────────────────── ─────────────────────────────┐ │ Agent评测演进路线 │ ├── 阶段2: 混合评测 阶段3: 实时评测 │ │ (2023-2024初) (2024-现在) ◀── 当前 (未来趋势) 设置基础告警 Phase 2: 质量评估(2-4周) ├── 实现采样评估机制 ├── 配置LLM-as-Judge评估 ├── 建立质量基线 └── 优化采样策略 Phase 3: 高级功能(4-8周 「持续迭代」:评测体系需要随业务演进不断优化

    15110编辑于 2026-04-09
  • 来自专栏AI SPPECH

    61_自定义基准:构建专属评测体系

    然而,随着LLM在各个行业的深度应用,通用基准往往无法准确反映模型在特定领域、特定任务上的真实表现。2025年,构建企业或组织专属的自定义评测基准已成为大模型落地应用的关键环节。 自定义评测基准的重要性与价值 1.1 通用基准的局限性 尽管通用基准测试在评估大模型综合能力方面发挥着重要作用,但在实际应用中仍存在明显局限性: 领域覆盖不足:通用基准难以覆盖特定行业的专业知识和任务特点 因此,构建自定义评测基准已成为企业大模型应用成功的关键因素。 :结合自动评估、人工评估和用户反馈 性能指标全面:兼顾准确性、效率、鲁棒性、安全性等 根据中国信通院"方升"大模型基准测试体系的经验,一个全面的评测体系应至少包含8-10个核心评估维度,才能较为准确地反映模型的综合能力 :生成不同难度级别的评测数据 4.2.4 开源数据整合 合理整合开源评测数据: 通用基准:MMLU、C-Eval等通用基准的相关子集 领域数据集:特定行业的开源数据集 评测框架:借鉴成熟的评测框架和方法

    31110编辑于 2025-11-16
  • 来自专栏

    Agent Workflow界的strapi,开源Flowise评测

    在《基于Workflow的Agent应用设计与实战》一文中我介绍了扣子、dify、fastgpt三款产品,它们可以帮助善于使用工具搭建自己的智能体的朋友们快速实现自己的想法,今天在朋友的提醒下,发现dify 最近这段时间,flowise也快速以优秀的姿态出现在大众眼中,和扣子、dify、fastgpt等产品的目标相同,flowise也是作为agent开发平台面向公众的,不过不同的是,它在理念上与前三款存在诸多不同 Flowise和上述三款产品不同,它不以创建应用为目标,而是创建Chatflow Agent为目标。它没有简易配置模式,开发者们,只能通过wokflow来创建Agent。 集成度更高,还体现在节点端口上,我们以一个AutoGPT Agent的使用为例: 对于这个Agent,它依赖于一些tool、向量检索和chat model,它把autoGPT高度集成了,在workflow 全栈的开发者们来说,我觉得还是可以入局的,如果之前使用过strapi,那么可以几乎0抵触的接受它,如果玩过langchain,那么使用的难度将极限降低,如果还玩过前文提到的coze等用workflow搭建agent

    4.4K10编辑于 2024-05-13
  • 来自专栏机器之心

    边缘深度学习设备基准评测:英伟达Jetson Nano胜出

    近日,机器学习和数据科学咨询公司 Tryolabs 发布了一篇基准评测报告,测试比较了英伟达 Jetson Nano、谷歌 Coral 开发板(内置 Edge TPU)、英特尔神经计算棒这三款针对机器学习设计的边缘计算设备以及与不同的机器学习模型的组合 本报告是对五种新型边缘设备的基准评测。我们使用了不同的框架和模型来测试哪些组合表现最佳。我们将重点关注边缘机器学习的性能结果。 什么是边缘计算? 神经网络模型 我们这次基准评测主要包含了两种网络:更古老一点的众所周知的 Resnet-50 和谷歌今年推出的全新的 EfficientNet。 对于所有基准,我们都使用了公开可用的预训练模型,并且使用了不同的框架运行它们。 因为量化的 8 位模型对图像预处理非常敏感,这可能对结果产生很大影响。

    2.1K20发布于 2019-10-24
  • 来自专栏新智元

    视频理解+开放网络搜索=首个视频Deep Research评测基准

    为了填补这一空白,来自QuantaAlpha、兰州大学、香港科技大学(广州)、北京大学等机构的研究者联合推出了首个视频深度研究(Video Deep Research)评测基准VideoDR。 然而,真正的智能Video Agent应该具备Deep Research的能力。 为了保证评测的含金量,VideoDR并没有采用自动化生成,而是进行了严格的人工标注与质检。 双重依赖性测试:剔除了那些「只看视频就能答」或「只搜文字就能答」的样本,确保模型必须结合两者能力。 评测模型: 闭源模型: GPT-5.2, GPT-4o, Gemini-3-pro-preview 开源模型: Qwen3-Omni-30B-a3b, InternVL3.5-14B, MiniCPM-V 评测结果深刻揭示了「端到端」并非万能药:在面对长链路搜索时,模型往往会陷入「记忆衰退」的困境。 未来的视频 Agent 只有在保持视觉线索的长程一致性上取得突破,才能真正胜任真实世界的复杂调研任务。

    18510编辑于 2026-01-26
  • 来自专栏AI前沿技术

    智能体|Agent 自动化评测系统构建

    以上指标,都需要 Agent 评测集和自动化评测工具的支撑。Agent 执行任务,会进行多轮"工具调用+推理“循环,显而易见Agent 评估要复杂得多。 这一严格的审核过程最终产生了构成 DeepResearch Bench 的100个高质量基准任务。 4,评估方法 测试数据集构建完成后,需要指定评测任务的维度和标准。 • 对照参考标准,给待评估Agent技术报告逐维度打分,如全面性7分、洞察力8分、指令遵循10分、可读性9分,满分10分。 • 按权重折算总分(7×35%+8×30%+10×15%+9×20%=8.05分)。 最后的结论是该Agent技术报告质量优良、符合参考标准。 5,Anthropic 评测建议 评测Agent规模化迭代的加速器,轻松获取质量基准与回归影响,快速判断新模型是否值得切换、优势在哪、短板在哪。

    62210编辑于 2026-02-28
  • 来自专栏深度学习与python

    评测也很酷,Data Agent 自动化评测的三层框架与实战

    作为字节跳动数据平台的大模型效果评估团队,他们深耕数据应用 Agent 领域,构建了覆盖从数据开发到数据应用垂直领域 Agent 应用的评测技术体系,尤其在自动化评测算法、Agent评测框架等方面形成了可落地的技术方案 这些评测会接入我们的平台,提供给数据平台的各个探索团队使用。 第二个层面是组件(或子 Agent)的评测,面向的是 Agent 的各个组成部分。 Data Agent 评测技术创新和实践 基于上述“三层评测”框架,下一步将聚焦 Data Agent 这一主题,结合两个具体案例展开说明。 其一为 Text-to-SQL 任务。 我们最新的探索是 用 Agent评测 Agent。 原因很简单:写一份数据分析报告,没办法把数据直接丢给大模型就指望一次性产出完整结果,中间需要大量 Agent 能力来完成过程性的工作,所以在评测侧同样要引入 Agent 技术。 从评测角度来讲。

    53711编辑于 2025-12-18
  • 来自专栏LINUX阅码场

    Linux 系统性能评测基准系统配置及其原理

    最终的目标是搭建基准平台,在特定的cpu上实现”0”干扰。 Cpu 运行中存在的几种背景噪声干扰来源 1. 这些电源管理的功能如果使用不当也会对于性能评测造成影响。 4. 时间源: 如果要进行性能评测, 就离不开时间戳。所以时间戳的正确采集方法也是至关重要的。 =7 nohz_full=7 mce=off tsc=reliable no_watchdog irqaffinity=0hpet=disablequiet splash vt.handoff=1 基准系统配置目标 对于性能评测来说最典型的就是APERF/MPERF, 以及HWP对应的MSR, 以及PMU的配置接口 MSR 都是Per-Core。 只要避免从正在评测的core发起读写即可 通常来讲, MSR需要通过 加载内核模块 msr(/dev/msr), 之后通过rdmsr/wrmsr 工具来操作。

    2.3K20发布于 2020-03-20
  • 来自专栏GPUS开发者

    DGX Spark 实测评测:官方基准与实际应用的差距解析

    NVIDIA 推出的 DGX Spark 凭借亮眼的官方基准数据成为 AI 开发者关注的焦点,其宣称的高吞吐、低精度损失、大内存支持等特性让业界对其实际表现充满期待。 本文基于对 DGX Spark 长达 6 天以上的密集机器学习负载实测,从官方基准数据、实测环境、实际表现、问题与解决四个维度,还原这款硬件的真实应用状态,为开发者的实际部署和使用提供参考。 ,具体关键数据如下: (一)微调性能 Llama 3.2 3B:82,739 tokens / 秒(全量微调,bf16 精度) Llama 3.1 8B:53,657 tokens / 秒(LoRA 微调 六、评测总结 DGX Spark 作为 NVIDIA 推出的新一代 AI 硬件,其官方公布的基准数据在技术层面真实有效,核心训练与推理算力具备官方宣称的水平,是一款能支撑大模型训练、推理的高性能硬件。 但本次实测也证明,理想性能的实现高度依赖标准化的软件环境配置,官方基准未提及的软件兼容性、内存管理、故障排查等问题,是开发者实际部署中需要解决的核心难点。

    1.3K10编辑于 2026-03-02
  • 来自专栏AI SPPECH

    23:WorldVQA 深度解析:多模态大模型视觉常识能力的评测基准

    作者: HOS(安全风信子) 日期: 2026-02-07 主要来源平台: ModelScope 摘要: WorldVQA作为一个专注于评估多模态大模型「视觉常识」能力的评测基准,包含3000组图文问答对 ,覆盖8大生活常识类别,并特别注重语言与文化多样性。 缺乏对图像背后常识的深度理解 文化偏见:模型训练数据主要来自西方文化,对其他文化的常识理解存在偏差 语言依赖:模型在处理多语言视觉常识问题时,表现出明显的语言偏见 评估不足:缺乏专门针对视觉常识能力的全面评测基准 作为一个专注于评估多模态大模型「视觉常识」能力的评测基准,它通过精心设计的3000组图文问答对,覆盖8大生活常识类别,并特别注重语言与文化多样性,让AI不仅「看得见」,更能「看得懂」真实世界。 科学知识 84.3% 83.1% 82.5% 历史文化 81.5% 80.2% 78.9% 艺术审美 83.7% 82.4% 81.6% 关键词: WorldVQA, 视觉常识, 多模态大模型, 评测基准

    22510编辑于 2026-02-08
  • 来自专栏DrugAI

    Methods | 单细胞多组学整合方法的多任务基准评测

    这些技术的快速发展推动了数据整合算法的不断创新,进而迫切需要对现有方法进行系统的分类、评估与基准化。面对不同研究任务、组学模态和批次组合,如何选择最适合的整合方法成为一项重要挑战。 结果 垂直整合:降维与聚类性能 在13个RNA+ADT、12个RNA+ATAC和4个三模态数据集上,研究人员系统评测了垂直整合方法。 研究人员评测了 PASTE(中心/成对)、SPIRAL、GPSA与PASTE2 五种方法。 不同聚类算法间的相关性均高于0.9,说明基准结果具有鲁棒性。 该基准框架不仅为学界提供了可复现的评估体系,也为未来算法改进、任务扩展及跨平台整合奠定了坚实基础。

    28320编辑于 2026-01-06
  • 来自专栏时空探索之旅

    VLDB2024 |TFB: 全面且公平的时间序列预测方法评测基准

    此外,由于统计方法的训练机制与基于深度学习的方法不同,现有的基准难以评测统计方法。我们认为,通过比较广泛的方法,消除对传统方法的刻板印象是有益的。 表2根据七个属性比较了时间序列预测(TSF)的现有基准。没有任何一个现有的基准同时具备所有属性。 表 2:时间序列预测基准比较。 TFB:基准细节 3.1 数据集 我们为TFB配备了25个多变量和8,068个单变量数据集,具有以下理想特性。所有数据集都格式一致。数据集收集全面,涵盖了多种领域和特性。 为了实现方法的公平和全面比较,我们引入了一个统一的评估流程,分为数据层、方法层、评估层和报告层——见图8。 总之,TFB是一个统一、灵活、可扩展且用户友好的时间序列预测方法基准工具。它能够帮助用户更好地了解、比较和选择适用于特定应用场景的时间序列预测方法。 图 8:TFB pipeline。 4.

    88110编辑于 2024-11-19
  • 来自专栏机器之心

    大规模开放数字商业知识图谱评测基准来了:OpenBG上线天池

    由藏经阁团队和浙江大学开放的数字商业知识图谱评测基准 OpenBG 提供了丰富的数字商业领域知识图谱的评测数据集,覆盖基于知识图谱的商品显著性推理、商品同款挖掘、商品知识图谱链接预测等任务,对模型展开了全方位评测 由藏经阁团队和浙江大学开放的数字商业知识图谱评测基准 OpenBG Benchmark 提供了在数字商业领域知识图谱的评测数据集,覆盖基于知识图谱的商品显著性推理、商品同款挖掘、电商知识图谱链接预测等任务 ,对模型展开了全方位的评测,旨在帮助科研和算法人员对模型取得更好的理解。 OpenBG Benchmark 介绍 OpenBG Benchmark 是一个大规模开放数字商业知识图谱评测基准,包含多个子数据集任务。 OpenBG 为基础构建,构建流程如下: OpenBG Benchmark 挑战榜 OpenBG Benchmark 的提出旨在解决当前数字商业领域知识图谱数据集相对匮乏的问题,为算法和科研人员提供评测基准去衡量算法模型的有效性

    49220编辑于 2022-12-16
  • 来自专栏机器之心

    评测 | 云CPU上的TensorFlow基准测试:优于云GPU的深度学习

    由于没有需求,所以没有使用大量 CPU 对深度学习库进行基准化测试方法。同时 GPU 是深入学习硬件的奥卡姆剃刀问题的解决方案。 我们可以使用 Google Compute Engine 测试三个问题: Tesla K80 GPU 实例 使用 pip 安装 Tensorflow 的 64 Skylake vCPU 实例(同时在 8/ 16/32 vCPUs 上测试) 使用 CPU 指令集(+ 8/16/32 vCPUs)编译 TensorFlow 的 64 Skylake vCPU 实例 结果 对于每个模型架构和软/硬件配置,我通过在训练模型时运行前文提到的测试脚本来计算相对于 32 个 vCPU 和 64 个 vCPU 之间的性能差异不大,编译过的 TensorFlow 库在训练速度上确实有重大提升,但只有 8 和 16 个 vCPU 时才这样。 (实际上,基准化测试使用 Keras LSTM 默认 implementation=0,这对 CPU 而言更好,而在 GPU 上 implementation=2 更好,但不应该导致这么大的差异)。

    2.2K60发布于 2018-05-08
  • 来自专栏量子位

    首个二值量化评测基准来了,北航NTUETH联合提出,论文登ICML 2023

    为此,来自北京航空航天大学、南洋理工大学、苏黎世联邦理工大学的研究者,全新推出了首个二值量化评测基准BiBench。 相关论文已被ICML 2023接收。 △ 图 1: BiBench评估轨道与结果 为了解决以上的这些问题,本文提出了BiBench (Binarization Benchmark),这是一个神经网络二值化算法评测基准,旨在全面评估二值化算法在准确性和效率方面的表现 BiBench评估了8个基于算子级别并具有广泛影响力的代表性二值化算法,并在9个深度学习数据集、13个神经架构、2个部署库、14个硬件芯片以及各种超参数设置下对算法进行了基准测试。 评估轨道及指标 如图1所示,BiBench的评估主要包含了面向精度的评测以及面向效率的评测这两个方面,共计六个评测轨道,每个轨道都有相应的评测指标,有效地解决了在生产和部署二值化网络中面临的实际挑战。 BiBench覆盖了8种模型二值化算法、13种网络架构、9个深度学习数据集,14种真实世界的硬件,以及多种超参数设置。

    45000编辑于 2023-05-12
领券