首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 2025年AI Agent评测基准全景指南:从选型困惑到落地实战

    评测基准。 、多任务评测基准,其核心价值在于全面衡量大语言模型驱动的Agent在多场景下的泛化能力。 设计理念:统一接口:提供标准化的任务接口,确保评测结果的可比性多环境覆盖:涵盖代码开发、数据分析、游戏交互等多个领域实际表现评估:重点关注Agent在真实任务中的执行效果根据AWS在Agent质量评估实践中的分析 6.1新兴评测趋势:从静态到动态动态评测成为主流:传统评测基于静态数据集,无法反映真实环境的复杂性新一代评测基准开始采用动态生成的任务和环境强调Agent在不确定环境中的适应能力多智能体协同评测:单一Agent 评测已无法满足复杂业务场景需求多Agent协同、竞争和博弈成为新的评测维度需要评估Agent在团队协作中的表现持续学习能力评测:评估Agent从经验中学习和改进的能力关注长期性能变化和知识积累效果测试Agent

    1.9K11编辑于 2025-11-27
  • 来自专栏星河细雨

    Agent常见测评基准概述

    对于 agent 的测评,学术界和工业界提出了多种评测基准。 按类别梳理当前比较有代表性的 Agent 基准分为以下几类。 一、综合/通用基准 AgentBench 目的:评估 LLM 作为 Agent 的推理与决策能力。 τ-Bench 目的:补足通用基准对真实业务流程可靠性评测的不足。 场景:在零售、客服、航空等真实领域构建任务,要求 Agent 与模拟用户和 API 多轮互动以完成复杂目标。 创新:提出 HomerAgents 多智能体框架自动生成长链任务和对话,用以构建规模化基准。 AppWorld 专门用来评测交互式编码 Agent 在"多应用 + 多用户"的复杂数字环境中的能力。 该基准弥补了医疗 AI 评测仅停留在问答层面的不足,重视规划、决策和执行的综合能力。

    1.1K10编辑于 2025-12-24
  • 美团 LongCat 团队发布 VitaBench:基于复杂生活场景的交互式 Agent 评测基准

    美团 LongCat 团队正式发布当前高度贴近真实生活场景、面向复杂问题的大模型智能体评测基准——VitaBench(Versatile Interactive Tasks Benchmark)。 然而,现有的智能体评测基准与现真实生活场景的应用需求之间依然存在显著差距,主要体现在以下几个方面:工具生态简单化:早期的工具调用基准主要评估单次 API 调用的准确率(如:函数选择、参数填充),忽视了真实工具间的复杂依赖关系与组合调用需求 同时,这种模式下,除了进行深度思考、有效环境交互的能力外,模型的长文本指令遵循能力也对执行结果有很大影响;交互动态性缺失:用户作为环境的重要组成部分,大多数交互式 Agent 基准当前没有充分考虑到用户交互行为的多样性 id=125为系统衡量这三重挑战下的模型表现,美团 LongCat 团队构建了 VitaBench,一个依托“生活服务”场景、高度仿真的综合性 Agent 评测基准。 05.总结与展望VitaBench 是一个新发布的开源评测基准,旨在评估 AI Agent 在模拟真实生活场景中的表现。

    49410编辑于 2025-10-22
  • 来自专栏自然语言处理

    中文语言能力评测基准「智源指数」

    智源指数简介 http://cuge.baai.ac.cn/#/ 智源指数是指中文语言理解和生成评测基准,智源指数包含高质量中文自然语言处理数据集、排行榜与在线评测平台,旨在构建全面系统的中文机器语言能力评测体系 ,形成多层次维度的评测方案,力求更加科学、规范、高质量地推进中文自然语言处理技术的标准评测。 排行榜 智源指数排行榜提供多层次维度的评测方案,提供数据集、任务、能力得分,以及智源指数总体得分。 智源指数根据标准基线模型(mT5-small)的得分,对参与评测模型的得分进行归一化(括号中显示),最大程度消除不同数据集和评测指标的差异。 登录个人账号后即可在参与评测页面提交。

    1.3K10编辑于 2022-01-06
  • 来自专栏

    Agent Workflow界的strapi,开源Flowise评测

    在《基于Workflow的Agent应用设计与实战》一文中我介绍了扣子、dify、fastgpt三款产品,它们可以帮助善于使用工具搭建自己的智能体的朋友们快速实现自己的想法,今天在朋友的提醒下,发现dify 最近这段时间,flowise也快速以优秀的姿态出现在大众眼中,和扣子、dify、fastgpt等产品的目标相同,flowise也是作为agent开发平台面向公众的,不过不同的是,它在理念上与前三款存在诸多不同 Flowise和上述三款产品不同,它不以创建应用为目标,而是创建Chatflow Agent为目标。它没有简易配置模式,开发者们,只能通过wokflow来创建Agent。 集成度更高,还体现在节点端口上,我们以一个AutoGPT Agent的使用为例: 对于这个Agent,它依赖于一些tool、向量检索和chat model,它把autoGPT高度集成了,在workflow 全栈的开发者们来说,我觉得还是可以入局的,如果之前使用过strapi,那么可以几乎0抵触的接受它,如果玩过langchain,那么使用的难度将极限降低,如果还玩过前文提到的coze等用workflow搭建agent

    4.3K10编辑于 2024-05-13
  • 来自专栏AI SPPECH

    61_自定义基准:构建专属评测体系

    然而,随着LLM在各个行业的深度应用,通用基准往往无法准确反映模型在特定领域、特定任务上的真实表现。2025年,构建企业或组织专属的自定义评测基准已成为大模型落地应用的关键环节。 自定义评测基准的重要性与价值 1.1 通用基准的局限性 尽管通用基准测试在评估大模型综合能力方面发挥着重要作用,但在实际应用中仍存在明显局限性: 领域覆盖不足:通用基准难以覆盖特定行业的专业知识和任务特点 因此,构建自定义评测基准已成为企业大模型应用成功的关键因素。 1.2 自定义评测基准的核心价值 自定义评测基准为企业带来多方面价值: 精准选型 → 避免资源浪费 → 加速业务落地 性能保障 → 确保服务质量 → 提升用户体验 风险控制 → 提前发现问题 → 避免业务损失 :生成不同难度级别的评测数据 4.2.4 开源数据整合 合理整合开源评测数据: 通用基准:MMLU、C-Eval等通用基准的相关子集 领域数据集:特定行业的开源数据集 评测框架:借鉴成熟的评测框架和方法

    29310编辑于 2025-11-16
  • 来自专栏机器之心

    边缘深度学习设备基准评测:英伟达Jetson Nano胜出

    近日,机器学习和数据科学咨询公司 Tryolabs 发布了一篇基准评测报告,测试比较了英伟达 Jetson Nano、谷歌 Coral 开发板(内置 Edge TPU)、英特尔神经计算棒这三款针对机器学习设计的边缘计算设备以及与不同的机器学习模型的组合 本报告是对五种新型边缘设备的基准评测。我们使用了不同的框架和模型来测试哪些组合表现最佳。我们将重点关注边缘机器学习的性能结果。 什么是边缘计算? 新型边缘设备基准测试 我们探讨的是最具创新性的用例。这里我们将通过一次一张的图像分类任务来测量实时的推理吞吐量,从而得到近似的每秒处理帧数。 神经网络模型 我们这次基准评测主要包含了两种网络:更古老一点的众所周知的 Resnet-50 和谷歌今年推出的全新的 EfficientNet。 对于所有基准,我们都使用了公开可用的预训练模型,并且使用了不同的框架运行它们。

    2.1K20发布于 2019-10-24
  • 来自专栏新智元

    视频理解+开放网络搜索=首个视频Deep Research评测基准

    为了填补这一空白,来自QuantaAlpha、兰州大学、香港科技大学(广州)、北京大学等机构的研究者联合推出了首个视频深度研究(Video Deep Research)评测基准VideoDR。 然而,真正的智能Video Agent应该具备Deep Research的能力。 为了保证评测的含金量,VideoDR并没有采用自动化生成,而是进行了严格的人工标注与质检。 双重依赖性测试:剔除了那些「只看视频就能答」或「只搜文字就能答」的样本,确保模型必须结合两者能力。 评测模型: 闭源模型: GPT-5.2, GPT-4o, Gemini-3-pro-preview 开源模型: Qwen3-Omni-30B-a3b, InternVL3.5-14B, MiniCPM-V 评测结果深刻揭示了「端到端」并非万能药:在面对长链路搜索时,模型往往会陷入「记忆衰退」的困境。 未来的视频 Agent 只有在保持视觉线索的长程一致性上取得突破,才能真正胜任真实世界的复杂调研任务。

    16410编辑于 2026-01-26
  • 来自专栏AI前沿技术

    智能体|Agent 自动化评测系统构建

    Agent应用最难的是建立信任,而信任的关键,正是对Agent能力的精准度量。缺乏可量化指标和系统评测体系,Agent的能力就无从验证,也无法判断其在真实场景中的表现。 以上指标,都需要 Agent 评测集和自动化评测工具的支撑。Agent 执行任务,会进行多轮"工具调用+推理“循环,显而易见Agent 评估要复杂得多。 2,评分器&评测系统 评测器的定义: Agent 能力评估体系中核心的判定工具或系统,用于依据预设标准、任务要求对 Agent 的执行结果 / 行为轨迹进行量化打分、有效性判定,最终输出 Agent 在对应任务上的能力表现结论 这一严格的审核过程最终产生了构成 DeepResearch Bench 的100个高质量基准任务。 4,评估方法 测试数据集构建完成后,需要指定评测任务的维度和标准。 5,Anthropic 评测建议 评测Agent规模化迭代的加速器,轻松获取质量基准与回归影响,快速判断新模型是否值得切换、优势在哪、短板在哪。

    50310编辑于 2026-02-28
  • 来自专栏深度学习与python

    评测也很酷,Data Agent 自动化评测的三层框架与实战

    作为字节跳动数据平台的大模型效果评估团队,他们深耕数据应用 Agent 领域,构建了覆盖从数据开发到数据应用垂直领域 Agent 应用的评测技术体系,尤其在自动化评测算法、Agent评测框架等方面形成了可落地的技术方案 这些评测会接入我们的平台,提供给数据平台的各个探索团队使用。 第二个层面是组件(或子 Agent)的评测,面向的是 Agent 的各个组成部分。 Data Agent 评测技术创新和实践 基于上述“三层评测”框架,下一步将聚焦 Data Agent 这一主题,结合两个具体案例展开说明。 其一为 Text-to-SQL 任务。 我们最新的探索是 用 Agent评测 Agent。 原因很简单:写一份数据分析报告,没办法把数据直接丢给大模型就指望一次性产出完整结果,中间需要大量 Agent 能力来完成过程性的工作,所以在评测侧同样要引入 Agent 技术。 从评测角度来讲。

    47111编辑于 2025-12-18
  • 来自专栏LINUX阅码场

    Linux 系统性能评测基准系统配置及其原理

    最终的目标是搭建基准平台,在特定的cpu上实现”0”干扰。 Cpu 运行中存在的几种背景噪声干扰来源 1. 这些电源管理的功能如果使用不当也会对于性能评测造成影响。 4. 时间源: 如果要进行性能评测, 就离不开时间戳。所以时间戳的正确采集方法也是至关重要的。 =7 nohz_full=7 mce=off tsc=reliable no_watchdog irqaffinity=0hpet=disablequiet splash vt.handoff=1 基准系统配置目标 对于性能评测来说最典型的就是APERF/MPERF, 以及HWP对应的MSR, 以及PMU的配置接口 MSR 都是Per-Core。 只要避免从正在评测的core发起读写即可 通常来讲, MSR需要通过 加载内核模块 msr(/dev/msr), 之后通过rdmsr/wrmsr 工具来操作。

    2.3K20发布于 2020-03-20
  • 来自专栏GPUS开发者

    DGX Spark 实测评测:官方基准与实际应用的差距解析

    NVIDIA 推出的 DGX Spark 凭借亮眼的官方基准数据成为 AI 开发者关注的焦点,其宣称的高吞吐、低精度损失、大内存支持等特性让业界对其实际表现充满期待。 本文基于对 DGX Spark 长达 6 天以上的密集机器学习负载实测,从官方基准数据、实测环境、实际表现、问题与解决四个维度,还原这款硬件的真实应用状态,为开发者的实际部署和使用提供参考。 (二)官方数据未提及的实际问题 官方基准仅展示了理想状态下的性能数据,却未提及实际使用中遇到的各类技术问题,也是本次实测中发现的核心痛点,具体包括: fp16 精度兼容性问题:实际使用中存在 fp16 六、评测总结 DGX Spark 作为 NVIDIA 推出的新一代 AI 硬件,其官方公布的基准数据在技术层面真实有效,核心训练与推理算力具备官方宣称的水平,是一款能支撑大模型训练、推理的高性能硬件。 但本次实测也证明,理想性能的实现高度依赖标准化的软件环境配置,官方基准未提及的软件兼容性、内存管理、故障排查等问题,是开发者实际部署中需要解决的核心难点。

    96110编辑于 2026-03-02
  • 来自专栏AI SPPECH

    23:WorldVQA 深度解析:多模态大模型视觉常识能力的评测基准

    作者: HOS(安全风信子) 日期: 2026-02-07 主要来源平台: ModelScope 摘要: WorldVQA作为一个专注于评估多模态大模型「视觉常识」能力的评测基准,包含3000组图文问答对 缺乏对图像背后常识的深度理解 文化偏见:模型训练数据主要来自西方文化,对其他文化的常识理解存在偏差 语言依赖:模型在处理多语言视觉常识问题时,表现出明显的语言偏见 评估不足:缺乏专门针对视觉常识能力的全面评测基准 作为一个专注于评估多模态大模型「视觉常识」能力的评测基准,它通过精心设计的3000组图文问答对,覆盖8大生活常识类别,并特别注重语言与文化多样性,让AI不仅「看得见」,更能「看得懂」真实世界。 6.1 技术演进趋势 短期(6-12个月): 数据集扩展:增加更多样本和语言支持,扩大数据集规模 评估工具开发:开发自动化评估工具,简化评估流程 基准建立:建立多模态大模型视觉常识能力的标准基准 应用拓展 科学知识 84.3% 83.1% 82.5% 历史文化 81.5% 80.2% 78.9% 艺术审美 83.7% 82.4% 81.6% 关键词: WorldVQA, 视觉常识, 多模态大模型, 评测基准

    19810编辑于 2026-02-08
  • 来自专栏时空探索之旅

    VLDB2024 |TFB: 全面且公平的时间序列预测方法评测基准

    图 2:现有多变量时间序列预测基准中使用的多变量数据领域情况。 图 3:描述TFB和TSlib中多变量数据集的归一化特征值变化的箱线图。 然而,很少有实证研究和基准涵盖广泛的数据领域。 然而,这些方法在它们的原始论文中并未将VAR和LR纳入基准方法中,并且更倾向于认为传统方法无法获得竞争性能。从表2可以看出,目前没有任何现有的多变量时间序列预测基准评估了统计方法。 此外,由于统计方法的训练机制与基于深度学习的方法不同,现有的基准难以评测统计方法。我们认为,通过比较广泛的方法,消除对传统方法的刻板印象是有益的。 表2根据七个属性比较了时间序列预测(TSF)的现有基准。没有任何一个现有的基准同时具备所有属性。 表 2:时间序列预测基准比较。 图2显示了TFB和现有多变量时间序列基准在数据集领域分布方面的对比情况。我们观察到,我们的基准包含更多数量和领域的多样化数据集。

    84810编辑于 2024-11-19
  • 来自专栏DrugAI

    Methods | 单细胞多组学整合方法的多任务基准评测

    这些技术的快速发展推动了数据整合算法的不断创新,进而迫切需要对现有方法进行系统的分类、评估与基准化。面对不同研究任务、组学模态和批次组合,如何选择最适合的整合方法成为一项重要挑战。 结果 垂直整合:降维与聚类性能 在13个RNA+ADT、12个RNA+ATAC和4个三模态数据集上,研究人员系统评测了垂直整合方法。 研究人员评测了 PASTE(中心/成对)、SPIRAL、GPSA与PASTE2 五种方法。 不同聚类算法间的相关性均高于0.9,说明基准结果具有鲁棒性。 该基准框架不仅为学界提供了可复现的评估体系,也为未来算法改进、任务扩展及跨平台整合奠定了坚实基础。

    25920编辑于 2026-01-06
  • 来自专栏机器之心

    大规模开放数字商业知识图谱评测基准来了:OpenBG上线天池

    由藏经阁团队和浙江大学开放的数字商业知识图谱评测基准 OpenBG 提供了丰富的数字商业领域知识图谱的评测数据集,覆盖基于知识图谱的商品显著性推理、商品同款挖掘、商品知识图谱链接预测等任务,对模型展开了全方位评测 由藏经阁团队和浙江大学开放的数字商业知识图谱评测基准 OpenBG Benchmark 提供了在数字商业领域知识图谱的评测数据集,覆盖基于知识图谱的商品显著性推理、商品同款挖掘、电商知识图谱链接预测等任务 ,对模型展开了全方位的评测,旨在帮助科研和算法人员对模型取得更好的理解。 OpenBG Benchmark 介绍 OpenBG Benchmark 是一个大规模开放数字商业知识图谱评测基准,包含多个子数据集任务。 OpenBG 为基础构建,构建流程如下: OpenBG Benchmark 挑战榜 OpenBG Benchmark 的提出旨在解决当前数字商业领域知识图谱数据集相对匮乏的问题,为算法和科研人员提供评测基准去衡量算法模型的有效性

    49120编辑于 2022-12-16
  • 来自专栏机器之心

    评测 | 云CPU上的TensorFlow基准测试:优于云GPU的深度学习

    由于没有需求,所以没有使用大量 CPU 对深度学习库进行基准化测试方法。同时 GPU 是深入学习硬件的奥卡姆剃刀问题的解决方案。 配置 我已有一个现实运用的深度学习案例的基准化测试脚本,Docker 容器环境,结果日志在另一篇文章中:http://minimaxir.com/2017/06/keras-cntk/ 几处小小的改动就可以让这份脚本适用于 双向长短期记忆网络(LSTM)极其善于处理类似 IMDb 影评这样的文本数据,但是在我发布基准测试文章后,Hacker News 上的一些评论指出 TensorFlow 使用的是一个在 GPU 上的 LSTM (实际上,基准化测试使用 Keras LSTM 默认 implementation=0,这对 CPU 而言更好,而在 GPU 上 implementation=2 更好,但不应该导致这么大的差异)。

    2.2K60发布于 2018-05-08
  • 来自专栏量子位

    首个二值量化评测基准来了,北航NTUETH联合提出,论文登ICML 2023

    为此,来自北京航空航天大学、南洋理工大学、苏黎世联邦理工大学的研究者,全新推出了首个二值量化评测基准BiBench。 相关论文已被ICML 2023接收。 △ 图 1: BiBench评估轨道与结果 为了解决以上的这些问题,本文提出了BiBench (Binarization Benchmark),这是一个神经网络二值化算法评测基准,旨在全面评估二值化算法在准确性和效率方面的表现 评估轨道及指标 如图1所示,BiBench的评估主要包含了面向精度的评测以及面向效率的评测这两个方面,共计六个评测轨道,每个轨道都有相应的评测指标,有效地解决了在生产和部署二值化网络中面临的实际挑战。 在文本模态评估了在GLUE 基准上的自然语言理解任务。在语音模态评估了在Speech Commands KWS dataset上的语音识别任务。 总结 本文提出了一个全面的多功能的二值算法基准框架BiBench,深入地研究了二值算法的最基本的问题。

    44500编辑于 2023-05-12
  • 来自专栏机器之心

    NeurIPS 2024 | 真实世界复杂任务,全新基准GTA助力大模型工具调用能力评测

    ,无法端到端评测。 为了突破这些局限,来自上海交通大学与上海人工智能实验室的研究团队提出了 GTA(a benchmark for General Tool Agents),一个用于评估通用工具智能体的全新基准,主要特性包括 总结 本文构建了面向复杂真实场景的通用工具智能体(General Tool Agents)评测基准: 构建了通用工具智能体的评测数据集。 每个问题都标注了可执行的工具链,以支持细粒度的工具使用能力评测。 提供了包含感知、操作、逻辑、创作类别工具的评测平台。 针对工具调用设计了细粒度的评测指标,揭示工具增强的语言模型在真实世界场景中的推理和规划能力。 评测和分析了主流大语言模型。

    30000编辑于 2025-02-14
  • 来自专栏LCHub低代码社区

    清华团队领衔打造,首个AI agent大模型基准测试网站问世AgentBench

    尽管当前 AI 智能体研究异常火热,但目前 AI 行业缺乏一个系统化和标准化的基准来评估 LLMs 作为代理的智能水平。 为此,来自清华大学、俄亥俄州立大学、加州大学伯克利分校的研究团队便提出了首个系统性的基准测试——AgentBench(agentbench.com.cn),用来评估 LLMs 作为智能体在各种真实世界挑战和 arxiv.org/abs/2308.03688项目网站:https:/agentbench.com.cn/GitHub 地址:https://github.com/THUDM/AgentBench首个系统性基准测试在以往的研究和实践中 此外,大多数代理的基准测试都集中在单一环境中,这限制了它们在不同应用场景中全面概述 LLMs 的能力。

    2.5K20编辑于 2023-08-14
领券