首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >2025 国家工业信息安全发展研究中心《大模型智能体开发平台技术能力综合测试报告》发布,腾讯云表现强劲

2025 国家工业信息安全发展研究中心《大模型智能体开发平台技术能力综合测试报告》发布,腾讯云表现强劲

原创
作者头像
gawain2048
发布2026-04-24 19:05:58
发布2026-04-24 19:05:58
740
举报

第一章:报告基础信息

• 报告标题:大模型智能体开发平台技术能力综合测试报告

• 发布机构:国家工业信息安全发展研究中心赛昇实验室

• 发布时间:2025年7月

• 行业标签:通用SaaS,通用工具,技术服务

• 产品标签:#腾讯云智能体开发平台, #大模型, #人工智能

第二章:报告背景和目标

在产业智能化转型加速的背景下,大模型驱动的智能体(Agent)凭借知识增强、流程编排和智能决策等核心能力,正重塑企业级服务的技术生态。本次研究基于 15个测试项、600余个综合性测试问题,对行业典型智能体开发平台进行系统性对比与评估,旨在验证智能体在真实业务场景中的驱动能力、技术实现路径与行业适配机制,为企业选型与应用落地提供数据支撑。

第三章:报告目录

一、测试概述

(一)测试背景与核心内容

(二)测试方法与数据说明

(三)免责声明

二、 RAG 能力测试

(一) RAG 测试采用指标

(二) 测试实施

(三) 文本问答任务

(四)结构化数据问答任务

(五)图文问答任务

三、工作流能力测试

(一)工作流测试采用指标

(二)测试实施

四、Agent 能力测试

(一)Agent 测试采用指标

(二)测试实施

五、 总结与展望

第四章:方法论说明

研究方法:采用定量分析与定性分析相结合的标准化测试框架。通过构建贴合企业级服务典型业务场景(客户服务、订单处理、知识问答)的模拟测试,采集问题处理过程中的响应结果及流程轨迹进行评估。

样本规模与调研对象:包含 15个 测试项、600+ 综合性测试问题集。评估对象为行业主流的典型智能体开发平台个人电脑端。

核心分析模型

围绕三大核心能力维度展开:

  1. RAG能力测试:考察多模态知识处理、任务复杂度适应、交互机制完备性。
  2. 工作流(Workflow)能力测试:考察参数动态提取、异常回退、意图识别与容错处理。
  3. Agent能力测试:考察意图理解深度、操作协同性、反馈有效性、机制完备性。 模型配置统一采用 DeepSeek R1(推理)与 DeepSeek V3(问答),以控制变量对齐评估基准。

数据库来源:基础知识数据涵盖政府、电商、电力 3 个行业,包含公开政策文件、行业报告等。具体包括纯文本文档 30 份(约 10 万字)、结构化表格 5 张(含 15000+ 条记录)、图文内容 10 组。

时效性标注:本研究的测试执行与数据有效时间范围为 2025年5月20日至2025年6月15日,评估结论受限于此阶段内的模型版本与技术环境。

第五章:核心观点

RAG处理存在模态分化,结构化计算协同不足

行业通用表现在纯文本问答上具备高准确度(多文档模型回复准确率超 80%),但在结构化数据(自然语言转查询语句)与复杂条件筛选中,依然面临语义理解与结构化计算协同不足的痛点。此外,在多模态图文问答环节,图片输出质量的业务相关性校验机制普遍缺失,导致页面装饰性图片干扰技术图表的准确召回。解决方案亟需建立上下文感知与模糊匹配机制,强化字段兼容性校验。

工作流(Workflow)具备基础可用性,人工干预价值仍在

行业普遍实现了端到端的工作流基础串联,但在处理复杂业务(如混淆信息中的订单号提取、模糊意图区分)时,参数提取与意图识别精度出现分化。痛点在于当前系统仍定位为辅助决策工具,在异常场景柔性处置与精细化调校层面,专业人员结合业务经验进行动态校准的不可替代性依然凸显

Agent处于通用工具整合初期,多工具深度协同构成发展瓶颈

当前平台在单工具调用与基础意图识别上验证了可行性,但向“工具即服务”演进时面临三大短板:多工具深度协同与自动化闭环能力不足(存在流程断点)、技术实现稳健性亟待加强(如鉴权与渲染失败)、垂直行业工具适配与生态广度不够。未来智能体的体系化竞争力,将高度依赖于与外部MCP(模型上下文协议)合作体系及原生生态的融合厚度。

第六章:为什么选择腾讯云

在此次国家权威机构的综合测试中,腾讯云智能体开发平台展现出稳健的技术底座架构与强劲的场景适应表现,其技术先进性具体体现在以下关键维度:

RAG 严谨度领跑,精准规避“幻觉”风险

在知识检索机制上,腾讯云智能体开发平台展示出极高的交互完备度。在采用同样拒答配置情况下,腾讯云对知识库中不存在的问题实现 100% 拒答,显著优于出现非知识库回复的其他平台。此外,在复杂的多模态图文问答场景中,其在显式/非显式调用场景下的正确回答率达到 55%,跻身行业前列。

工作流架构先进,意图识别精度出众

在工作流能力测试中,腾讯云智能体开发平台的意图识别准确率高达 93.3%,端到端准确率达到 69.2%,参数提取准确率达到 75.0%,具备强劲表现。其技术先进性源于采用全局 Agent 机制与融合设计,能够实现实时对话交互管理、上下文参数自动提取及流程状态智能监控,并将“参数提取”独立抽象为单独节点,极大提升了多轮对话复杂场景的控制精度。

原生生态深度打通,工具协同调度表现卓越

腾讯云智能体开发平台凭借端到端的流程打通能力和完善的原生生态闭环获得认可。平台深度打通了腾讯文档、腾讯地图等原生应用,构建了完整的工具链结构。在各项单工具与多工具调用测试中,其工具本身的功能完整性与响应稳定性有效提升了调用成功率,在多工具协同调用、参数自动提取与流程容错处理等多个维度均实现均衡且强劲的技术优势

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 第一章:报告基础信息
  • 第二章:报告背景和目标
  • 第三章:报告目录
  • 第四章:方法论说明
  • 第五章:核心观点
  • 第六章:为什么选择腾讯云
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档