用户8946808

文章/答案/技术大牛

发布

LV0

我关注的人

Agentic AI基础设施实践经验系列（六）：Agent质量评估

Agent 评估是对 Agent 在任务执行、决策制定和用户交互等方面的性能进行系统性评估与理解的过程。由于 Agent 具备固有自主性，评估其行为表现对于确保...

亿人安全 2025-12-052025-12-05 10:59:17

腾讯技术创作特训营S16

58_大模型评估与评测：构建科学的多维度评测体系

在大语言模型(LLM)技术飞速发展的今天，如何科学、全面地评估和评测这些模型的能力已成为学术界和工业界共同关注的核心问题。2025年，大模型生态系统呈现出百花齐...

安全风信子 2025-11-132025-11-13 14:55:47

模型、数据、性能、金融、框架

2025年AI Agent评测基准全景指南：从选型困惑到落地实战

当你面对市场上琳琅满目的AI Agent评测工具时，是否感到无从下手？从OpenAI的PaperBench到美团的VitaBench，从学术界的AgentBen...

AI日志 2025-11-272025-11-27 11:02:52

agent、腾讯云智能体开发平台

ACL 2025 Oral | 你的模型评测搭子上线：Evaluation Agent懂你更懂AI

本文作者来自于上海人工智能实验室与新加坡南洋理工大学，分别是张凡、田淑琳、黄子琪，指导老师是乔宇老师与刘子纬老师。

机器之心 2025-07-182025-07-18 09:56:42

acl、agent、evaluation、框架、模型

基于AI的智能自动化测试架构实践

在数字化转型加速的今天，业务迭代速度已成为企业竞争力的核心指标之一。然而，传统自动化测试体系在应对快速变化的业务需求时，正面临着前所未有的挑战：...

AI智享空间 2025-12-092025-12-09 10:40:23

人工智能、软件测试、自动化测试、卓越架构师最佳实践征文#场景解决方案、架构师

如何评估 RAG 应用的质量？最典型的方法论和评估工具都在这里了

随着 LLM(Large Language Model)的应用逐渐普及，人们对 RAG(Retrieval Augmented Generation)场景的关注...

Zilliz RDS 2024-01-042024-01-04 10:43:28

工具、框架、设计、数据、LLM

AI-Compass LLM评估框架：CLiB中文大模型榜单、OpenCompass司南、RAGas、微软Presidio等构建多维度全覆盖评估生态系统

AI-Compass 致力于构建最全面、最实用、最前沿的AI技术学习和实践生态，通过六大核心模块的系统化组织，为不同层次的学习者和开发者提供从完整学习路径。

汀丶人工智能 2025-08-132025-08-13 19:27:12

LLM

从零开始构建AI Agent评估体系：12种LangSmith评估方法详解

AI Agent 的评估需要全面考虑其完整的生命周期，从开发阶段到生产部署。评估过程应当涵盖多个关键维度：最终输出的事实准确性和实用价值、推理过程中工具选择的合...

deephub 2025-08-202025-08-20 15:29:10

数据、系统、agent、工具、模型

15分钟读懂大模型智能体评估：指标、框架与落地实践

随着企业级LLM应用复杂度提升，构建科学评估体系成为工程落地核心瓶颈。今天我将系统拆解多轮对话、RAG、智能体三类场景的评估方案，并对比主流框架的工程适配性，希...

聚客AI 2025-08-112025-08-11 13:49:50

腾讯云数据分析智能体、agent、LLM、第四期热点征文-大模型技术、大模型部署

深度测评 RAG 应用评估框架：指标最全面的 RAGas

大家常说 RAG 应用是：一周出 demo，半年用不好。那么怎么评估 RAG 应用是否能够上生产了呢？如果公司人手足够，当然可以人工测试评估准确性，但指标未免单...

AgenticAI 2025-03-182025-03-18 15:34:37

测试、框架、模型、数据、性能

评测也很酷，Data Agent 自动化评测的三层框架与实战

在大模型技术飞速发展的当下，大数据领域的各类应用如雨后春笋般涌现，从数仓开发到 ChatBI 问数，再到深度分析 Agent，这些领域的大模型应用极大地提升了数...

深度学习与Python 2025-12-182025-12-18 21:21:40

框架、数据、自动化、agent、data

个人简介

暂未填写公司和职称
暂未填写个人简介
暂未填写技能专长
暂未填写学校和专业
暂未填写个人网址
暂未填写所在城市
加入社区时间：2021-08-24

个人成就

TA 很懒，什么都没有留下╮（╯＿╰）╭

关注了：3关注者：0