搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

BLOOM评估系统：自动化LLM行为评估框架
BLOOM评估系统：自动化LLM行为评估框架项目概述BLOOM（Bloom Rollout Pipeline）是一个开源的大语言模型行为评估系统，专门用于自动化测试和评估LLM的特定行为模式。与其他固定评估方法不同，BLOOM根据种子配置的不同而"生长"出不同的评估套件，确保评估的多样性和针对性。所有BLOOM评估都应与其完整的种子配置一起引用以确保可重复性。功能特性核心功能可配置行为评估：通过YAML配置文件定义目标行为和评估参数多模型支持：支持Anthropic Claude系列、OpenAI GPT系列、Google Gemini、DeepSeek等多种主流 LLM多模态交互：支持对话模式和模拟环境模式两种评估方式四阶段评估流程：理解→构思→执行→判断的完整评估流程异步并发执行：支持并行运行多个评估场景提高效率技术特性模块化架构：各评估阶段独立为可替换模块可扩展模型支持：通过LiteLLM统一接口支持多个模型提供商详细日志记录：完整的评估过程记录和结果保存调试模式：支持详细调试输出便于问题排查独特价值种子驱动评估：评估套件根据配置动态生成，避免模式固定科学严谨：提供科学动机分析和行为理解步骤灵活适配
35810编辑于 2026-01-05
来自专栏AI早高峰
使用自定义LLM：RAGAs评估
当我们完成了一个RAG系统的开发工作以后，我们还需要对RAG系统的性能进行评估，如何评估呢？ 1.3 上下文精度上下文精度(Context precision)：评估所有在上下文(contexts)中呈现的与基本事实(ground-truth)相关的条目是否排名较高。 = zhipu_llmanswer_relevancy.llm = zhipu_llmanswer_relevancy.embeddings = zhipu_embeddingscontext_recall.llm = zhipu_llmcontext_precision.llm = zhipu_llm# 重新一键式测评result = evaluate( evalsets, metrics=[ RAG效果评估：Ragas使用自定义LLM
1.7K10编辑于 2024-11-20
使用Nova LLM评估生成式AI模型
使用Nova LLM评估生成式AI模型评估大型语言模型（LLM）的性能不仅仅局限于困惑度或双语评估替补（BLEU）分数等统计指标。为了弥补这一差距，LLM-as-a-judge已成为一种有前景的方法，它利用LLM的推理能力来更灵活、大规模地评估其他模型。理解Nova LLM-as-a-Judge工作原理某中心Nova LLM-as-a-Judge使用称为二元总体偏好评判的评估方法。接下来，PyTorch Estimator使用某中心Nova LLM-as-a-Judge配方启动评估作业。启动评估作业准备完数据集并创建评估配方后，最后一步是启动执行某中心Nova LLM-as-a-Judge评估的SageMaker训练作业。
42810编辑于 2025-09-09
如何构建可落地的 LLM 测试评估体系
一、先想清楚：你在评估的是什么构建 LLM 评估体系之前，有一个问题必须先回答清楚：你的系统输出，是确定性的还是概率性的？这不是废话。大多数团队踩坑的根源，就在于把一个概率系统当确定性系统来评估。二、体系的四个层次如上面架构图所示，一套完整的 LLM 评估体系由四层构成，缺一不可。下面逐层展开讲清楚每一层的核心设计决策。 LLM 评估用例需要覆盖三类场景：功能用例（Happy Path）系统应该能做什么？把核心能力拆成最小可测单元。坑4：把 LLM Judge 当作客观标准 LLM Judge 本身会漂移，会对格式有偏好，会受评估 prompt 措辞影响。把它当成唯一标准，最终结果就是“用模型的偏好来评估模型”，循环自洽。解决方式：LLM Judge 只是辅助，高分用例定期人工抽检 10%，低分用例必须人工确认。坑5：评估体系和产品迭代脱钩评估体系建好了，但产品每次改 prompt 时不跑评估，直接上线。
23010编辑于 2026-06-02
来自专栏AIGC
【LangChain系列】第九节：LLM 应用评估
随着这种复杂性的增加，评估这些基于LLM的应用程序的性能和准确性也变得更具挑战性。在这篇博客文章中，我们将深入探讨LLM应用评估的世界，探讨可以帮助您评估和改进模型性能的框架和工具。 chain_type_kwargs={"document_separator": "<<<<>>>>>"},)二、构建测试数据在我们评估LLM应用程序之前，我们需要一组可靠的测试数据。 examples.extend([inst["qa_pairs"] for inst in new_examples])三、手动评估和调试有了测试数据，现在是时候评估你的LLM应用程序的性能了。 ,# 'result': 'Yes, the Cozy Comfort Pullover Set does have side pockets.'}四、LLM辅助评估虽然手动评估很有价值，但随着示例数量的增加这就是LLM辅助评估发挥作用的地方。1.获取示例的预测第一步是通过LLM应用程序运行您的示例并收集预测。
59300编辑于 2024-05-25
来自专栏自然语言处理(NLP)论文速递
分享10篇优秀论文，涉及LLM对齐、LLM评估、LLM隐私、RAG增强等热门话题！
SELF-RAG 是一个新框架，通过按需检索和自反思来提高LLM的质量和真实性。它使用反射Token进行自评估，在各种任务中显着优于传统的LLM。该框架涉及两个组件：生成器和批评家模型。在六项任务的评估结果中表明，SELF-RAG 优于经过预训练和指令调整的 LLM，包括那些具有更多参数的 LLM。 LLM评估 https://arxiv.org/pdf/2310.14424.pdf 本文解决了通过人工标注有效评估大型语言模型 (LLM) 的问题。传统的评估指标通常无法捕捉自然语言的细微差别，因此需要人工评估。然而，这个过程是资源密集型的，在时间和成本方面消耗较大。本文优先考虑能够有效区分模型的Prompt来减少所需的人工标注，通过使用 KL 散度和交叉熵等指标来确定提示的优先级，从而提高大型语言模型 (LLM) 的人类评估效率。
1.2K10编辑于 2024-01-31
来自专栏架构驿站
一文搞懂使用 Arthur Bench 进行 LLM 评估
LLM 在处理特定任务时可能会展现出与预训练模型不同的行为和性能，因此仅仅依赖基于预训练模型的评估方法可能无法全面评估 LLM 的能力。 — 02 — 为什么需要 LLM 指导评估？相比于以前的评估管道所需的工作量，创建 LLM 指导评估的首次实施相对较快且容易。对于 LLM 指导的评估，我们只需要准备两件事情：用文字描述评估标准，并提供一些在提示模板中使用的示例。然而，这种敏感性也可能导致 LLM 的评估结果变得非常不可预测。正如我们之前讨论的那样，与其他评估方法相比，LLM 评估者更加敏感。同时，另一个挑战在于，如果评估涉及太多的推理步骤或需要同时处理太多的变量，LLM 评估者可能会陷入困境。由于 LLM 的特性，其评估结果可能会受到不同配置和参数设置的影响。 2、评估提示：Arthur Bench 可以用于评估不同提示对 LLM 性能的影响。提示是用于指导 LLM 生成文本的指令。
92310编辑于 2024-02-06
评估LLM标注可靠性：人口偏见与模型解释
进一步评估生成式AI（GenAI）模型作为标注工具的可靠性，发现简单的人口角色提示往往无法提升甚至可能降低其与人类判断的一致性。生成式AI标注评估：为GenAI模型添加人口角色提示（如"以年轻女性视角标注"）未显著提升标注质量，部分场景下性能反而下降。基线模型（无角色提示）在多数任务中表现更稳定。
23410编辑于 2025-08-07
来自专栏AI SPPECH
09_LLM评估方法：如何判断模型性能的好坏
本文将带你深入了解LLM评估的核心概念、最新方法和实践案例，帮助你全面把握如何科学评估LLM的性能。本文要点要点描述互动思考评估基础评估的重要性与基本原则你认为评估一个LLM最重要的维度是什么？评估框架 2025年主流评估框架介绍你是否了解或使用过某些LLM评估框架？ ├── 第七章：评估的挑战与对策 ├── 第八章：2025年评估发展趋势 └── 结论：构建全面的LLM评估体系第一章：LLM评估的基础概念 1.1 什么是LLM评估？结论：构建全面的LLM评估体系通过对LLM评估方法的全面探讨，我们可以看到，在2025年，LLM评估已经从简单的性能测试发展成为一个复杂的系统工程，涵盖了技术性能、安全合规、效率成本和伦理影响等多个维度互动与思考你在评估LLM时遇到过哪些挑战？是如何解决的？你认为当前LLM评估方法中最大的不足是什么？对于一个新的LLM应用，你会如何设计评估方案？你如何看待人类评估与自动化评估的关系？
64510编辑于 2025-11-13
11让LLM更懂FunctionCalling返回值
让LLM更懂函数返回类型当前，在向AI模型提供函数返回类型元数据这一领域，尚未有清晰明确的行业标准。当出现返回类型属性的名称无法让大语言模型（LLM）准确推断其内容，或者需要关联其他上下文信息、处理指令到返回类型，以此来实现方案建模或增强方案效果的情况时，可考虑运用以下技术：在对函数进行描述的过程中这是因为这一举措是提升大语言模型（LLM）对返回类型理解程度的最直接途径，而且从令牌使用的角度来看，这种做法也能有效控制成本，具有较高的性价比。
8300编辑于 2026-06-17
多智能体评估框架MAJ-EVAL：实现LLM自动评估与人类多维度评价对齐
由于真实人类评估资源稀缺且成本高昂，新兴的"LLM-as-a-judge"范式为利用LLM智能体模拟人类评估者提供了可行方案。为此，我们提出MAJ-EVAL多智能体评估框架，能够自动从相关文档（如研究论文）构建具有不同维度的评估者角色，实例化LLM智能体，并通过群体辩论生成多维反馈。在教育与医疗领域的评估实验表明，相比传统自动化评估指标和现有LLM-as-a-judge方法，MAJ-EVAL生成的评估结果与人类专家评分具有更高一致性。方法架构角色自动构建：从领域文档提取关键维度，生成具有差异化评估视角的智能体角色描述多智能体实例化：基于角色描述配置LLM智能体的系统提示和行为参数群体辩论机制：采用结构化辩论流程使智能体交换论据，最终形成多维评估报告动态权重调整 Kappa一致性系数提升37%效率对比：较传统人类评估流程节省89%时间成本，较单智能体方法提升评估维度覆盖率2.4倍技术贡献提出首个可自动构建评估维度的多智能体评估框架设计基于文档分析的动态角色生成算法实现评估结果与人类多维度标准的高效对齐开源框架支持快速适配新领域任务
45500编辑于 2025-08-07
来自专栏DeepHub IMBA
Anthropic 开源 Bloom：基于 LLM 的自动化行为评估框架
这个框架跟常规的评估基准不太一样。传统基准都是固定的测试集而 Bloom 会根据你的配置“长”出不同的评估内容，这也是为什么叫这么个植物学的名字。工作流程：四个阶段搞定评估 Bloom 的整个流程分四步：从你提供的"种子"配置开始，最后生成完整的行为评估报告。配置文件里可以设置全局参数、每个 agent 用什么模型、推理时给多少算力这些。 Judgment 阶段最后给每次交互打分：看目标行为有没有出现，除了主要行为还能评估其他维度，比如对话是不是够真实、诱导是不是够强这些。会做跨场景的元分析，给整个评估套件出一份综合报告。第三步：定义评估行为先决定要测什么行为，这里随便举个例子。判断模型给出的评分跟人类标注的 Spearman 相关系数最高到了 0.86，说明自动评估的可靠性还行。这套框架把行为评估自动化了，从定义行为到生成测试用例、执行评估、给出判断，全程不需要人工介入。
34210编辑于 2025-12-30
250个LLM 评估基准大盘点！从推理到多模态，一文看懂LLM考试大纲
编程评估没标准？上线才发现安全不达标？核心痛点在于：缺乏系统化的评估标准。今天，给大家分享一个宝藏资源：250个LLM评估基准与数据集，覆盖推理、编程、对话、Agent工具调用等多个维度，支持标签化分类筛选，帮你快速摸清模型底细，拒绝盲目选型。多模态类：针对全能型LLM设计，测试模型处理图像、视频、音频、结构化数据等多种信息类型的能力。比如让模型根据图片内容生成描述，或结合音频和文本做总结，都可以通过这类基准来评估。如果你想了解行业最新的评估方法，或者测试最新发布的模型，直接筛选New标签就能精准定位。现在LLM技术更新太快了，想精准评估模型性能、选对适配业务的工具，需要一套完整的数据集。这个包含250个基准测试的数据集，相当于给大家提供了一套LLM能力体检手册，不管是选模型、做研究，还是优化现有系统，都能帮你找到精准的评估依据。
37810编辑于 2025-12-30
来自专栏OpenMMLab
LLM推理后端性能大比拼，来自BentoML团队的深度评估！
这些推理后端使用以下两个关键指标进行评估： Time to First Token (TTFT)：首 token 延时，衡量从发送请求到生成第一个 token 所花费的时间，以毫秒为单位。 Token Generation Rate：token 生成率，评估模型在 decoding 阶段每秒生成的 token 数量，以 token 每秒为单位。模型编译：TensorRT-LLM 和 MLC-LLM 需要明确的模型编译步骤，这可能会在部署期间引入额外的冷启动延迟。基准测试客户端为了准确评估不同 LLM 后端的性能，我们创建了一个自定义基准测试脚本。该脚本通过改变用户负载并在不同并发级别下发送生成请求来模拟真实场景。我们测试了 10、50 和 100 个并发用户，以评估系统在不同负载下的表现。每次压力测试都持续了5分钟，在此期间，我们每5秒收集一次推理指标。
4.2K20编辑于 2024-06-17
来自专栏自然语言处理
大模型(LLM) 的长上下文与 RAG：评估与回顾
31910编辑于 2025-01-09
来自专栏图灵人工智能
11个重要的机器学习模型评估指标
评估指标能体现模型的运转情况。评估指标的一个重要作用在于能够区分众多模型的结果。很多分析师和数据科学家甚至都不愿意去检查其模型的鲁棒性。在这个行业中，大家会考虑用不同类型的指标来评估模型。指标的选择完全取决于模型的类型和执行模型的计划。模型构建完成后，这11个指标将帮助评估模型的准确性。 2.如果预测值或实际值很大：RMSE> RMSLE 3.如果预测值和实际值都很大：RMSE> RMSLE（RMSLE几乎可以忽略不计） 11. 除了这11个指标之外，还有另一种检验模型性能。这7种方法在数据科学中具有统计学意义。但是，随着机器学习的到来，我们现在拥有更强大的模型选择方法。没错！现在来谈论一下交叉验证。此外，本文中介绍的指标标准是分类和回归问题中评估最常用的指标标准。
2.7K10编辑于 2022-09-01
来自专栏AI SPPECH
11_文本总结实战：用LLM浓缩长文章
随着大语言模型（LLM）技术的快速发展，特别是基于Transformer架构的模型如BART的出现，文本摘要技术取得了突破性进展。标准Transformer架构的LLM受限于固定的上下文窗口长度（如BART的默认上下文窗口为1024个token），直接处理超长文本会遇到性能瓶颈甚至超出模型能力。五、摘要质量评估与优化 5.1 自动评估指标的实现与使用自动评估指标是衡量摘要质量的重要工具。评估方法：掌握全面的摘要质量评估方法，包括自动评估和人工评估。领域知识：根据应用领域，学习相关领域知识，提高摘要的专业性和准确性。至此，我们的《文本总结实战：用LLM浓缩长文章》课程已全部结束。希望通过本课程的学习，您能够全面掌握文本摘要技术，并能够在实际项目中灵活运用。
1.1K11编辑于 2025-11-13
来自专栏深度学习自然语言处理
每日论文速递 | DeepMind提出SAFE，用LLM Agent作为事实评估器
深度学习自然语言处理分享整理：pp 摘要：大语言模型（LLM）在回答开放式话题的事实搜索提示时，经常会生成包含事实错误的内容。然后，我们提出可以通过一种我们称之为 "搜索增强事实性评估器"（Search-Augmented Factuality Evaluator，SAFE）的方法，将 LLM 代理用作长式事实性的自动评估器。 SAFE 利用 LLM 将长式回复分解为一组单独的事实，并通过一个多步骤推理过程来评估每个事实的准确性，该过程包括向谷歌搜索发送搜索查询，并确定搜索结果是否支持某个事实。根据经验，我们证明了 LLM 代理可以实现超人的评级性能--在一组约 16k 的单个事实上，SAFE 与众包人类注释者的一致率为 72%，而在 100 个分歧案例的随机子集上，SAFE 的胜率为 76% SAFE评估方法：提出了一种名为SAFE的自动评估方法，该方法利用LLM将长篇幅回应分解为单个事实，并通过Google Search查询来评估每个事实的准确性。
72310编辑于 2024-04-11
来自专栏NLP/KG
LLM 大模型学习必知必会系列(十一)：大模型自动评估理论和实战以及大模型评估框架详解
LLM 大模型学习必知必会系列(十一)：大模型自动评估理论和实战以及大模型评估框架详解 0.前言大语言模型（LLM）评测是LLM开发和应用中的关键环节。 GPT-4、Claude、Expert Models/Reward models） LLM Peer-examination 如何评估一个LLM 哪些维度？很难胜任更多场景、更强模型的评测工作泛化性问题 LLM幻觉的诊断问题 3.LLM评估实战 LLMuses框架–轻量化、端到端的大模型自动评估框架 GitHub: https://github.com 评估报告生成与可视化 LLM性能评测（Performance Evaluation）环境安装 # 1. 接入，兼容多个系列模型的generate、chat接口自动评估（evaluator）：客观题自动评估使用专家模型实现复杂任务的自动评估评估报告生成竞技场模式(Arena）
5K13编辑于 2024-05-26
来自专栏应兆康的专栏
11. 什么时候更改开发测试集和评估指标
11. 什么时候更改开发/测试集和评估指标当开始一个新项目的时候，我会试图快速的选择开发/测试集，因为这样可以给团队一个很明确的目标。算法在开发集上过拟合了你把你的评估标准设置的过高，在开发集上反复评估导致算法过拟合，当完成开发后，如果你的算法在开发集上的效果明显高于在测试集上的效果，这就意味着你的算法在开发集上过拟合了。评估指标衡量的并不是项目优化所需要的东西假设对于你的猫咪APP，你的评估指标是分类准确率。在该指标下，分类器A优于分类器B。但是假设你尝试了这两种算法，发现分类器A偶尔会允许敏感图片通过。这里，该评估指标不能辨别出对产品而言算法B比算法A好这一事实。所以，这时候你就不能相信这个指标可以帮你选择出最好的分类器，你需要重新选择评估指标。在项目中改变开发/测试集或者评估指标是很常见的。拥有一个初始的开发/测试集和评估指标能帮你快速迭代你的idea。如果你发现你的开发/测试集或评估指标没有正确的引导你的团队前进，你可以随时更改它们。
81670发布于 2018-05-09

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

BLOOM评估系统：自动化LLM行为评估框架

使用自定义LLM：RAGAs评估

使用Nova LLM评估生成式AI模型

如何构建可落地的 LLM 测试评估体系

【LangChain系列】第九节：LLM 应用评估

分享10篇优秀论文，涉及LLM对齐、LLM评估、LLM隐私、RAG增强等热门话题！

一文搞懂使用 Arthur Bench 进行 LLM 评估

评估LLM标注可靠性：人口偏见与模型解释

09_LLM评估方法：如何判断模型性能的好坏

11让LLM更懂FunctionCalling返回值

多智能体评估框架MAJ-EVAL：实现LLM自动评估与人类多维度评价对齐

Anthropic 开源 Bloom：基于 LLM 的自动化行为评估框架

250个LLM 评估基准大盘点！从推理到多模态，一文看懂LLM考试大纲

LLM推理后端性能大比拼，来自BentoML团队的深度评估！

大模型(LLM) 的长上下文与 RAG：评估与回顾

11个重要的机器学习模型评估指标

11_文本总结实战：用LLM浓缩长文章

每日论文速递 | DeepMind提出SAFE，用LLM Agent作为事实评估器

LLM 大模型学习必知必会系列(十一)：大模型自动评估理论和实战以及大模型评估框架详解

11. 什么时候更改开发测试集和评估指标

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐