首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • BLOOM评估系统:自动化LLM行为评估框架

    BLOOM评估系统:自动化LLM行为评估框架项目概述BLOOM(Bloom Rollout Pipeline)是一个开源的大语言模型行为评估系统,专门用于自动化测试和评估LLM的特定行为模式。 与其他固定评估方法不同,BLOOM根据种子配置的不同而"生长"出不同的评估套件,确保评估的多样性和针对性。所有BLOOM评估都应与其完整的种子配置一起引用以确保可重复性。 LLM多模态交互:支持对话模式和模拟环境模式两种评估方式四阶段评估流程:理解→构思→执行→判断的完整评估流程异步并发执行:支持并行运行多个评估场景提高效率技术特性模块化架构:各评估阶段独立为可替换模块可扩展模型支持 :支持零样本和少样本评估配置安装指南环境要求Python 3.11或更高版本支持的操作系统:Linux、macOS、Windows至少8GB可用内存安装步骤克隆项目仓库git clone <repository-url "add", "message": message } } transcript_events.append(event)NtDjt9Cy3tQJ7bA8ww2ELQBBwvdoG0VyQLbkNG3axVo

    35710编辑于 2026-01-05
  • 来自专栏AI早高峰

    使用自定义LLM:RAGAs评估

    当我们完成了一个RAG系统的开发工作以后,我们还需要对RAG系统的性能进行评估,如何评估呢? 1.3 上下文精度上下文精度(Context precision):评估所有在上下文(contexts)中呈现的与基本事实(ground-truth)相关的条目是否排名较高。 = zhipu_llmanswer_relevancy.llm = zhipu_llmanswer_relevancy.embeddings = zhipu_embeddingscontext_recall.llm = zhipu_llmcontext_precision.llm = zhipu_llm# 重新一键式测评result = evaluate( evalsets, metrics=[ RAG效果评估:Ragas使用自定义LLM

    1.7K10编辑于 2024-11-20
  • 使用Nova LLM评估生成式AI模型

    使用Nova LLM评估生成式AI模型评估大型语言模型(LLM)的性能不仅仅局限于困惑度或双语评估替补(BLEU)分数等统计指标。 为了弥补这一差距,LLM-as-a-judge已成为一种有前景的方法,它利用LLM的推理能力来更灵活、大规模地评估其他模型。 理解Nova LLM-as-a-Judge工作原理某中心Nova LLM-as-a-Judge使用称为二元总体偏好评判的评估方法。 接下来,PyTorch Estimator使用某中心Nova LLM-as-a-Judge配方启动评估作业。 启动评估作业准备完数据集并创建评估配方后,最后一步是启动执行某中心Nova LLM-as-a-Judge评估的SageMaker训练作业。

    42810编辑于 2025-09-09
  • 如何构建可落地的 LLM 测试评估体系

    一、先想清楚:你在评估的是什么 构建 LLM 评估体系之前,有一个问题必须先回答清楚:你的系统输出,是确定性的还是概率性的? 这不是废话。大多数团队踩坑的根源,就在于把一个概率系统当确定性系统来评估。 二、体系的四个层次 如上面架构图所示,一套完整的 LLM 评估体系由四层构成,缺一不可。下面逐层展开讲清楚每一层的核心设计决策。 LLM 评估用例需要覆盖三类场景: 功能用例(Happy Path)系统应该能做什么?把核心能力拆成最小可测单元。 坑4:把 LLM Judge 当作客观标准 LLM Judge 本身会漂移,会对格式有偏好,会受评估 prompt 措辞影响。把它当成唯一标准,最终结果就是“用模型的偏好来评估模型”,循环自洽。 解决方式:LLM Judge 只是辅助,高分用例定期人工抽检 10%,低分用例必须人工确认。 坑5:评估体系和产品迭代脱钩 评估体系建好了,但产品每次改 prompt 时不跑评估,直接上线。

    23010编辑于 2026-06-02
  • 来自专栏AIGC

    【LangChain系列】第九节:LLM 应用评估

    随着这种复杂性的增加,评估这些基于LLM的应用程序的性能和准确性也变得更具挑战性。在这篇博客文章中,我们将深入探讨LLM应用评估的世界,探讨可以帮助您评估和改进模型性能的框架和工具。 chain_type_kwargs={"document_separator": "<<<<>>>>>"},)二、构建测试数据在我们评估LLM应用程序之前,我们需要一组可靠的测试数据。 examples.extend([inst["qa_pairs"] for inst in new_examples])三、手动评估和调试有了测试数据,现在是时候评估你的LLM应用程序的性能了。 ,# 'result': 'Yes, the Cozy Comfort Pullover Set does have side pockets.'}四、LLM辅助评估虽然手动评估很有价值,但随着示例数量的增加 这就是LLM辅助评估发挥作用的地方。1.获取示例的预测第一步是通过LLM应用程序运行您的示例并收集预测。

    59300编辑于 2024-05-25
  • 来自专栏自然语言处理(NLP)论文速递

    分享10篇优秀论文,涉及LLM对齐、LLM评估LLM隐私、RAG增强等热门话题!

    8 位量化方法和 FP16 Transformer 基准相比,这种方法显着减少了内存使用和能源需求,同时保证了模型性能。 SELF-RAG 是一个新框架,通过按需检索和自反思来提高LLM的质量和真实性。它使用反射Token进行自评估,在各种任务中显着优于传统的LLM。该框架涉及两个组件:生成器和批评家模型。 在六项任务的评估结果中表明,SELF-RAG 优于经过预训练和指令调整的 LLM,包括那些具有更多参数的 LLMLLM评估 https://arxiv.org/pdf/2310.14424.pdf 本文解决了通过人工标注有效评估大型语言模型 (LLM) 的问题。 本文优先考虑能够有效区分模型的Prompt来减少所需的人工标注,通过使用 KL 散度和交叉熵等指标来确定提示的优先级,从而提高大型语言模型 (LLM) 的人类评估效率。

    1.2K10编辑于 2024-01-31
  • 评估LLM标注可靠性:人口偏见与模型解释

    本研究通过广义线性混合模型量化标注者人口特征与文本内容对标注决策的影响,发现人口因素仅占方差变异的8%,文本内容仍是主导因素。 进一步评估生成式AI(GenAI)模型作为标注工具的可靠性,发现简单的人口角色提示往往无法提升甚至可能降低其与人类判断的一致性。 核心发现人口特征影响有限:标注者性别、年龄等人口属性虽具有统计显著性,但对标注变异的解释力较弱(8%),文本内容解释力超90%。 生成式AI标注评估: 为GenAI模型添加人口角色提示(如"以年轻女性视角标注")未显著提升标注质量,部分场景下性能反而下降。 基线模型(无角色提示)在多数任务中表现更稳定。

    23410编辑于 2025-08-07
  • 来自专栏架构驿站

    一文搞懂使用 Arthur Bench 进行 LLM 评估

    LLM 在处理特定任务时可能会展现出与预训练模型不同的行为和性能,因此仅仅依赖基于预训练模型的评估方法可能无法全面评估 LLM 的能力。 — 02 — 为什么需要 LLM 指导评估? 相比于以前的评估管道所需的工作量,创建 LLM 指导评估的首次实施相对较快且容易。对于 LLM 指导的评估,我们只需要准备两件事情:用文字描述评估标准,并提供一些在提示模板中使用的示例。 然而,这种敏感性也可能导致 LLM评估结果变得非常不可预测。 正如我们之前讨论的那样,与其他评估方法相比,LLM 评估者更加敏感。 同时,另一个挑战在于,如果评估涉及太多的推理步骤或需要同时处理太多的变量,LLM 评估者可能会陷入困境。 由于 LLM 的特性,其评估结果可能会受到不同配置和参数设置的影响。 2、评估提示:Arthur Bench 可以用于评估不同提示对 LLM 性能的影响。提示是用于指导 LLM 生成文本的指令。

    92310编辑于 2024-02-06
  • 来自专栏AI SPPECH

    09_LLM评估方法:如何判断模型性能的好坏

    本文将带你深入了解LLM评估的核心概念、最新方法和实践案例,帮助你全面把握如何科学评估LLM的性能。 ├── 第七章:评估的挑战与对策 ├── 第八章:2025年评估发展趋势 └── 结论:构建全面的LLM评估体系 第一章:LLM评估的基础概念 1.1 什么是LLM评估? 实际应用: 谷歌在2025年8月举办了首次LLM象棋比赛,邀请了八大顶尖AI模型(谷歌、OpenAI、Anthropic、xAI、DeepSeek、月之暗面等)参与,通过比赛结果客观评估各模型的综合能力 标准数据集示例: - MMLU:测量模型在多任务上的语言理解能力 - HellaSwag:测试模型的常识推理能力 - GSM8K:评估模型的数学解题能力 - HumanEval:测试代码生成质量 2. 互动与思考 你在评估LLM时遇到过哪些挑战?是如何解决的? 你认为当前LLM评估方法中最大的不足是什么? 对于一个新的LLM应用,你会如何设计评估方案? 你如何看待人类评估与自动化评估的关系?

    64410编辑于 2025-11-13
  • 多智能体评估框架MAJ-EVAL:实现LLM自动评估与人类多维度评价对齐

    由于真实人类评估资源稀缺且成本高昂,新兴的"LLM-as-a-judge"范式为利用LLM智能体模拟人类评估者提供了可行方案。 为此,我们提出MAJ-EVAL多智能体评估框架,能够自动从相关文档(如研究论文)构建具有不同维度的评估者角色,实例化LLM智能体,并通过群体辩论生成多维反馈。 在教育与医疗领域的评估实验表明,相比传统自动化评估指标和现有LLM-as-a-judge方法,MAJ-EVAL生成的评估结果与人类专家评分具有更高一致性。 方法架构角色自动构建:从领域文档提取关键维度,生成具有差异化评估视角的智能体角色描述多智能体实例化:基于角色描述配置LLM智能体的系统提示和行为参数群体辩论机制:采用结构化辩论流程使智能体交换论据,最终形成多维评估报告动态权重调整 Kappa一致性系数提升37%效率对比:较传统人类评估流程节省89%时间成本,较单智能体方法提升评估维度覆盖率2.4倍技术贡献提出首个可自动构建评估维度的多智能体评估框架设计基于文档分析的动态角色生成算法实现评估结果与人类多维度标准的高效对齐开源框架支持快速适配新领域任务

    45400编辑于 2025-08-07
  • 来自专栏DeepHub IMBA

    Anthropic 开源 Bloom:基于 LLM 的自动化行为评估框架

    这个框架跟常规的评估基准不太一样。传统基准都是固定的测试集而 Bloom 会根据你的配置“长”出不同的评估内容,这也是为什么叫这么个植物学的名字。 工作流程:四个阶段搞定评估 Bloom 的整个流程分四步:从你提供的"种子"配置开始,最后生成完整的行为评估报告。配置文件里可以设置全局参数、每个 agent 用什么模型、推理时给多少算力这些。 Judgment 阶段 最后给每次交互打分:看目标行为有没有出现,除了主要行为还能评估其他维度,比如对话是不是够真实、诱导是不是够强这些。会做跨场景的元分析,给整个评估套件出一份综合报告。 第三步:定义评估行为 先决定要测什么行为,这里随便举个例子。 判断模型给出的评分跟人类标注的 Spearman 相关系数最高到了 0.86,说明自动评估的可靠性还行。 这套框架把行为评估自动化了,从定义行为到生成测试用例、执行评估、给出判断,全程不需要人工介入。

    33910编辑于 2025-12-30
  • 250个LLM 评估基准大盘点!从推理到多模态,一文看懂LLM考试大纲

    编程评估没标准?上线才发现安全不达标?核心痛点在于:缺乏系统化的评估标准。 今天,给大家分享一个宝藏资源:250个LLM评估基准与数据集,覆盖推理、编程、对话、Agent工具调用等多个维度,支持标签化分类筛选,帮你快速摸清模型底细,拒绝盲目选型。 多模态类:针对全能型LLM设计,测试模型处理图像、视频、音频、结构化数据等多种信息类型的能力。比如让模型根据图片内容生成描述,或结合音频和文本做总结,都可以通过这类基准来评估。 如果你想了解行业最新的评估方法,或者测试最新发布的模型,直接筛选New标签就能精准定位。现在LLM技术更新太快了,想精准评估模型性能、选对适配业务的工具,需要一套完整的数据集。 这个包含250个基准测试的数据集,相当于给大家提供了一套LLM能力体检手册,不管是选模型、做研究,还是优化现有系统,都能帮你找到精准的评估依据。

    37810编辑于 2025-12-30
  • 来自专栏程序你好

    评估数据集成平台的8个技巧

    在您的数据集成平台评估期间,请提出以下问题,以便您能够缩小选择范围并做出明智的决定。这里有一些关于每个问题的指导,帮助您最终达到组织的最佳数据集成平台。 1、你的主要项目是什么? 8、你是中小型企业、中型企业还是大型企业?你正在进行一个数字转换项目或计划吗?你增长吗?您的数据集成平台需要随着您的成长而扩展吗确认集成平台支持当前和未来的需求。

    1.2K20发布于 2018-10-18
  • 来自专栏山河已无恙

    基于 yolov8 的人体姿态评估

    所有其它的路都是不完整的,是人的逃避方式,是对大众理想的懦弱回归,是随波逐流,是对内心的恐惧 ——赫尔曼·黑塞《德米安》」 ---- 测试结果 YOLOv8 是一种高效而准确的目标检测算法,它在 YOLOv4 这里是我们仅仅使用的人体姿态评估,通过对人体姿态的评估可以进行人体行为判断和预测 同时, YOLOv8 提供了很完善的文档,包括中文文档。 import YOLO from PIL import Image import cv2 model = YOLO("C:\\Users\\liruilong\\.yolo_model\\yolov8x-pose-p6 .pt") # from ndarray im2 = cv2.imread("Y:\\image8.jpg") #results = model(im2) # predict on an image

    1.1K10编辑于 2023-08-21
  • 来自专栏OpenMMLab

    LLM推理后端性能大比拼,来自BentoML团队的深度评估

    Token Generation Rate:token 生成率,评估模型在 decoding 阶段每秒生成的 token 数量,以 token 每秒为单位。 以下是我们的一些主要的发现: Llama 3 8B Llama 3 8B: 不同后端的 Time to First Token(TTFT) Llama 3 8B: 不同后端的 token 生成速率 LMDeploy 基准测试客户端 为了准确评估不同 LLM 后端的性能,我们创建了一个自定义基准测试脚本。该脚本通过改变用户负载并在不同并发级别下发送生成请求来模拟真实场景。 我们测试了 10、50 和 100 个并发用户,以评估系统在不同负载下的表现。 每次压力测试都持续了5分钟,在此期间,我们每5秒收集一次推理指标。 Llama 3 8B 对于 Llama 3 8B 模型,LMDeploy 在所有用户负载下始终提供较低的 TTFT 和最高的 token 生成速度。

    4.2K20编辑于 2024-06-17
  • 来自专栏自然语言处理

    大模型(LLM) 的长上下文与 RAG:评估与回顾

    31910编辑于 2025-01-09
  • 来自专栏嵌入式程序猿

    i.MX 8M评估套件开箱

    最近有项目选用了i.mx8,订购的几千大洋的评估套件到货了,开箱上图,i.MX 8MQuad评估套件(EVK)利用2至4x Cortex-A53s和1x Cortex-M4内核, 为i.MX 8MQuad 、i.MX 8MDual和i.MX 8QuadLite应用处理器提供快速评估平台。 针对音视频评估,它带来了HDMI 2.0a Type-A和MIPI-DSI连接器,以及高达768kHz采样率的32位音频采样、音频接口扩展连接器和3.5mm音频插孔耳机。 i.MX 8M系列 - 业界领先的音频、语音和视频处理。 ? ? ? :MCIMX8M-EVK 系统框图 ?

    1.2K40发布于 2019-05-06
  • 来自专栏NLP/KG

    LLM 大模型学习必知必会系列(十一):大模型自动评估理论和实战以及大模型评估框架详解

    LLM 大模型学习必知必会系列(十一):大模型自动评估理论和实战以及大模型评估框架详解 0.前言 大语言模型(LLM)评测是LLM开发和应用中的关键环节。 GPT-4、Claude、Expert Models/Reward models) LLM Peer-examination 如何评估一个LLM 哪些维度? 很难胜任更多场景、更强模型的评测工作 泛化性问题 LLM幻觉的诊断问题 3.LLM评估实战 LLMuses框架–轻量化、端到端的大模型自动评估框架 GitHub: https://github.com 竞技场模式(Arena) 评估报告生成与可视化 LLM性能评测(Performance Evaluation) 环境安装 # 1. ,包括:MMLU、CMMLU、C-Eval、GSM8K、ARC、HellaSwag、TruthfulQA、MATH、HumanEval等 常用评估指标(metrics)的实现 统一model

    5K13编辑于 2024-05-26
  • 来自专栏深度学习自然语言处理

    每日论文速递 | DeepMind提出SAFE,用LLM Agent作为事实评估

    深度学习自然语言处理 分享 整理:pp 摘要:大语言模型(LLM)在回答开放式话题的事实搜索提示时,经常会生成包含事实错误的内容。 然后,我们提出可以通过一种我们称之为 "搜索增强事实性评估器"(Search-Augmented Factuality Evaluator,SAFE)的方法,将 LLM 代理用作长式事实性的自动评估器。 SAFE 利用 LLM 将长式回复分解为一组单独的事实,并通过一个多步骤推理过程来评估每个事实的准确性,该过程包括向谷歌搜索发送搜索查询,并确定搜索结果是否支持某个事实。 根据经验,我们证明了 LLM 代理可以实现超人的评级性能--在一组约 16k 的单个事实上,SAFE 与众包人类注释者的一致率为 72%,而在 100 个分歧案例的随机子集上,SAFE 的胜率为 76% SAFE评估方法:提出了一种名为SAFE的自动评估方法,该方法利用LLM将长篇幅回应分解为单个事实,并通过Google Search查询来评估每个事实的准确性。

    72310编辑于 2024-04-11
  • 来自专栏贾志刚-OpenCV学堂

    【YOLOv8】自定义姿态评估模型训练

    前言 Hello大家好,今天给大家分享一下如何基于YOLOv8姿态评估模型,实现在自定义数据集上,完成自定义姿态评估模型的训练与推理。 01 tiger-pose数据集 YOLOv8官方提供了一个自定义tiger-pose数据集(老虎姿态评估),总计数据有263张图像、其中210张作为训练集、53张作为验证集。 kpt_shape=12x2 表示有12个关键点,每个关键点是x,y 02 模型训练 跟训练YOLOv8对象检测模型类似,直接运行下面的命令行即可: yolo train model=yolov8n-pose.pt ]), int(kpts[7])), 3, (255, 0, 255), 4, 8, 0) cv.circle(frame, (int(kpts[8]), int(kpts[9])), 4, 8, 0) cv.circle(frame, (int(kpts[12]), int(kpts[13])), 3, (255, 0, 255), 4, 8, 0)

    1.3K10编辑于 2023-12-26
领券