首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • BLOOM评估系统:自动化LLM行为评估框架

    BLOOM评估系统:自动化LLM行为评估框架项目概述BLOOM(Bloom Rollout Pipeline)是一个开源的大语言模型行为评估系统,专门用于自动化测试和评估LLM的特定行为模式。 与其他固定评估方法不同,BLOOM根据种子配置的不同而"生长"出不同的评估套件,确保评估的多样性和针对性。所有BLOOM评估都应与其完整的种子配置一起引用以确保可重复性。 功能特性核心功能可配置行为评估:通过YAML配置文件定义目标行为和评估参数多模型支持:支持Anthropic Claude系列、OpenAI GPT系列、Google Gemini、DeepSeek等多种主流 LLM多模态交互:支持对话模式和模拟环境模式两种评估方式四阶段评估流程:理解→构思→执行→判断的完整评估流程异步并发执行:支持并行运行多个评估场景提高效率技术特性模块化架构:各评估阶段独立为可替换模块可扩展模型支持 :通过LiteLLM统一接口支持多个模型提供商详细日志记录:完整的评估过程记录和结果保存调试模式:支持详细调试输出便于问题排查独特价值种子驱动评估评估套件根据配置动态生成,避免模式固定科学严谨:提供科学动机分析和行为理解步骤灵活适配

    35810编辑于 2026-01-05
  • 来自专栏AI早高峰

    使用自定义LLM:RAGAs评估

    当我们完成了一个RAG系统的开发工作以后,我们还需要对RAG系统的性能进行评估,如何评估呢? 1.3 上下文精度上下文精度(Context precision):评估所有在上下文(contexts)中呈现的与基本事实(ground-truth)相关的条目是否排名较高。 = zhipu_llmanswer_relevancy.llm = zhipu_llmanswer_relevancy.embeddings = zhipu_embeddingscontext_recall.llm = zhipu_llmcontext_precision.llm = zhipu_llm# 重新一键式测评result = evaluate( evalsets, metrics=[ RAG效果评估:Ragas使用自定义LLM

    1.7K10编辑于 2024-11-20
  • 使用Nova LLM评估生成式AI模型

    使用Nova LLM评估生成式AI模型评估大型语言模型(LLM)的性能不仅仅局限于困惑度或双语评估替补(BLEU)分数等统计指标。 为了弥补这一差距,LLM-as-a-judge已成为一种有前景的方法,它利用LLM的推理能力来更灵活、大规模地评估其他模型。 理解Nova LLM-as-a-Judge工作原理某中心Nova LLM-as-a-Judge使用称为二元总体偏好评判的评估方法。 接下来,PyTorch Estimator使用某中心Nova LLM-as-a-Judge配方启动评估作业。 启动评估作业准备完数据集并创建评估配方后,最后一步是启动执行某中心Nova LLM-as-a-Judge评估的SageMaker训练作业。

    42810编辑于 2025-09-09
  • 如何构建可落地的 LLM 测试评估体系

    一、先想清楚:你在评估的是什么 构建 LLM 评估体系之前,有一个问题必须先回答清楚:你的系统输出,是确定性的还是概率性的? 这不是废话。大多数团队踩坑的根源,就在于把一个概率系统当确定性系统来评估。 二、体系的四个层次 如上面架构图所示,一套完整的 LLM 评估体系由四层构成,缺一不可。下面逐层展开讲清楚每一层的核心设计决策。 LLM 评估用例需要覆盖三类场景: 功能用例(Happy Path)系统应该能做什么?把核心能力拆成最小可测单元。 坑4:把 LLM Judge 当作客观标准 LLM Judge 本身会漂移,会对格式有偏好,会受评估 prompt 措辞影响。把它当成唯一标准,最终结果就是“用模型的偏好来评估模型”,循环自洽。 解决方式:LLM Judge 只是辅助,高分用例定期人工抽检 10%,低分用例必须人工确认。 坑5:评估体系和产品迭代脱钩 评估体系建好了,但产品每次改 prompt 时不跑评估,直接上线。

    23010编辑于 2026-06-02
  • 来自专栏AIGC

    【LangChain系列】第九节:LLM 应用评估

    随着这种复杂性的增加,评估这些基于LLM的应用程序的性能和准确性也变得更具挑战性。在这篇博客文章中,我们将深入探讨LLM应用评估的世界,探讨可以帮助您评估和改进模型性能的框架和工具。 examples.extend([inst["qa_pairs"] for inst in new_examples])三、手动评估和调试有了测试数据,现在是时候评估你的LLM应用程序的性能了。 ,# 'result': 'Yes, the Cozy Comfort Pullover Set does have side pockets.'}四、LLM辅助评估虽然手动评估很有价值,但随着示例数量的增加 这就是LLM辅助评估发挥作用的地方。1.获取示例的预测第一步是通过LLM应用程序运行您的示例并收集预测。 , 18% Lycra® spandex- Lining: 90% recycled nylon, 10% Lycra® spandexPredicted Grade: CORRECTExample 6:

    59300编辑于 2024-05-25
  • 来自专栏自然语言处理(NLP)论文速递

    分享10篇优秀论文,涉及LLM对齐、LLM评估LLM隐私、RAG增强等热门话题!

    SELF-RAG 是一个新框架,通过按需检索和自反思来提高LLM的质量和真实性。它使用反射Token进行自评估,在各种任务中显着优于传统的LLM。该框架涉及两个组件:生成器和批评家模型。 在六项任务的评估结果中表明,SELF-RAG 优于经过预训练和指令调整的 LLM,包括那些具有更多参数的 LLMLLM评估 https://arxiv.org/pdf/2310.14424.pdf 本文解决了通过人工标注有效评估大型语言模型 (LLM) 的问题。 传统的评估指标通常无法捕捉自然语言的细微差别,因此需要人工评估。然而,这个过程是资源密集型的,在时间和成本方面消耗较大。 本文优先考虑能够有效区分模型的Prompt来减少所需的人工标注,通过使用 KL 散度和交叉熵等指标来确定提示的优先级,从而提高大型语言模型 (LLM) 的人类评估效率。

    1.2K10编辑于 2024-01-31
  • 评估LLM标注可靠性:人口偏见与模型解释

    进一步评估生成式AI(GenAI)模型作为标注工具的可靠性,发现简单的人口角色提示往往无法提升甚至可能降低其与人类判断的一致性。 生成式AI标注评估: 为GenAI模型添加人口角色提示(如"以年轻女性视角标注")未显著提升标注质量,部分场景下性能反而下降。 基线模型(无角色提示)在多数任务中表现更稳定。

    23410编辑于 2025-08-07
  • 来自专栏架构驿站

    一文搞懂使用 Arthur Bench 进行 LLM 评估

    LLM 在处理特定任务时可能会展现出与预训练模型不同的行为和性能,因此仅仅依赖基于预训练模型的评估方法可能无法全面评估 LLM 的能力。 — 02 — 为什么需要 LLM 指导评估? 相比于以前的评估管道所需的工作量,创建 LLM 指导评估的首次实施相对较快且容易。对于 LLM 指导的评估,我们只需要准备两件事情:用文字描述评估标准,并提供一些在提示模板中使用的示例。 然而,这种敏感性也可能导致 LLM评估结果变得非常不可预测。 正如我们之前讨论的那样,与其他评估方法相比,LLM 评估者更加敏感。 同时,另一个挑战在于,如果评估涉及太多的推理步骤或需要同时处理太多的变量,LLM 评估者可能会陷入困境。 由于 LLM 的特性,其评估结果可能会受到不同配置和参数设置的影响。 2、评估提示:Arthur Bench 可以用于评估不同提示对 LLM 性能的影响。提示是用于指导 LLM 生成文本的指令。

    92310编辑于 2024-02-06
  • 来自专栏AI SPPECH

    09_LLM评估方法:如何判断模型性能的好坏

    本文将带你深入了解LLM评估的核心概念、最新方法和实践案例,帮助你全面把握如何科学评估LLM的性能。 本文要点 要点 描述 互动思考 评估基础 评估的重要性与基本原则 你认为评估一个LLM最重要的维度是什么? 评估框架 2025年主流评估框架介绍 你是否了解或使用过某些LLM评估框架? ├── 第七章:评估的挑战与对策 ├── 第八章:2025年评估发展趋势 └── 结论:构建全面的LLM评估体系 第一章:LLM评估的基础概念 1.1 什么是LLM评估? 光合作用的总反应式为:6CO2 + 6H2O + 光能 → C6H12O6 + 6O2。" 互动与思考 你在评估LLM时遇到过哪些挑战?是如何解决的? 你认为当前LLM评估方法中最大的不足是什么? 对于一个新的LLM应用,你会如何设计评估方案? 你如何看待人类评估与自动化评估的关系?

    64510编辑于 2025-11-13
  • 从0开始训练自己的LLM6

    训练完后的模型如何给业务用呢?需要把模型的参数保存下来,给业务用,下次加载出来就可以了。同时前面定义的模型是输出最匹配的结果,但是每次输出结果都一样太死板,用过大模型的都知道,我们需要制定一个temperure参数,介于0到1之间,越接近0,结果越准确。越接近1,返回的结果越发散。因此我们可以根据实际业务需要调整这个参数,来适应不同的业务场景需求。我们的模型如何添加这个参数呢?本文介绍下具体的方法和实现。

    13910编辑于 2026-03-18
  • 多智能体评估框架MAJ-EVAL:实现LLM自动评估与人类多维度评价对齐

    由于真实人类评估资源稀缺且成本高昂,新兴的"LLM-as-a-judge"范式为利用LLM智能体模拟人类评估者提供了可行方案。 为此,我们提出MAJ-EVAL多智能体评估框架,能够自动从相关文档(如研究论文)构建具有不同维度的评估者角色,实例化LLM智能体,并通过群体辩论生成多维反馈。 在教育与医疗领域的评估实验表明,相比传统自动化评估指标和现有LLM-as-a-judge方法,MAJ-EVAL生成的评估结果与人类专家评分具有更高一致性。 方法架构角色自动构建:从领域文档提取关键维度,生成具有差异化评估视角的智能体角色描述多智能体实例化:基于角色描述配置LLM智能体的系统提示和行为参数群体辩论机制:采用结构化辩论流程使智能体交换论据,最终形成多维评估报告动态权重调整 Kappa一致性系数提升37%效率对比:较传统人类评估流程节省89%时间成本,较单智能体方法提升评估维度覆盖率2.4倍技术贡献提出首个可自动构建评估维度的多智能体评估框架设计基于文档分析的动态角色生成算法实现评估结果与人类多维度标准的高效对齐开源框架支持快速适配新领域任务

    45500编辑于 2025-08-07
  • 来自专栏DeepHub IMBA

    Anthropic 开源 Bloom:基于 LLM 的自动化行为评估框架

    这个框架跟常规的评估基准不太一样。传统基准都是固定的测试集而 Bloom 会根据你的配置“长”出不同的评估内容,这也是为什么叫这么个植物学的名字。 工作流程:四个阶段搞定评估 Bloom 的整个流程分四步:从你提供的"种子"配置开始,最后生成完整的行为评估报告。配置文件里可以设置全局参数、每个 agent 用什么模型、推理时给多少算力这些。 Judgment 阶段 最后给每次交互打分:看目标行为有没有出现,除了主要行为还能评估其他维度,比如对话是不是够真实、诱导是不是够强这些。会做跨场景的元分析,给整个评估套件出一份综合报告。 第三步:定义评估行为 先决定要测什么行为,这里随便举个例子。 判断模型给出的评分跟人类标注的 Spearman 相关系数最高到了 0.86,说明自动评估的可靠性还行。 这套框架把行为评估自动化了,从定义行为到生成测试用例、执行评估、给出判断,全程不需要人工介入。

    34210编辑于 2025-12-30
  • 来自专栏机器学习炼丹术

    LLM6 | The AI Revolution in Medicine:GPT 4

    6 第六章的标题是"So Much More: Math, Coding, and Logic",由Peter Lee撰写。 <<大型语言模型LLM与Visual>> LLM入门1 | 初见LLaMA | MetaAI LLM入门2 | 羊驼AIpaca | Stanford LLM入门3 | 基于cpu和hugging face 的LLaMA部署 LLM入门4 | Segment Anything | MetaAI LLM入门5 | SAM代码从入门到出门 | MetaAI <<其他>> 医学图像重建 | Radon变换,滤波反投影算法 数据结构与存储结构 小白学PyTorch | 8 实战之MNIST小试牛刀 小白学PyTorch | 7 最新版本torchvision.transforms常用API翻译与讲解 小白学PyTorch | 6 >> 图片质量评估论文 | 无监督SER-FIQ | CVPR2020 图像质量评估论文 | Deep-IQA | IEEETIP2018 图像质量评估论文 | rank-IQA | ICCV2017

    44010编辑于 2023-09-01
  • 250个LLM 评估基准大盘点!从推理到多模态,一文看懂LLM考试大纲

    今天,给大家分享一个宝藏资源:250个LLM评估基准与数据集,覆盖推理、编程、对话、Agent工具调用等多个维度,支持标签化分类筛选,帮你快速摸清模型底细,拒绝盲目选型。 这个数据集最强大的地方在于,它把虚无缥缈的模型能力拆解成了6大垂直领域。 1.LLM评测6大核心维度知识、语言与推理类:LLM的基础功底测试,核心考察模型对信息的理解、逻辑推断能力,以及事实知识的检索准确性。 如果你想了解行业最新的评估方法,或者测试最新发布的模型,直接筛选New标签就能精准定位。现在LLM技术更新太快了,想精准评估模型性能、选对适配业务的工具,需要一套完整的数据集。 这个包含250个基准测试的数据集,相当于给大家提供了一套LLM能力体检手册,不管是选模型、做研究,还是优化现有系统,都能帮你找到精准的评估依据。

    37810编辑于 2025-12-30
  • 来自专栏数据分析之旅

    店铺选址的6C评估模型

    相比自己构建的店铺选址模型,发现存在更科学的5C评估模型,主要从城市市场评估(city)、核心区域分析(Core Distinct)、竞争分析(Competition)、交通便利性(Convenience )、成本/收入分析(Cost/Revenue)五个维度更加系统、科学评估选址。 City): 城市经济总量,支柱产业及发展速度 城市居民人均可支配收入和支出 城市居民消费水平和消费习惯 核心区域分析(Core Distinct): 城市商圈和主要居住区分布 拟选店铺商圈在城市中的地位评估

    2.4K52发布于 2020-08-11
  • 来自专栏OpenMMLab

    LLM推理后端性能大比拼,来自BentoML团队的深度评估

    Token Generation Rate:token 生成率,评估模型在 decoding 阶段每秒生成的 token 数量,以 token 每秒为单位。 但是,当并发用户数达到 100 时,TTFT 显著增加至 6 秒以上。 vLLM:在所有并发用户级别上都表现出了稳定的低 TTFT,这与我们在 8B 模型上看到的情况类似。 基准测试客户端 为了准确评估不同 LLM 后端的性能,我们创建了一个自定义基准测试脚本。该脚本通过改变用户负载并在不同并发级别下发送生成请求来模拟真实场景。 我们测试了 10、50 和 100 个并发用户,以评估系统在不同负载下的表现。 每次压力测试都持续了5分钟,在此期间,我们每5秒收集一次推理指标。 release yet) LMDeploy: 0.4.0 TensorRT-LLM: 0.9.0 (with Triton v24.04) TGI: 2.0.4 6.

    4.2K20编辑于 2024-06-17
  • 来自专栏自然语言处理

    大模型(LLM) 的长上下文与 RAG:评估与回顾

    31910编辑于 2025-01-09
  • 来自专栏生信技能树

    m6A-Seq数据质量评估:trumpet包

    然而,由于RNA分子的固有特性以及该技术复杂的操作过程,m6A-seq数据往往存在各种缺陷。对m6A-seq数据的质量进行评估需要一种方便、全面的工具,以确保它们适合后续的分析。 从技术方面,m6A-seq可以认为是ChIP-Seq和RNA-Seq的结合。因此,通过有效地结合两种技术的数据质量评估指标,我们开发了用于m6A-seq数据质量评估的trumpet R包。 trumpet包从m6A-seq数据中获取比对产生的BAM文件以及转录组信息作为输入,生成HTML格式的质量评估报告。 4.使用ESES评估免疫沉淀反应效率 m6A-Seq数据的一个主要评价指标就是免疫沉淀反应效率,只要体现在免疫沉淀信号的富集程度。 5.使用C-test评估m6A信号富集程度 此指标也显示IP2样本异常,与之前的评估结果一致。 ? 6.对样本进行层次聚类和PCA分析 我感觉这个结果有点充数了。。。

    1.8K20发布于 2021-02-03
  • 来自专栏量子位

    微软6页论文爆火:三进制LLM,真香!

    金磊 发自 凹非寺 量子位 | 公众号 QbitAI 现在,大语言模型(LLM)迎来了“1-bit时代”。 这就是由微软和中国中科院大学在最新一项研究中所提出的结论—— 所有的LLM,都将是1.58 bit的。 最后,在实验的性能比较上,团队将BitNet b1.58与FP16 LLaMA LLM在不同大小的模型上进行了比较。 结果显示,BitNet b1.58在3B模型大小时开始与全精度LLaMA LLM在困惑度上匹配,同时在延迟、内存使用和吞吐量方面有显著提升。 而且当模型规模越大时,这种性能上提升就会越发显著。

    77610编辑于 2024-02-29
  • 来自专栏互联网数据官iCDO

    评估归因模型供应商的6个问题

    译者:互联网数据官志愿者 王全鹏 前言:如何选择正确的归因模型来进行营销效果评估?如何评估你的归因模型供应商? 专栏作家 Alison Lohse 给出了6个问题帮你理清思路,并且避过归因模型的那些坑。 ? 有些公告比较棘手。FaceBook将会因为其错误使用视频广告效果评估指标而被起诉。 提出正确的问题,会帮助你更接近事情的本质,尤其是对于营销效果评估建模来说,此点尤为重要。 这里有一个问题列表,可以用来向归因模型供应商和数据科学家提问,以便系统、深入的了解归因相关的话题。 问题6:洞察的粒度有多细? 理想的答案:精细的用户级数据。 效果营销人员需要以很细的粒度,在每天或更短的周期内调整其广告策略,以适应不断变化的趋势。 相比长期趋势来说,算法更难预测较小、较短期的变化。

    1.3K140发布于 2018-03-05
领券