首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • BLOOM评估系统:自动化LLM行为评估框架

    BLOOM评估系统:自动化LLM行为评估框架项目概述BLOOM(Bloom Rollout Pipeline)是一个开源的大语言模型行为评估系统,专门用于自动化测试和评估LLM的特定行为模式。 LLM多模态交互:支持对话模式和模拟环境模式两种评估方式四阶段评估流程:理解→构思→执行→判断的完整评估流程异步并发执行:支持并行运行多个评估场景提高效率技术特性模块化架构:各评估阶段独立为可替换模块可扩展模型支持 :behavior: sycophancy # 目标行为total_evals: 50 # 评估场景数量rollout: target: "claude-sonnet-4" # 目标模型 model: "gpt-4o" # 评估器模型运行评估管道python bloom.py seed.yaml启用调试模式python bloom.py seed.yaml --debug \ --model claude-sonnet-4 \ --output-dir results/transcripts/manual结果输出评估结果保存在results/目录下,包含:understanding_results.json

    35510编辑于 2026-01-05
  • 来自专栏时空探索之旅

    WWW 2026 | LLM×Graph论文总结【LLM4Graph & Graph4LLM

    笔者将LLM和Graph结合的工作分为两大类,一类是LLM4Graph,即LLM做图任务。 另外一类是利用Graph4LLM,即利用图这种格式来增强LLM的能力。 LLM4Graph1. Disentangled Graph LLM for Molecule Graph Editing under Distribution Shifts4. VL-KGE: Vision-Language Models Meet Knowledge Graph EmbeddingGraph4LLM22. ,RAG 推荐阅读 ICLR 2026 | LLM×Graph论文总结【LLM4Graph与Graph4LLM】 ICLR 2026 | Rebuttal前 图基础模型(GFM)&文本属性图(TAG)高分论文

    49410编辑于 2026-03-10
  • 来自专栏时空探索之旅

    ICLR 2026 | LLM×Graph论文总结【LLM4Graph与Graph4LLM

    观察:LLM Graph统计值 最大均分 均值 最小均分 6 5.21 4 其中均分≥6的有4篇,其中。 笔者将LLM和Graph结合的工作分为两大类,一类是LLM4Graph,即LLM做图任务。 另外一类是利用Graph4LLM,即利用图结构来增强LLM的能力。 LLM4Graph & TAG1. LLM4Graph & KG 4 DAMR: Efficient and Adaptive Context-Aware Knowledge Graph Question Answering with LLM-Guided LLM4Graph & AI4Science 14 A Brain Graph Foundation Model: Pre-Training and Prompt-Tuning across Broad 6, 8, 2 信心:3, 2, 4, 4 均分:5.0 16 Entropy-Guided Dynamic Tokens for Graph-LLM Alignment in Molecular Understanding

    73510编辑于 2026-03-10
  • 来自专栏AI早高峰

    使用自定义LLM:RAGAs评估

    当我们完成了一个RAG系统的开发工作以后,我们还需要对RAG系统的性能进行评估,如何评估呢? LangchainEmbeddingsWrapperimport osos.environ["ZHIPUAI_API_KEY"] = "Your_API_KEY"zhipu_chat = ChatZhipuAI(model='glm-4' = zhipu_llmanswer_relevancy.llm = zhipu_llmanswer_relevancy.embeddings = zhipu_embeddingscontext_recall.llm = zhipu_llmcontext_precision.llm = zhipu_llm# 重新一键式测评result = evaluate( evalsets, metrics=[ RAG效果评估:Ragas使用自定义LLM

    1.7K10编辑于 2024-11-20
  • 使用Nova LLM评估生成式AI模型

    使用Nova LLM评估生成式AI模型评估大型语言模型(LLM)的性能不仅仅局限于困惑度或双语评估替补(BLEU)分数等统计指标。 为了弥补这一差距,LLM-as-a-judge已成为一种有前景的方法,它利用LLM的推理能力来更灵活、大规模地评估其他模型。 理解Nova LLM-as-a-Judge工作原理某中心Nova LLM-as-a-Judge使用称为二元总体偏好评判的评估方法。 接下来,PyTorch Estimator使用某中心Nova LLM-as-a-Judge配方启动评估作业。 启动评估作业准备完数据集并创建评估配方后,最后一步是启动执行某中心Nova LLM-as-a-Judge评估的SageMaker训练作业。

    42810编辑于 2025-09-09
  • 如何构建可落地的 LLM 测试评估体系

    一、先想清楚:你在评估的是什么 构建 LLM 评估体系之前,有一个问题必须先回答清楚:你的系统输出,是确定性的还是概率性的? 这不是废话。大多数团队踩坑的根源,就在于把一个概率系统当确定性系统来评估。 二、体系的四个层次 如上面架构图所示,一套完整的 LLM 评估体系由四层构成,缺一不可。下面逐层展开讲清楚每一层的核心设计决策。 LLM 评估用例需要覆盖三类场景: 功能用例(Happy Path)系统应该能做什么?把核心能力拆成最小可测单元。 模型打分(LLM-as-Judge) 适用于开放式输出,比如摘要质量、回答完整性、语气是否合适等。用一个评估模型(通常比被测模型更强或同级)对输出打分。 解决方式:至少拆分成 3-4 个维度独立打分,每个维度都有独立趋势图。 坑4:把 LLM Judge 当作客观标准 LLM Judge 本身会漂移,会对格式有偏好,会受评估 prompt 措辞影响。

    22610编辑于 2026-06-02
  • 来自专栏AIGC

    【LangChain系列】第九节:LLM 应用评估

    随着这种复杂性的增加,评估这些基于LLM的应用程序的性能和准确性也变得更具挑战性。在这篇博客文章中,我们将深入探讨LLM应用评估的世界,探讨可以帮助您评估和改进模型性能的框架和工具。 examples.extend([inst["qa_pairs"] for inst in new_examples])三、手动评估和调试有了测试数据,现在是时候评估你的LLM应用程序的性能了。 ,# 'result': 'Yes, the Cozy Comfort Pullover Set does have side pockets.'}四、LLM辅助评估虽然手动评估很有价值,但随着示例数量的增加 这就是LLM辅助评估发挥作用的地方。1.获取示例的预测第一步是通过LLM应用程序运行您的示例并收集预测。 18" x 28", and the dimensions of the medium size are 22.5" x 34.5".Predicted Grade: CORRECTExample 4:

    59200编辑于 2024-05-25
  • 来自专栏自然语言处理(NLP)论文速递

    分享10篇优秀论文,涉及LLM对齐、LLM评估LLM隐私、RAG增强等热门话题!

    SELF-RAG 是一个新框架,通过按需检索和自反思来提高LLM的质量和真实性。它使用反射Token进行自评估,在各种任务中显着优于传统的LLM。该框架涉及两个组件:生成器和批评家模型。 在六项任务的评估结果中表明,SELF-RAG 优于经过预训练和指令调整的 LLM,包括那些具有更多参数的 LLMLLM评估 https://arxiv.org/pdf/2310.14424.pdf 本文解决了通过人工标注有效评估大型语言模型 (LLM) 的问题。 本文优先考虑能够有效区分模型的Prompt来减少所需的人工标注,通过使用 KL 散度和交叉熵等指标来确定提示的优先级,从而提高大型语言模型 (LLM) 的人类评估效率。 GateLoop 通过合并数据控制的状态转换来推广现有的线性循环模型,例如 S4、S5、LRU 和 RetNet。

    1.2K10编辑于 2024-01-31
  • 来自专栏机器学习炼丹术

    LLM入门4 | Segment Anything | MetaAI

    <<大型语言模型LLM与Visual>> LLM入门1 | 初见LLaMA | MetaAI LLM入门2 | 羊驼AIpaca | Stanford LLM入门3 | 基于cpu和hugging face StyleGAN2专题>> 生成专题1 | 图像生成评价指标 Inception Score (IS) 生成专题2 | 图像生成评价指标FID 生成专题3 | StyleGAN2对AdaIN的修正 生成专题4 | 无监督SER-FIQ | CVPR2020 图像质量评估论文 | Deep-IQA | IEEETIP2018 图像质量评估论文 | rank-IQA | ICCV2017 图像分割论文 | DRN torchvision.transforms常用API翻译与讲解 小白学PyTorch | 6 模型的构建访问遍历存储(附代码) 小白学PyTorch | 5 torchvision预训练模型与数据集全览 小白学PyTorch | 4 >> 图片质量评估论文 | 无监督SER-FIQ | CVPR2020 图像质量评估论文 | Deep-IQA | IEEETIP2018 图像质量评估论文 | rank-IQA | ICCV2017

    1.1K20编辑于 2023-09-02
  • 评估LLM标注可靠性:人口偏见与模型解释

    进一步评估生成式AI(GenAI)模型作为标注工具的可靠性,发现简单的人口角色提示往往无法提升甚至可能降低其与人类判断的一致性。 生成式AI标注评估: 为GenAI模型添加人口角色提示(如"以年轻女性视角标注")未显著提升标注质量,部分场景下性能反而下降。 基线模型(无角色提示)在多数任务中表现更稳定。 GenAI实验:对比GPT-4、Claude等模型在基础提示与角色提示下的F1分数、一致性系数。 实践建议标注协议优化:建议优先控制文本内容歧义性,而非过度依赖人口平衡标注团队。

    23210编辑于 2025-08-07
  • 来自专栏架构驿站

    一文搞懂使用 Arthur Bench 进行 LLM 评估

    LLM 在处理特定任务时可能会展现出与预训练模型不同的行为和性能,因此仅仅依赖基于预训练模型的评估方法可能无法全面评估 LLM 的能力。 — 02 — 为什么需要 LLM 指导评估? 相比于以前的评估管道所需的工作量,创建 LLM 指导评估的首次实施相对较快且容易。对于 LLM 指导的评估,我们只需要准备两件事情:用文字描述评估标准,并提供一些在提示模板中使用的示例。 然而,这种敏感性也可能导致 LLM评估结果变得非常不可预测。 正如我们之前讨论的那样,与其他评估方法相比,LLM 评估者更加敏感。 (4)代码生成:测试 LLM 根据自然语言描述生成代码的能力。 2. 模型选择: 在此阶段,主要工作为筛选评估对象。 4. 评估运行:自动化流程 最后一步,即借助自动化流程进行任务评估。通常情况下,Arthur Bench 提供自动化评估流程,只需简单配置即可运行评估任务。

    92110编辑于 2024-02-06
  • 来自专栏AI SPPECH

    09_LLM评估方法:如何判断模型性能的好坏

    实用性 评估应与实际应用场景相关,能够指导模型在实际中的使用。 4. 可复现性 评估结果应具有可复现性,便于不同团队之间的比较和验证。 5. 上下文一致性:评估在多轮对话中保持上下文一致的能力 应用场景: 多模态评估框架广泛应用于评估能同时处理文本、图像、音频的综合性LLM,如GPT-4o、Claude 3等。 数据偏见问题 评估数据中可能存在的偏见会影响评估结果的公平性。 3. 数据更新滞后 评估数据可能无法及时反映最新的知识和趋势。 4. 动态评估框架 构建能够适应模型和任务变化的动态评估框架。 3. 人机结合评估 结合自动化评估和人类评估的优势,提高评估的准确性和效率。 4. 认证体系建立 出现针对LLM的安全认证、性能认证等体系。 3. 基准数据集共享 行业共享的标准化基准数据集,便于不同模型之间的比较。 4.

    64210编辑于 2025-11-13
  • 多智能体评估框架MAJ-EVAL:实现LLM自动评估与人类多维度评价对齐

    由于真实人类评估资源稀缺且成本高昂,新兴的"LLM-as-a-judge"范式为利用LLM智能体模拟人类评估者提供了可行方案。 为此,我们提出MAJ-EVAL多智能体评估框架,能够自动从相关文档(如研究论文)构建具有不同维度的评估者角色,实例化LLM智能体,并通过群体辩论生成多维反馈。 在教育与医疗领域的评估实验表明,相比传统自动化评估指标和现有LLM-as-a-judge方法,MAJ-EVAL生成的评估结果与人类专家评分具有更高一致性。 方法架构角色自动构建:从领域文档提取关键维度,生成具有差异化评估视角的智能体角色描述多智能体实例化:基于角色描述配置LLM智能体的系统提示和行为参数群体辩论机制:采用结构化辩论流程使智能体交换论据,最终形成多维评估报告动态权重调整 Kappa一致性系数提升37%效率对比:较传统人类评估流程节省89%时间成本,较单智能体方法提升评估维度覆盖率2.4倍技术贡献提出首个可自动构建评估维度的多智能体评估框架设计基于文档分析的动态角色生成算法实现评估结果与人类多维度标准的高效对齐开源框架支持快速适配新领域任务

    45400编辑于 2025-08-07
  • 来自专栏DeepHub IMBA

    Anthropic 开源 Bloom:基于 LLM 的自动化行为评估框架

    这个框架跟常规的评估基准不太一样。传统基准都是固定的测试集而 Bloom 会根据你的配置“长”出不同的评估内容,这也是为什么叫这么个植物学的名字。 工作流程:四个阶段搞定评估 Bloom 的整个流程分四步:从你提供的"种子"配置开始,最后生成完整的行为评估报告。配置文件里可以设置全局参数、每个 agent 用什么模型、推理时给多少算力这些。 max_tokens: 4000 ideation: model: claude-sonnet-4 total_evals: 3 diversity: 0.5 Anthropic 自己做了验证实验,在 16 个前沿模型上测了 4 个对齐相关的行为,每个行为跑 100 次、重复 3 遍。 判断模型给出的评分跟人类标注的 Spearman 相关系数最高到了 0.86,说明自动评估的可靠性还行。 这套框架把行为评估自动化了,从定义行为到生成测试用例、执行评估、给出判断,全程不需要人工介入。

    33910编辑于 2025-12-30
  • 250个LLM 评估基准大盘点!从推理到多模态,一文看懂LLM考试大纲

    编程评估没标准?上线才发现安全不达标?核心痛点在于:缺乏系统化的评估标准。 今天,给大家分享一个宝藏资源:250个LLM评估基准与数据集,覆盖推理、编程、对话、Agent工具调用等多个维度,支持标签化分类筛选,帮你快速摸清模型底细,拒绝盲目选型。 多模态类:针对全能型LLM设计,测试模型处理图像、视频、音频、结构化数据等多种信息类型的能力。比如让模型根据图片内容生成描述,或结合音频和文本做总结,都可以通过这类基准来评估。 如果你想了解行业最新的评估方法,或者测试最新发布的模型,直接筛选New标签就能精准定位。现在LLM技术更新太快了,想精准评估模型性能、选对适配业务的工具,需要一套完整的数据集。 这个包含250个基准测试的数据集,相当于给大家提供了一套LLM能力体检手册,不管是选模型、做研究,还是优化现有系统,都能帮你找到精准的评估依据。

    37610编辑于 2025-12-30
  • LLM 系列(二十):解读 DeepSeek-V4

    一、核心技术路径:MoE、CSA/HCA 与 Context Caching 首先看架构本身,DeepSeek-V4-Pro 采用 1.6T 总参数、49B 激活参数,V4-Flash 采用 284B 一方面参数确实相较于之前的 671B 来看更大了,这是变化的,另一个方面 V4 继续沿用 MoE 的路线,这是不没变的,在有线算力的成本下,DeepSeek-V4 还是在成本控制方面保持了克制。 决定 V4 技术成色的,是对长上下文 attention 的重构;百万上下文下,传统全量 attention 的计算量和 KV Cache 开销都会急剧上升, V4 引入了 CSA 和 HCA 两套机制 它同时支持 OpenAI Format 和 Anthropic Format,这意味着它既能接入传统 LLM 应用生态,也能进入以 Agent 为中心的工具链生态。 DeepSeek-V4 支持这一格式后,开发者通常只需要替换 base_url、api_key 和模型名,就能把已有系统平滑切换到 V4 上。

    79020编辑于 2026-04-27
  • 从0开始训练自己的LLM4

    前面我们介绍了构建LLM的完整流程,现在我们将所有流程串接起来,并开始训练整个模型。 # In practice, this is not a problem since the LLM (chapters 4-7) ensures that inputs

    14910编辑于 2026-03-18
  • 来自专栏机器学习炼丹术

    LLM6 | The AI Revolution in Medicine:GPT 4

    然后,这一章转向了一个更大的问题:我们如何评估GPT-4在医疗情况下的有用性,特别是在涉及数学、统计和逻辑推理的应用中? 评估GPT-4在数学和逻辑方面的困难是,有些问题的答案可能在正确和错误之间有一个灰色区域,有点像数学课上的“部分学分”的主观概念。 <<大型语言模型LLM与Visual>> LLM入门1 | 初见LLaMA | MetaAI LLM入门2 | 羊驼AIpaca | Stanford LLM入门3 | 基于cpu和hugging face 的LLaMA部署 LLM入门4 | Segment Anything | MetaAI LLM入门5 | SAM代码从入门到出门 | MetaAI <<其他>> 医学图像重建 | Radon变换,滤波反投影算法 >> 图片质量评估论文 | 无监督SER-FIQ | CVPR2020 图像质量评估论文 | Deep-IQA | IEEETIP2018 图像质量评估论文 | rank-IQA | ICCV2017

    43710编辑于 2023-09-01
  • 来自专栏时空探索之旅

    ICML 2026 | LLM×Graph论文总结【Graph4LLM,Graph4Agent,智能体记忆(Memory),AgenticRL,RAG】

    本文总结了2026 ICML上有关LLM × Graph相关论文。如有疏漏,欢迎大家补充。 注:笔者将分为上下2篇推文来总结,本文主要涉及针对图任务本身的的论文。 本文Graph的Topic:Graph4LLM,Graph4Agent,智能体记忆(Memory),AgenticRL,RAG等。 1. Beyond Trajectory-Level Attribution: Graph-Based Credit Assignment for Agentic Reinforcement Learning4. :Xin Cheng ⋅ Shuo He ⋅ Lang Feng ⋅ Haiyang Xu ⋅ Ming Yan ⋅ Lei Feng ⋅ Bo An 关键词: GraphGPO,AgenticRL 4 幻觉评估,多语言知识图谱 7 HugRAG: Hierarchical Causal Knowledge Graph Design for RAG 链接:https://icml.cc/virtual/

    73710编辑于 2026-05-20
  • 来自专栏OpenMMLab

    LLM推理后端性能大比拼,来自BentoML团队的深度评估

    Token Generation Rate:token 生成率,评估模型在 decoding 阶段每秒生成的 token 数量,以 token 每秒为单位。 4. 概念 Llama 3 Llama 3 是 Llama LLM 系列的最新版本,有多种配置可供选择。我们在基准测试中使用了以下模型大小。 例如,对于 MLC-LLM,我们使用 q4f16_1 量化方案。 基准测试客户端 为了准确评估不同 LLM 后端的性能,我们创建了一个自定义基准测试脚本。该脚本通过改变用户负载并在不同并发级别下发送生成请求来模拟真实场景。 我们测试了 10、50 和 100 个并发用户,以评估系统在不同负载下的表现。 每次压力测试都持续了5分钟,在此期间,我们每5秒收集一次推理指标。

    4.2K20编辑于 2024-06-17
领券