1.测试指标体系(测什么) 大模型评测的指标体系按照“场景-能力-任务-指标”四个维度构建。 2.测试方法(如何测) 大模型基准测试流程包括:需求分析、环境准备、数据构建、测试执行、结果评估、结果展示这几个步骤。 近年大模型基准测试发展迅猛,各大机构纷纷新增数据集,尤其是2023年,一年就新增了209个评测数据集。 关于大模型评测,国家也发布了标准GB/T45288.2—2025 人工智能 大模型第2部分:评测指标与方法,读者可以参考。 另外,中文大模型谁家最强呢? 参考文档: 1.Evaluating Large Language Models: A Comprehensive Survey(发送“大模型测试”可得) 2.中国信通院《大模型基准测试体系研究报告2024
AI评测非单一分数比拼,而是多维度、多方法的系统工程。其核心框架可拆解为基础维度、主流基准与关键方法,共同构成模型能力的“CT扫描”系统。 一、评测的三大基础维度参照源:分参考式(有标准答案,如准确率、BLEU)与非参考式(依赖判官或规则,如人类偏好、单元测试)。交互模式:覆盖静态单轮问答、多轮对话、工具调用、长上下文处理等全场景。 三、关键方法与实践要点人类偏好评测:Chatbot Arena的双盲成对比较+Elo评分(R’=R+K(S-E))为黄金标准,需规避位置/冗长偏见。 AI辅助评测:GPT-4等LLM-as-a-Judge与人类一致性达80%+,但需校准冗长偏好与自偏误。 AI评测的核心是“场景匹配”:通用能力看MMLU+人类偏好,代码能力信SWE-bench+pass@k,安全侧重拒答率与校准度。唯有多维指标联动,才能勾勒模型真实能力画像。
谷歌也迅速上线了基于自家大语言模型PaLM和PaLM-2的Bard,与OpenAI和微软展开正面竞争。 为了准确和公正地评估大模型的能力,国内外机构在大模型评测上开展了大量的尝试和探索。斯坦福大学提出了较为系统的评测框架HELM,从准确性,安全性,鲁棒性和公平性等维度开展模型评测。 由于大语言模型和多模态模型的能力强大,应用场景广泛,目前学术界和工业界的评测方案往往只关注模型的部分能力维度,缺少系统化的能力维度框架与评测方案。 OpenCompass提供分布式自动化的评测系统,支持对(语言/多模态)大模型开展全面系统的能力评估。 OpenCompass介绍 评测对象 本算法库的主要评测对象为语言大模型与多模态大模型。 我们以语言大模型为例介绍评测的具体模型类型。
开源大模型评测排行榜 https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard 其数据是由其后端lm-evaluation-harness 这些问题通常需要 2-8 步才能解决,有效评估了数学与逻辑能力。 CMMLU 是一个包含了 67 个主题的中文评测数据集,涉及自然科学、社会科学、工程、人文、以及常识等,有效地评估了大模型在中文知识储备和语言理解上的能力。 SuperCLUE https://github.com/CLUEbenchmark/SuperCLUE SuperCLUE是一个综合性大模型评测基准,本次评测主要聚焦于大模型的四个能力象限,包括语言理解与生成 同时评测分为两部分,自动化评测的客观题部分和依赖于专家打分的主观题部分,这两部分结果构成了最终的分数,您可以通过构建示例中的脚本快速对一个已部署的大模型进行评测,或者向我们提交您需要评测的模型的主观题预测结果
本文回顾了自然语言处理中的评测基准与指标,将大语言模型评估分为经典和新型评测范式,分析了现有评测的不足。接着介绍了全面的大语言模型评测思想、相关指标和方法,并总结了当前广受关注的大语言模型评测新方向。 为了全面评估大语言模型,可以将多个数据集聚合和重新组织,形成一个更通用的评测基准。本章针对大语言模型的评估对评测范式进行了分类,将其分为经典评测范式和新型评测范式。表1列出了一些典型的评测基准。 因此,提高评估结果的解释性对于提高模型性能和优化至关重要。 2 全面的大语言模型评测 HELM是Liang等人提出的一种全面评估大语言模型的方法,适用于多个场景、任务和评估指标。 BERTScore的计算结构如图2所示。 图2 BERTScore的计算结构 3.1.2 BERTforMTE BERT for MTE是一种基于BERT的评测方法,通过句子对编码的方式同时编码待测文本和参考文本,并使用基于MLP的回归模型得到最后的指标分数
在人工智能领域,大模型的评测不仅是衡量其性能的重要手段,也是推动技术进步的关键因素。本文将深入探讨大模型评测的重要性、面临的挑战,以及司南评测体系2.0的实现方法和特点。 一、大模型评测的重要性大模型评测对于确保模型的可靠性、安全性和有效性至关重要。它有助于:识别模型的局限性:通过评测可以发现模型在特定任务或数据集上的不足。 二、评测所面临的挑战大模型评测面临诸多挑战,包括但不限于:垂直领域的专注:需要针对特定领域定制评测标准和数据集。时效性:技术发展迅速,评测体系需要不断更新以适应新的模型和算法。 数据集格式:确保数据集的格式符合评测工具的要求。结语大模型评测是推动人工智能技术发展的重要环节。 司南评测体系2.0和Open Pass评测工具为我们提供了强大的评测手段,帮助我们更好地理解和改进大模型。随着技术的不断进步,我们期待未来能有更多的创新和突破。
72B, LLaMA3 70B等先进大模型的有力竞争对手。 在性能上,它与GPT-4-Turbo、文心4.0等闭源模型在中文综合能力评测中处于同一梯队,英文综合能力与开源模型LLaMA3-70B处于同一梯队。 中文能力 中文综合能力(AlignBench)开源模型中最强,与 GPT-4-Turbo,文心 4.0 等闭源模型在评测中处于同一梯队。 从官方把coder放在突出位置,就可以看出团队对自家大模型编程能力的自信。 在当前主流的大模型服务中,我认为要具备以下几点才能称得上好模型:1. 开源,2. 价格低,3. 对中文的理解能力强,4. 在架构上支持更大的上下文窗口和更牛的性能。
因此对大模型能力及其不足之处形成更深入的认识和理解,预知并防范大模型带来的安全挑战和风险,需要针对大模型开展多方位的评测,一般也叫大模型基准测试。 对大模型进行全方位评测面临诸多挑战,由于大模型的通用性强,能够胜任多种任务,因此大模型的全方位评测涉及的范围广、工作量大、评测成本高昂;其次,由于数据标注工作量大,许多维度的评测基准仍然有待构建;再次, 04 评测策略 大模型评测的目的不同,有不同评测策略,如大模型研发人员关心的是衡量模型的性能、精选和优化模型,以加快AI创新和实践,同时确保模型的安全性和可靠性,防范潜在风险。 05 大模型分类 随着人工智能领域的快速发展,新的模型和分类方式也在不断出现,一个大模型可以同时属于多个分类。不同分类评测方法可能不同,因此不同大模型之间评测的方式也会有差异。 垂直大模型 L2:针对特定任务或场景,利用任务相关数据进行预训练或微调,提高在该任务上的性能和效果。
13.4 大语言模型文生图能力评测 大模型的文生图能力,不仅推动了创意产业的创新,还在教育、医疗、娱乐等多个领域展现出广泛的应用前景。 通过将自然语言处理与计算机视觉相结合,这些模型能够理解文本内容并生成相应的图像,极大地丰富了人机交互的方式。 本节将深入探讨大模型在文生图能力方面的评测方法与标准。 图13-29 SuperCLUE-Image评测基准 对于图像质量的评测,分别考虑了构图、光彩、细节处理、用户体验、分辨率、锐度和结构合理性,其中: 构图:评价图像的整体布局和视觉吸引力 光彩:评价图像色彩的对比度和和谐程度 复杂生成:评价大模型根据复杂提示词生成图片的能力 最后是在效率方面对大模型进行评估,分别从生成速度和资源使用进行评价,其中: 生成速度:评估大模型生成图片的速度 资源使用:评估大模型生成图片时使用的资源 LLMScore 利用大语言模型分析图像与提示的匹配程度,适合自动化评估,然而其准确性可能受训练数据的影响。
然而大模型评测本身也是一项复杂的系统性工程,各类评测榜单的具体标准也是一团迷雾,让人真假莫辩。 OpenCompass 是一个开源开放的大模型评测平台,构建了包含学科、语言、知识、理解、推理五大维度的通用能力评测体系,支持了超过 50 个评测数据集和 30 万道评测题目,支持零样本、小样本及思维链评测 平台提供大模型榜单,开源评测工具,自建评测集等多种不同的开源项目,旨在为社区提供丰富强大的一站式评测平台。 例如这是我们预设好的 GPT-4、ChatGPT、StableBeluga2 和 LLaMA-2-70B 四个模型各个维度的能力,体验网址为:https://opencompass.org.cn/model-compare /GPT-4,ChatGPT,StableBeluga2,LLaMA-2-70B 如果需要对比其他模型,只需要在模型对比页面,移除不需要的模型,添加需要的模型即可,操作如下图所示: 不止 LLM,
前言 受中电信 AI 科技有限公司的邀请,为他们近期开源的TeleChat-7B大模型做一个评测。 最后,我们可以从TeleChat-7B开源项目在文创方面展示的例子看到它具有不错的文创能力和一定的代码能力,可以作为开发者来使用的一个不错的基础大模型。 而对于上面的第一个问题,也出现了经典的大模型幻觉问题。 问题生成 用户: 我是一名初中语文老师,下节课要教学生《桃花源记》,帮我准备5个课堂提问的问题。 TeleChat-7B: 1. 但模型本身也存在大模型幻觉,指令跟随能力一般以及回答有概率重复的问题。 此外,TeleChat-7B在开源方面是相当有诚意的,将清洗之后的训练数据进行开源是在之前的大模型开源中比较难见到的,如果想了解更多的数据清洗细节以及模型训练的细节可以阅读官方放出的技术报告:https
引言 在大语言模型(LLM)技术飞速发展的今天,如何科学、全面地评估和评测这些模型的能力已成为学术界和工业界共同关注的核心问题。 2025年,大模型生态系统呈现出百花齐放的态势,从参数规模、架构设计到应用场景都出现了多样化的发展路径。在这种背景下,单一的性能指标或评测方法已经无法满足对大模型进行全面评估的需求。 本文将深入探讨大模型评估与评测的科学方法论,从评估框架设计、基准测试选择、多维度指标体系构建到实际应用场景的评估实践,为读者提供一套完整的大模型评估指南。 SuperCLUE 评估体系:中文大模型综合测评体系,包含多个子基准 评测维度:覆盖语言理解、生成、推理、知识等多个维度 特色模块:包含Agent能力评测、多轮对话评测等特色模块 定期发布:按月发布中文大模型评测报告 社会影响评估 社会价值评估:评估模型对社会的积极价值和贡献 伦理影响评估:系统评估模型的伦理影响和风险 公平性监测:研究模型公平性的持续监测方法 可持续发展评估:评估模型技术的可持续发展性 结论 大模型评估与评测是一个复杂而系统的工程
机器之心编辑部 2024 年 5 月 17 日,智源研究院举办大模型评测发布会,正式推出科学、权威、公正、开放的智源评测体系,发布并解读国内外 140 余个开源和商业闭源的语言及多模态大模型全方位能力评测结果 语言模型主观评测结果显示,在中文语境下,字节跳动豆包 Skylark2、OpenAI GPT-4 位居第一、第二,国产大模型更懂中国用户。 多模态生成模型文生视频评测结果显示,OpenAI Sora、Runway、爱诗科技 PixVerse、Pika、腾讯 VideoCrafter-V2 位列前五。 科学权威公正开放的智源评测体系 依托科技部 “人工智能基础模型支撑平台与评测技术” 和工信部 “大模型公共服务平台” 项目,智源研究院与 10 余家高校和机构联合开展大模型评测方法与工具研发。 CLCC、面向复杂算法代码生成任务的评测集 TACO、文生图主观评测集 Image-gen、多语言文生图质量评测数据集 MG18、文生视频模型主观评测集 CUC T2V prompts。
诸如文心一言、通义千问等模型在 MBPP 基础题库中通过率可达 90% 以上,但移植至 Codeforces Div.2 C 级题目时,通过率却不足 15%,远低于人类选手平均 70% 的水平。 基于此数据集,我们对全球 18 个主流大模型的算法编程能力进行了系统评测并量化得分,详细评分榜单如下所示,可以看到全球顶尖大模型距离以往所宣称的编程能力还存在很大差距,哪怕是最高分的 o4-mini-high 实验证明: 即使模拟少量题目 “泄漏” 到模型的训练数据中,OIBench 的得分提升也极为有限,风险分数几乎为零,表明其对数据污染具有很强的鲁棒性。2. OIBench 评测结果与发现参评模型与评测方式OIBench 对 18 个主流大模型(包括 14 个指令微调模型和 4 个基础模型)进行了 zero-shot 评测,涵盖 C++、Python、Java AGI-Eval 大模型评测社区将持续致力于高质量评估研究,推动大模型技术向更广阔的人机协作未来发展。关注我们,检索更多评测内容!— 完 —
OpenCompass介绍 上海人工智能实验室科学家团队正式发布了大模型开源开放评测体系 “司南” (OpenCompass2.0),用于为大语言模型、多模态模型等提供一站式评测服务。 其主要特点如下: 开源可复现:提供公平、公开、可复现的大模型评测方案 全面的能力维度:五大维度设计,提供 70+ 个数据集约 40 万题的的模型评测方案,全面评估模型能力 丰富的模型支持:已支持 20+ 评测对象 本算法库的主要评测对象为语言大模型与多模态大模型。我们以语言大模型为例介绍评测的具体模型类型。 工具架构 模型层:大模型评测所涉及的主要模型种类,OpenCompass 以基座模型和对话模型作为重点评测对象。 《书生·浦语大模型实战营》第1课 学习笔记:书生·浦语大模型全链路开源体系 《书生·浦语大模型实战营》第2课 学习笔记:轻松玩转书生·浦语大模型趣味 Demo 《书生·浦语大模型实战营》第3课 学习笔记
为此,我们开发了finLLM-Eval,这是一套专为大模型金融场景设计的幻觉评测方案,在行业内首次提出无 GroundTruth 下金融数据准确性的评测方法,填补了大模型金融领域评测的空白,旨在推动AI 面向大模型生成能力评测 事实准确性评测:检测模型输出是否与客观事实一致,避免无中生有、张冠李戴等问题。 逻辑一致性评测:评估模型分析过程中的前提、论证和结论是否符合金融市场规律与投资理论,杜绝逻辑谬误。 2. 本方案提供大模型金融场景逻辑一致性、事实准确性和金融数据准确性的评测方法。在行业内首次提出无 GroundTruth 下金融数据准确性评测方案,强化了金融场景幻觉评测能力。 2、金融数据准确性评测 当前,行业内在设计评测集时通常采用预设“标准答案”的方式,即通过评测模型将模型回答与标准答案进行比对。
Threat Intelligence, CTI)在现代网络安全领域日益重要,为了提高安全人员安全事件分析能力,文章提出一个用于基准测试、引导和改进LLMs(Large Language Models, 大语言模型 2.2 模型微调 文章选择了在中英文能力上表现杰出的Llama-2和Qwen-1.5作为模型基座,并针对20B以下的量级进行微调。 同时随机选择{1k,2k,10k,50k,...,ALL }的样本进行训练,分析数据集量级对模型效果的影响,对训练结果逐一评分。 同时发现,SEVENLLM-Instruct训练后的模型即使在较小的参数量级下也可以具备强于较大量级通用大模型的能力,可用于针对该任务的轻量化部署和快速应用。 如下表展示了基于GPT-4的评分结果,文章的工作对大模型在网络安全事件分析和应用领域的研究提供一定参考。
前言 2月份的时候评测过TeleChat-7B大模型,见星辰AI大模型TeleChat-7B评测。 最近中电信 AI 科技有限公司针对TeleChat-7B进行了性能升级,并开源了一个更大的模型TeleChat-12B,受邀对这个大模型进行新的评测。 loss,以及在评测集上的生成效果,动态提升较难学习的数据集权重,保证模型在各个数据集上都有较佳的拟合效果。 0x2. 作文生成 (上面2张图是一个prompt) 上面写了2篇作文,看起来12B的模型也是比7B的表现更好,重要的是对于字数的判断12B模型更加准确,而7B模型似乎忽略了prompt里面字数限制的指令。
同时,通过建设安全大模型评测基准,为安全大模型研发提供公平、公正、客观、全面的评测能力,推动安全大模型建设。 SecBench 网络安全大模型评测整体设计架构 图 2. GPT-4 在能力维度、语言维度以及安全领域能力的评估结果 图 3. 因此,构建网络安全大模型评测基准的首要目标是积累行业内独有的网络安全评测数据集,覆盖多语言、多题型、多能力、多领域,以全面地评测大模型安全能力。二是搭建方便快捷的网络安全大模型评测框架。 因此,需要搭建方便快捷的网络安全大模型评测框架,以支持不同模型、不同数据、不同评测指标的灵活接入、快速评测。三是输出全面、清晰的评测结果。网络安全大模型研发的不同阶段其实对评测的需求不同。 SecBench 网络安全大模型评测榜单 随着大模型在网络安全领域的落地应用加速,网络安全大模型的评测变得尤为关键。
TLDR: 本文介绍了一个开源大模型推荐评测平台OpenP5,旨在促进用于研究的基于大模型生成式推荐系统的开发、训练和评估。 上述局限性可能会阻碍基于大模型推荐研究的探索。 本文提出了一个开源平台OpenP5,旨在促进用于研究目的的基于大模型的生成式推荐系统的开发、训练和评估。该平台在10个广泛认可的公共数据集上进行实验。 另外,OpenP5使用编码器-解码器大模型(如T5)和仅解码器的大模型(如Llama-2)实现,满足了两个基本的推荐任务:序列推荐和直接推荐。下图展示了不同推荐任务所对应的提示的不同。 该平台建立在Transformers库之上,便于为用户定制基于大模型的推荐模型。 下表展示了OpenP5相比于基线方法的优越性,并探索了在不同大模型基础上的实验效果。