近几年,ChatGPT、GPT4、LLaMA、Claude3、DeepSeek、字节豆包、百度文心一言、阿里通义千问、腾讯混元、智谱清言、华为盘古等国内外大模型产品不断推出,这么多模型表现如何? 1.测试指标体系(测什么) 大模型评测的指标体系按照“场景-能力-任务-指标”四个维度构建。 (3)数据构建:人工构建、题目自动化填充、智能算法生成三种方式定期补充或更新评测数据 (4)测试执行:将测试数据输入被测模型并观测模型输出结果 (5)结果评估:采用自动化或者人工的方式进行结果评估。 近年大模型基准测试发展迅猛,各大机构纷纷新增数据集,尤其是2023年,一年就新增了209个评测数据集。 关于大模型评测,国家也发布了标准GB/T45288.2—2025 人工智能 大模型第2部分:评测指标与方法,读者可以参考。 另外,中文大模型谁家最强呢?
AI评测非单一分数比拼,而是多维度、多方法的系统工程。其核心框架可拆解为基础维度、主流基准与关键方法,共同构成模型能力的“CT扫描”系统。 一、评测的三大基础维度参照源:分参考式(有标准答案,如准确率、BLEU)与非参考式(依赖判官或规则,如人类偏好、单元测试)。交互模式:覆盖静态单轮问答、多轮对话、工具调用、长上下文处理等全场景。 三、关键方法与实践要点人类偏好评测:Chatbot Arena的双盲成对比较+Elo评分(R’=R+K(S-E))为黄金标准,需规避位置/冗长偏见。 AI辅助评测:GPT-4等LLM-as-a-Judge与人类一致性达80%+,但需校准冗长偏好与自偏误。 AI评测的核心是“场景匹配”:通用能力看MMLU+人类偏好,代码能力信SWE-bench+pass@k,安全侧重拒答率与校准度。唯有多维指标联动,才能勾勒模型真实能力画像。
在2023年4月,OpenAI发布了新升级的GPT-4模型,通过引入多模态能力,进一步拓展了大语言模型的能力边界,朝着通用人工智能更进一步。 为了准确和公正地评估大模型的能力,国内外机构在大模型评测上开展了大量的尝试和探索。斯坦福大学提出了较为系统的评测框架HELM,从准确性,安全性,鲁棒性和公平性等维度开展模型评测。 由于大语言模型和多模态模型的能力强大,应用场景广泛,目前学术界和工业界的评测方案往往只关注模型的部分能力维度,缺少系统化的能力维度框架与评测方案。 OpenCompass提供分布式自动化的评测系统,支持对(语言/多模态)大模型开展全面系统的能力评估。 OpenCompass介绍 评测对象 本算法库的主要评测对象为语言大模型与多模态大模型。 我们以语言大模型为例介绍评测的具体模型类型。
这些评测基准有助于更全面地评估大语言模型的性能 1.2.2 模型评测实例———GPT-4的评测 OpenAI使用一系列评测基准评估GPT-4的表现,包括为人类设计的模拟考试和传统自然语言处理任务上的评测基准 传统自然语言处理任务上的评测基准包括MMLU、HellaSwag4、HumanEval1和DROP,分别考察大语言模型将知识运用于问题解决的能力、常识性推理能力、代码生成能力和阅读理解与数值推理能力。 微软研究人员以人类级别认知能力与现实世界紧密联系为原则,提出了以人为中心的评测基准AGIEval,并在其上评测了GPT-4和ChatGPT等大语言模型的表现。 结果显示,GPT-4在LSAT、SAT和数学竞赛中超越人类平均表现,SAT数学考试准确率达95%。然而,大语言模型在需要复杂推理或特定领域知识的任务上表现不佳。 此外,与GPT-3系列模型相比,GPT-4等大语言模型的零样本学习能力逐渐接近小样本学习能力。
开源大模型评测排行榜 https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard 其数据是由其后端lm-evaluation-harness CMMLU 是一个包含了 67 个主题的中文评测数据集,涉及自然科学、社会科学、工程、人文、以及常识等,有效地评估了大模型在中文知识储备和语言理解上的能力。 SuperCLUE https://github.com/CLUEbenchmark/SuperCLUE SuperCLUE是一个综合性大模型评测基准,本次评测主要聚焦于大模型的四个能力象限,包括语言理解与生成 GAOKAO-Bench https://github.com/OpenLMLab/GAOKAO-Bench Gaokao 是一个中国高考题目的数据集,旨在直观且高效地测评大模型语言理解能力、逻辑推理能力的测评框架 同时评测分为两部分,自动化评测的客观题部分和依赖于专家打分的主观题部分,这两部分结果构成了最终的分数,您可以通过构建示例中的脚本快速对一个已部署的大模型进行评测,或者向我们提交您需要评测的模型的主观题预测结果
在人工智能领域,大模型的评测不仅是衡量其性能的重要手段,也是推动技术进步的关键因素。本文将深入探讨大模型评测的重要性、面临的挑战,以及司南评测体系2.0的实现方法和特点。 一、大模型评测的重要性大模型评测对于确保模型的可靠性、安全性和有效性至关重要。它有助于:识别模型的局限性:通过评测可以发现模型在特定任务或数据集上的不足。 二、评测所面临的挑战大模型评测面临诸多挑战,包括但不限于:垂直领域的专注:需要针对特定领域定制评测标准和数据集。时效性:技术发展迅速,评测体系需要不断更新以适应新的模型和算法。 数据集格式:确保数据集的格式符合评测工具的要求。结语大模型评测是推动人工智能技术发展的重要环节。 司南评测体系2.0和Open Pass评测工具为我们提供了强大的评测手段,帮助我们更好地理解和改进大模型。随着技术的不断进步,我们期待未来能有更多的创新和突破。
其中,斯坦福大学研发的大语言模型评测 AlpacaEval Leaderboard 备受瞩目。 在实打实的“秀肌肉”比拼中,Yi-34B-Chat以94.08%的胜率,在 Alpaca 经认证的模型类别中,成为世界范围内仅次于GPT-4 英语能力的大语言模型,是经由Alpaca官方认证为数不多的开源模型 在五花八门的大模型评测中,伯克利LMSYS ORG排行榜采用了一个最为接近用户体感的 “聊天机器人竞技场” 特殊测评模式,让众多大语言模型在评测平台随机进行一对一 battle,通过众筹真实用户来进行线上实时盲测和匿名投票 根据11月底发布的《SuperCLUE中文大模型基准评测报告 2023》,11月下旬首度发布的 Yi-34B Chat在多项基准评测中的 “SuperCLUE 大模型对战胜率” 这项关键指标上,Yi-34B-Chat 中文SuperCLUE排行榜(发布于2023年11月28日) Yi-34B-Chat 微调模型还为开发者提供了 4bit/8bit 量化版模型;Yi-34B-Chat 4bit 量化版模型可以直接在消费级显卡
因此对大模型能力及其不足之处形成更深入的认识和理解,预知并防范大模型带来的安全挑战和风险,需要针对大模型开展多方位的评测,一般也叫大模型基准测试。 对大模型进行全方位评测面临诸多挑战,由于大模型的通用性强,能够胜任多种任务,因此大模型的全方位评测涉及的范围广、工作量大、评测成本高昂;其次,由于数据标注工作量大,许多维度的评测基准仍然有待构建;再次, 例如:GPT-4(由OpenAI开发)、DALL-E(由OpenAI开发)。 例如:FSD(特斯拉自动驾驶技术) 、Apollo(百度开发,L4级自动驾驶的大模型) 按规模划分 小型模型:参数数量较少,适用于资源受限的环境。 中型模型:参数数量适中,平衡了性能和资源消耗。 例如:GPT-4(由OpenAI开发) 06 大模型基准评测体系 由于各种大模型的差异及评测目的的不同,评测方式同样也多种多样,如果总结成体系,能更好指导评测执行。
13.4 大语言模型文生图能力评测 大模型的文生图能力,不仅推动了创意产业的创新,还在教育、医疗、娱乐等多个领域展现出广泛的应用前景。 通过将自然语言处理与计算机视觉相结合,这些模型能够理解文本内容并生成相应的图像,极大地丰富了人机交互的方式。 本节将深入探讨大模型在文生图能力方面的评测方法与标准。 图13-29 SuperCLUE-Image评测基准 对于图像质量的评测,分别考虑了构图、光彩、细节处理、用户体验、分辨率、锐度和结构合理性,其中: 构图:评价图像的整体布局和视觉吸引力 光彩:评价图像色彩的对比度和和谐程度 复杂生成:评价大模型根据复杂提示词生成图片的能力 最后是在效率方面对大模型进行评估,分别从生成速度和资源使用进行评价,其中: 生成速度:评估大模型生成图片的速度 资源使用:评估大模型生成图片时使用的资源 Text2Video:https://github.com/Picsart-AI-Research/Text2Video-Zero [3] Sora: https://openai.com/index/sora/ [4]
然而大模型评测本身也是一项复杂的系统性工程,各类评测榜单的具体标准也是一团迷雾,让人真假莫辩。 OpenCompass 是一个开源开放的大模型评测平台,构建了包含学科、语言、知识、理解、推理五大维度的通用能力评测体系,支持了超过 50 个评测数据集和 30 万道评测题目,支持零样本、小样本及思维链评测 OpenCompass 支持大部分主流 HuggingFaces 上的大语言模型的评测,只需几行简单配置,便可轻松开展模型评测。 平台提供大模型榜单,开源评测工具,自建评测集等多种不同的开源项目,旨在为社区提供丰富强大的一站式评测平台。 /GPT-4,ChatGPT,StableBeluga2,LLaMA-2-70B 如果需要对比其他模型,只需要在模型对比页面,移除不需要的模型,添加需要的模型即可,操作如下图所示: 不止 LLM,
前言 受中电信 AI 科技有限公司的邀请,为他们近期开源的TeleChat-7B大模型做一个评测。 最后,我们可以从TeleChat-7B开源项目在文创方面展示的例子看到它具有不错的文创能力和一定的代码能力,可以作为开发者来使用的一个不错的基础大模型。 而对于上面的第一个问题,也出现了经典的大模型幻觉问题。 问题生成 用户: 我是一名初中语文老师,下节课要教学生《桃花源记》,帮我准备5个课堂提问的问题。 TeleChat-7B: 1. 但模型本身也存在大模型幻觉,指令跟随能力一般以及回答有概率重复的问题。 此外,TeleChat-7B在开源方面是相当有诚意的,将清洗之后的训练数据进行开源是在之前的大模型开源中比较难见到的,如果想了解更多的数据清洗细节以及模型训练的细节可以阅读官方放出的技术报告:https
引言 在大语言模型(LLM)技术飞速发展的今天,如何科学、全面地评估和评测这些模型的能力已成为学术界和工业界共同关注的核心问题。 2025年,大模型生态系统呈现出百花齐放的态势,从参数规模、架构设计到应用场景都出现了多样化的发展路径。在这种背景下,单一的性能指标或评测方法已经无法满足对大模型进行全面评估的需求。 本文将深入探讨大模型评估与评测的科学方法论,从评估框架设计、基准测试选择、多维度指标体系构建到实际应用场景的评估实践,为读者提供一套完整的大模型评估指南。 SuperCLUE 评估体系:中文大模型综合测评体系,包含多个子基准 评测维度:覆盖语言理解、生成、推理、知识等多个维度 特色模块:包含Agent能力评测、多轮对话评测等特色模块 定期发布:按月发布中文大模型评测报告 社会影响评估 社会价值评估:评估模型对社会的积极价值和贡献 伦理影响评估:系统评估模型的伦理影响和风险 公平性监测:研究模型公平性的持续监测方法 可持续发展评估:评估模型技术的可持续发展性 结论 大模型评估与评测是一个复杂而系统的工程
机器之心编辑部 2024 年 5 月 17 日,智源研究院举办大模型评测发布会,正式推出科学、权威、公正、开放的智源评测体系,发布并解读国内外 140 余个开源和商业闭源的语言及多模态大模型全方位能力评测结果 语言模型主观评测结果显示,在中文语境下,字节跳动豆包 Skylark2、OpenAI GPT-4 位居第一、第二,国产大模型更懂中国用户。 在语言模型客观评测中,OpenAI GPT-4、百川智能 Baichuan3 位列第一、第二。百度文心一言 4.0、智谱华章 GLM-4 和月之暗面 Kimi 均进入语言模型主客观评测前五。 多模态理解模型客观评测结果显示,图文问答方面,阿里巴巴通义 Qwen-vl-max 与上海人工智能实验室 InternVL-Chat-V1.5 先后领先于 OpenAI GPT-4,LLaVA-Next-Yi 科学权威公正开放的智源评测体系 依托科技部 “人工智能基础模型支撑平台与评测技术” 和工信部 “大模型公共服务平台” 项目,智源研究院与 10 余家高校和机构联合开展大模型评测方法与工具研发。
机器之心专栏 作者:钟格非 (港中文深圳本科生) 港中文(深圳)“凤凰 “多语言大模型,中文效果逼近文心一言,多种语言开源 SOTA;英文版”Chimera” 逼近 ChatGPT(GPT4 评测认为其有 近期备受关注的是来自香港中文大学(深圳)和深圳市大数据研究院的王本友教授团队开发的 Phoenix(凤凰) 和 Chimera 等开源大语言模型,其中文效果接近百度文心一言,GPT-4 评测达到了 97% 实验结果 中文 团队成员采用与 Vicuna 一致的评测方式,即使用 GPT-4 作为评估模型,对凤凰模型在多种语言中的性能表现进行了自动评估。 人工评测 虽然上述的自动评测方法源自 Vicuna 的评测方式,即用 GPT-4 作为评估模型进行评测,但是使用的评测数据无论是类型还是数量都是偏少的。 出于对评估可靠性的进一步考虑,香港中文大学(深圳)的团队采用人工评测的方式来评估中文大模型。人工评测的结果与 GPT-4 在中文大模型评测的结果高度一致。
基于此数据集,我们对全球 18 个主流大模型的算法编程能力进行了系统评测并量化得分,详细评分榜单如下所示,可以看到全球顶尖大模型距离以往所宣称的编程能力还存在很大差距,哪怕是最高分的 o4-mini-high 同时,为避免主观偏差,我们引入了自动化验证机制 —— 只有当 GPT-4o、Qwen2.5-Coder-32B、Doubao-32k-pro、Llama3.1-405B 这几个标杆大模型中 “最多只有一个模型能解出 由于大模型的预训练和微调数据往往会爬取大量互联网内容,容易出现模型在训练阶段就见过类似题目的情况,从而导致评测分数虚高,无法真实反映模型实际能力。 OIBench 评测结果与发现参评模型与评测方式OIBench 对 18 个主流大模型(包括 14 个指令微调模型和 4 个基础模型)进行了 zero-shot 评测,涵盖 C++、Python、Java AGI-Eval 大模型评测社区将持续致力于高质量评估研究,推动大模型技术向更广阔的人机协作未来发展。关注我们,检索更多评测内容!— 完 —
作为一个语言模型集成框架,LangChain 的用例与一般语言模型的用例有很大的重叠。 重叠范围包括文档分析和总结摘要, 代码分析和聊天机器人。 Langchain架构 LangChain工具 组件:大模型包装器、聊天模型包装器、数据增强工具和接口链: 提供了标准接口,和数据平台和实际应用工具紧密集成 LangChain六大模块 模块 核心作用 Agent作为高级模块,可调用其他所有模块功能 大模型接入 接入示例 云服务和私有化大模型优劣对比 维度 开发成本 算力成本 运维成本 数据安全 云厂商大模型 较低,开箱即用 算力资源充足,大模型性能好 &吞吐量较高 较低,提供云平台监控 安全性低 私有化大模型 较高,自建大模型网关、服务鉴权、可用性等 算力硬件投入成本高,大模型性能较差低&吞吐量较低 较高,需要专业运维团队介入 安全性高,保密性强 小结: - 研发&测试环境:为了方便部署和测试,使用云服务 - 大客户生产环境:安全审核严格,大多数采用自建大模型的方式 总结 LangChain 是什么?
OpenCompass介绍 上海人工智能实验室科学家团队正式发布了大模型开源开放评测体系 “司南” (OpenCompass2.0),用于为大语言模型、多模态模型等提供一站式评测服务。 其主要特点如下: 开源可复现:提供公平、公开、可复现的大模型评测方案 全面的能力维度:五大维度设计,提供 70+ 个数据集约 40 万题的的模型评测方案,全面评估模型能力 丰富的模型支持:已支持 20+ 评测对象 本算法库的主要评测对象为语言大模型与多模态大模型。我们以语言大模型为例介绍评测的具体模型类型。 工具架构 模型层:大模型评测所涉及的主要模型种类,OpenCompass 以基座模型和对话模型作为重点评测对象。 《书生·浦语大模型实战营》第2课 学习笔记:轻松玩转书生·浦语大模型趣味 Demo 《书生·浦语大模型实战营》第3课 学习笔记:搭建你的 RAG 智能助理(茴香豆) 《书生·浦语大模型实战营》第4课 学习笔记
为此,我们开发了finLLM-Eval,这是一套专为大模型金融场景设计的幻觉评测方案,在行业内首次提出无 GroundTruth 下金融数据准确性的评测方法,填补了大模型金融领域评测的空白,旨在推动AI 面向大模型生成能力评测 事实准确性评测:检测模型输出是否与客观事实一致,避免无中生有、张冠李戴等问题。 面向大模型端到端应用评测 无GroundTruth的金融数据准确性评测:基于真实用户问答,自动提取“标的×时间×指标”金融事实三要素,通过内部金融数据库进行自动化验证,无需人工标注标准答案。 3. 本方案提供大模型金融场景逻辑一致性、事实准确性和金融数据准确性的评测方法。在行业内首次提出无 GroundTruth 下金融数据准确性评测方案,强化了金融场景幻觉评测能力。 1、逻辑一致性与事实准确性评测 对于金融场景,大模型的回答基本是由金融事实和基于事实的分析(推论、预测、建议等)组成,评测Agent将结合用户的真实Query、应用层RAG,从模型Answer中,逐句提取全部事实点和全部逻辑链
Threat Intelligence, CTI)在现代网络安全领域日益重要,为了提高安全人员安全事件分析能力,文章提出一个用于基准测试、引导和改进LLMs(Large Language Models, 大语言模型 二、方法 PART 02 方法介绍:首先使用LLM(GPT-4)生成候选任务,然后由人类专家根据安全组织和机构(如MITRE和OASIS CTI TC)提出的威胁情报分析标准和关注信息修正任务,形成任务池 基于GPT4评分 采用5分制,使用GPT4对训练后的模型的答案做评分,要求gpt对结果的准确性、相关性和价值性进行打分,并在没有给出满分时需要给出一个优化的结果。 同时发现,SEVENLLM-Instruct训练后的模型即使在较小的参数量级下也可以具备强于较大量级通用大模型的能力,可用于针对该任务的轻量化部署和快速应用。 如下表展示了基于GPT-4的评分结果,文章的工作对大模型在网络安全事件分析和应用领域的研究提供一定参考。
前言 2月份的时候评测过TeleChat-7B大模型,见星辰AI大模型TeleChat-7B评测。 最近中电信 AI 科技有限公司针对TeleChat-7B进行了性能升级,并开源了一个更大的模型TeleChat-12B,受邀对这个大模型进行新的评测。 的差异点 TeleChat-12B和TeleChat-7B均开源在https://github.com/Tele-AI/Telechat这个仓库中,并且在Huggingface,ModelScope等大模型托管平台进行托管 ,另外还开源了int8和int4两种低比特类型的模型方便部署。 loss,以及在评测集上的生成效果,动态提升较难学习的数据集权重,保证模型在各个数据集上都有较佳的拟合效果。