首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 模型评测体系介绍及中文模型表现

    基准测试能验证模型效果,促进模型能力的持续提升,指导厂家的选型、推广大模型的行业应用,提升模型的安全合规性。 1.测试指标体系(测什么) 模型评测的指标体系按照“场景-能力-任务-指标”四个维度构建。 近年模型基准测试发展迅猛,各大机构纷纷新增数据集,尤其是2023年,一年就新增了209个评测数据集。 关于模型评测,国家也发布了标准GB/T45288.2—2025 人工智能 模型第2部分:评测指标与方法,读者可以参考。 另外,中文模型谁家最强呢? 根据SuperCLUE发布的报告,最值得关注的中文模型有: SuperCLUE将其和国外模型评测结果一起,进行了四象限分类,大家可以参考下: SuperCLUE测试报告很详尽,读者可发送“SuperCLUE

    2.7K20编辑于 2025-05-30
  • 来自专栏大语言模型

    模型能力评测方式很多?

    AI评测非单一分数比拼,而是多维度、多方法的系统工程。其核心框架可拆解为基础维度、主流基准与关键方法,共同构成模型能力的“CT扫描”系统。 一、评测的三基础维度参照源:分参考式(有标准答案,如准确率、BLEU)与非参考式(依赖判官或规则,如人类偏好、单元测试)。交互模式:覆盖静态单轮问答、多轮对话、工具调用、长上下文处理等全场景。 三、关键方法与实践要点人类偏好评测:Chatbot Arena的双盲成对比较+Elo评分(R’=R+K(S-E))为黄金标准,需规避位置/冗长偏见。 AI辅助评测:GPT-4等LLM-as-a-Judge与人类一致性达80%+,但需校准冗长偏好与自偏误。 AI评测的核心是“场景匹配”:通用能力看MMLU+人类偏好,代码能力信SWE-bench+pass@k,安全侧重拒答率与校准度。唯有多维指标联动,才能勾勒模型真实能力画像。

    45010编辑于 2025-08-13
  • 来自专栏Java技术进阶

    基于OpenCompass的模型评测实践

    为了准确和公正地评估模型的能力,国内外机构在模型评测上开展了大量的尝试和探索。斯坦福大学提出了较为系统的评测框架HELM,从准确性,安全性,鲁棒性和公平性等维度开展模型评测。 由于语言模型和多模态模型的能力强大,应用场景广泛,目前学术界和工业界的评测方案往往只关注模型的部分能力维度,缺少系统化的能力维度框架与评测方案。 OpenCompass提供分布式自动化的评测系统,支持对(语言/多模态)模型开展全面系统的能力评估。 OpenCompass介绍 评测对象 本算法库的主要评测对象为语言模型与多模态模型。 我们以语言模型为例介绍评测的具体模型类型。 主观评测 语言表达生动精彩,变化丰富,大量的场景和能力无法凭借客观指标进行评测。针对如模型安全和模型语言能力的评测,以人的主观感受为主的评测更能体现模型的真实能力,并更符合模型的实际使用场景。

    1.3K10编辑于 2024-03-08
  • 来自专栏算法进阶

    语言模型评测方法全面总结!

    本文回顾了自然语言处理中的评测基准与指标,将语言模型评估分为经典和新型评测范式,分析了现有评测的不足。接着介绍了全面的语言模型评测思想、相关指标和方法,并总结了当前广受关注的语言模型评测新方向。 为了全面评估语言模型,可以将多个数据集聚合和重新组织,形成一个更通用的评测基准。本章针对语言模型的评估对评测范式进行了分类,将其分为经典评测范式和新型评测范式。表1列出了一些典型的评测基准。 提高系统的开源性和透明度将增强有害性评测的准确度和公平性。 3 语言模型评测的一些新方向 自ChatGPT推出以来,生成式语言模型影响日益增大,传统生成式评测方法面临挑战。 为了克服这些局限性,研究者开始探索基于模型评测方法,尤其是基于语言模型评测方法。 更可靠的评测方法:进一步发展更加可靠的基于模型评测方法,增强评测结果的可信度。 知识增强的评测方法:探索将特定知识注入到语言模型中的方法,从而提高基于语言模型评测方法在某些专业领域的表现。

    1.3K10编辑于 2024-07-31
  • 来自专栏AI技术探索和应用

    常见的模型评测数据集

    开源模型评测排行榜 https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard 其数据是由其后端lm-evaluation-harness CMMLU 是一个包含了 67 个主题的中文评测数据集,涉及自然科学、社会科学、工程、人文、以及常识等,有效地评估了模型在中文知识储备和语言理解上的能力。 SuperCLUE https://github.com/CLUEbenchmark/SuperCLUE SuperCLUE是一个综合性模型评测基准,本次评测主要聚焦于模型的四个能力象限,包括语言理解与生成 GAOKAO-Bench https://github.com/OpenLMLab/GAOKAO-Bench Gaokao 是一个中国高考题目的数据集,旨在直观且高效地测评模型语言理解能力、逻辑推理能力的测评框架 同时评测分为两部分,自动化评测的客观题部分和依赖于专家打分的主观题部分,这两部分结果构成了最终的分数,您可以通过构建示例中的脚本快速对一个已部署的模型进行评测,或者向我们提交您需要评测模型的主观题预测结果

    11.2K12编辑于 2024-03-13
  • 来自专栏机器学习从理论到实战

    模型评测的重要性

    在人工智能领域,模型评测不仅是衡量其性能的重要手段,也是推动技术进步的关键因素。本文将深入探讨模型评测的重要性、面临的挑战,以及司南评测体系2.0的实现方法和特点。 一、模型评测的重要性模型评测对于确保模型的可靠性、安全性和有效性至关重要。它有助于:识别模型的局限性:通过评测可以发现模型在特定任务或数据集上的不足。 二、评测所面临的挑战模型评测面临诸多挑战,包括但不限于:垂直领域的专注:需要针对特定领域定制评测标准和数据集。时效性:技术发展迅速,评测体系需要不断更新以适应新的模型和算法。 数据集格式:确保数据集的格式符合评测工具的要求。结语模型评测是推动人工智能技术发展的重要环节。 司南评测体系2.0和Open Pass评测工具为我们提供了强大的评测手段,帮助我们更好地理解和改进模型。随着技术的不断进步,我们期待未来能有更多的创新和突破。

    37410编辑于 2024-12-06
  • 来自专栏测试开发技术

    模型评测指南:从理论到实践

    因此对模型能力及其不足之处形成更深入的认识和理解,预知并防范模型带来的安全挑战和风险,需要针对模型开展多方位的评测,一般也叫模型基准测试。 对模型进行全方位评测面临诸多挑战,由于模型的通用性强,能够胜任多种任务,因此模型的全方位评测涉及的范围广、工作量大、评测成本高昂;其次,由于数据标注工作量大,许多维度的评测基准仍然有待构建;再次, 04 评测策略 模型评测的目的不同,有不同评测策略,如模型研发人员关心的是衡量模型的性能、精选和优化模型,以加快AI创新和实践,同时确保模型的安全性和可靠性,防范潜在风险。 05 模型分类 随着人工智能领域的快速发展,新的模型和分类方式也在不断出现,一个模型可以同时属于多个分类。不同分类评测方法可能不同,因此不同模型之间评测的方式也会有差异。 例如:GPT-4(由OpenAI开发) 06 模型基准评测体系 由于各种模型的差异及评测目的的不同,评测方式同样也多种多样,如果总结成体系,能更好指导评测执行。

    1.1K10编辑于 2025-06-25
  • 13.4 语言模型文生图能力评测

    13.4 语言模型文生图能力评测 模型的文生图能力,不仅推动了创意产业的创新,还在教育、医疗、娱乐等多个领域展现出广泛的应用前景。 通过将自然语言处理与计算机视觉相结合,这些模型能够理解文本内容并生成相应的图像,极大地丰富了人机交互的方式。 本节将深入探讨模型在文生图能力方面的评测方法与标准。 图13-29 SuperCLUE-Image评测基准 对于图像质量的评测,分别考虑了构图、光彩、细节处理、用户体验、分辨率、锐度和结构合理性,其中: 构图:评价图像的整体布局和视觉吸引力 光彩:评价图像色彩的对比度和和谐程度 复杂生成:评价模型根据复杂提示词生成图片的能力 最后是在效率方面对模型进行评估,分别从生成速度和资源使用进行评价,其中: 生成速度:评估模型生成图片的速度 资源使用:评估模型生成图片时使用的资源 LLMScore 利用语言模型分析图像与提示的匹配程度,适合自动化评估,然而其准确性可能受训练数据的影响。

    93710编辑于 2025-04-07
  • 来自专栏OpenMMLab

    Hugging Face 模型评测榜集合收录 OpenCompass!

    然而模型评测本身也是一项复杂的系统性工程,各类评测榜单的具体标准也是一团迷雾,让人真假莫辩。 OpenCompass 是一个开源开放的模型评测平台,构建了包含学科、语言、知识、理解、推理五维度的通用能力评测体系,支持了超过 50 个评测数据集和 30 万道评测题目,支持零样本、小样本及思维链评测 OpenCompass 支持大部分主流 HuggingFaces 上的语言模型评测,只需几行简单配置,便可轻松开展模型评测。 OpenCompass在过去的两个月里进行了大量功能升级,结合模型的发展需求,新增多项特色能力评测。 平台提供模型榜单,开源评测工具,自建评测集等多种不同的开源项目,旨在为社区提供丰富强大的一站式评测平台。

    3.3K10编辑于 2023-09-21
  • 来自专栏AI SPPECH

    58_模型评估与评测:构建科学的多维度评测体系

    引言 在语言模型(LLM)技术飞速发展的今天,如何科学、全面地评估和评测这些模型的能力已成为学术界和工业界共同关注的核心问题。 2025年,模型生态系统呈现出百花齐放的态势,从参数规模、架构设计到应用场景都出现了多样化的发展路径。在这种背景下,单一的性能指标或评测方法已经无法满足对模型进行全面评估的需求。 本文将深入探讨模型评估与评测的科学方法论,从评估框架设计、基准测试选择、多维度指标体系构建到实际应用场景的评估实践,为读者提供一套完整的模型评估指南。 SuperCLUE 评估体系:中文模型综合测评体系,包含多个子基准 评测维度:覆盖语言理解、生成、推理、知识等多个维度 特色模块:包含Agent能力评测、多轮对话评测等特色模块 定期发布:按月发布中文模型评测报告 社会影响评估 社会价值评估:评估模型对社会的积极价值和贡献 伦理影响评估:系统评估模型的伦理影响和风险 公平性监测:研究模型公平性的持续监测方法 可持续发展评估:评估模型技术的可持续发展性 结论 模型评估与评测是一个复杂而系统的工程

    1.2K11编辑于 2025-11-13
  • 来自专栏GiantPandaCV

    星辰AI模型TeleChat-7B评测

    前言 受中电信 AI 科技有限公司的邀请,为他们近期开源的TeleChat-7B模型做一个评测。 最后,我们可以从TeleChat-7B开源项目在文创方面展示的例子看到它具有不错的文创能力和一定的代码能力,可以作为开发者来使用的一个不错的基础模型。 而对于上面的第一个问题,也出现了经典的模型幻觉问题。 问题生成 用户: 我是一名初中语文老师,下节课要教学生《桃花源记》,帮我准备5个课堂提问的问题。 TeleChat-7B: 1. 但模型本身也存在模型幻觉,指令跟随能力一般以及回答有概率重复的问题。 此外,TeleChat-7B在开源方面是相当有诚意的,将清洗之后的训练数据进行开源是在之前的模型开源中比较难见到的,如果想了解更多的数据清洗细节以及模型训练的细节可以阅读官方放出的技术报告:https

    66420编辑于 2024-02-22
  • 来自专栏机器之心

    全球140+模型全方位评测结果出炉,智源评测体系发布

    机器之心编辑部 2024 年 5 月 17 日,智源研究院举办模型评测发布会,正式推出科学、权威、公正、开放的智源评测体系,发布并解读国内外 140 余个开源和商业闭源的语言及多模态模型全方位能力评测结果 语言模型主观评测结果显示,在中文语境下,字节跳动豆包 Skylark2、OpenAI GPT-4 位居第一、第二,国产模型更懂中国用户。 科学权威公正开放的智源评测体系 依托科技部 “人工智能基础模型支撑平台与评测技术” 和工信部 “模型公共服务平台” 项目,智源研究院与 10 余家高校和机构联合开展模型评测方法与工具研发。 2023 年 6 月,由智源研究院与多个高校团队共建的 FlagEval 模型评测平台上线,迄今为止已完成了 1000 多次覆盖全球多个开源模型评测,并持续发布评测结果,广泛地积累了国际领先的评测技术 智源研究院牵头成立了 IEEE 模型评测标准小组 P3419,组织 20 余家企业及学者参与模型标准建设,同时作为《人工智能预训练模型评测指标与方法》国家标准草案的共建单位,智源此次的模型评测,借鉴了该标准

    85810编辑于 2024-05-22
  • 全球模型真实编程能力摸底!评测新标准揭秘模型能力虚胖真相

    数据 “泄漏” 风险: 尽管一些新评测集(如 Codeforces、USACO、LeetCode)引入了高难度题目,但由于模型预训练数据包含大量互联网公开内容,这些题目可能已被模型 “见过”,导致评测结果虚高 基于此数据集,我们对全球 18 个主流模型的算法编程能力进行了系统评测并量化得分,详细评分榜单如下所示,可以看到全球顶尖模型距离以往所宣称的编程能力还存在很大差距,哪怕是最高分的 o4-mini-high 由于模型的预训练和微调数据往往会爬取大量互联网内容,容易出现模型在训练阶段就见过类似题目的情况,从而导致评测分数虚高,无法真实反映模型实际能力。 OIBench 评测结果与发现参评模型评测方式OIBench 对 18 个主流模型(包括 14 个指令微调模型和 4 个基础模型)进行了 zero-shot 评测,涵盖 C++、Python、Java AGI-Eval 模型评测社区将持续致力于高质量评估研究,推动模型技术向更广阔的人机协作未来发展。关注我们,检索更多评测内容!— 完 —

    1.1K10编辑于 2025-07-28
  • 来自专栏流川疯编写程序的艺术

    《书生·浦语模型实战营》第7课 学习笔记:OpenCompass 模型评测实战

    0.背景知识与简介 为什么要研究模型评测? 百家争鸣,百花齐放。 首先,研究评测对于我们全面了解大型语言模型的优势和限制至关重要。 OpenCompass介绍 上海人工智能实验室科学家团队正式发布了模型开源开放评测体系 “司南” (OpenCompass2.0),用于为语言模型、多模态模型等提供一站式评测服务。 其主要特点如下: 开源可复现:提供公平、公开、可复现的模型评测方案 全面的能力维度:五维度设计,提供 70+ 个数据集约 40 万题的的模型评测方案,全面评估模型能力 丰富的模型支持:已支持 20+ 评测对象 本算法库的主要评测对象为语言模型与多模态模型。我们以语言模型为例介绍评测的具体模型类型。 工具架构 模型层:模型评测所涉及的主要模型种类,OpenCompass 以基座模型和对话模型作为重点评测对象。

    74710编辑于 2024-07-01
  • 来自专栏arXiv每日学术速递

    SEVENLLM | 网安事件分析模型的训练与评测

    Threat Intelligence, CTI)在现代网络安全领域日益重要,为了提高安全人员安全事件分析能力,文章提出一个用于基准测试、引导和改进LLMs(Large Language Models, 语言模型 2.2 模型微调 文章选择了在中英文能力上表现杰出的Llama-2和Qwen-1.5作为模型基座,并针对20B以下的量级进行微调。 基于选择题评分 针对两种语言和两大类任务设计 100 道选择题,以全面评估模型对网络安全事件专业领域的理解和推理能力。输出结果经过人工验证,以确保有效评估模型处理客观题的能力。 同时发现,SEVENLLM-Instruct训练后的模型即使在较小的参数量级下也可以具备强于较大量级通用模型的能力,可用于针对该任务的轻量化部署和快速应用。 如下表展示了基于GPT-4的评分结果,文章的工作对模型在网络安全事件分析和应用领域的研究提供一定参考。

    1.1K10编辑于 2024-05-31
  • 来自专栏腾讯开源的专栏

    finLLM-Eval模型金融场景幻觉专业评测方案

    为此,我们开发了finLLM-Eval,这是一套专为模型金融场景设计的幻觉评测方案,在行业内首次提出无 GroundTruth 下金融数据准确性的评测方法,填补了模型金融领域评测的空白,旨在推动AI 面向模型生成能力评测 事实准确性评测:检测模型输出是否与客观事实一致,避免无中生有、张冠李戴等问题。 面向模型端到端应用评测 无GroundTruth的金融数据准确性评测:基于真实用户问答,自动提取“标的×时间×指标”金融事实三要素,通过内部金融数据库进行自动化验证,无需人工标注标准答案。 3. 本方案提供模型金融场景逻辑一致性、事实准确性和金融数据准确性的评测方法。在行业内首次提出无 GroundTruth 下金融数据准确性评测方案,强化了金融场景幻觉评测能力。 1、逻辑一致性与事实准确性评测 对于金融场景,模型的回答基本是由金融事实和基于事实的分析(推论、预测、建议等)组成,评测Agent将结合用户的真实Query、应用层RAG,从模型Answer中,逐句提取全部事实点和全部逻辑链

    45610编辑于 2026-01-20
  • 来自专栏机器学习与推荐算法

    SIGIR2024 | OpenP5: 模型推荐评测平台

    TLDR: 本文介绍了一个开源模型推荐评测平台OpenP5,旨在促进用于研究的基于模型生成式推荐系统的开发、训练和评估。 上述局限性可能会阻碍基于模型推荐研究的探索。 本文提出了一个开源平台OpenP5,旨在促进用于研究目的的基于模型的生成式推荐系统的开发、训练和评估。该平台在10个广泛认可的公共数据集上进行实验。 另外,OpenP5使用编码器-解码器模型(如T5)和仅解码器的模型(如Llama-2)实现,满足了两个基本的推荐任务:序列推荐和直接推荐。下图展示了不同推荐任务所对应的提示的不同。 该平台建立在Transformers库之上,便于为用户定制基于模型的推荐模型。 下表展示了OpenP5相比于基线方法的优越性,并探索了在不同模型基础上的实验效果。

    66310编辑于 2024-07-05
  • 来自专栏深度学习与python

    国内首个网络安全模型评测平台 SecBench 发布

    同时,通过建设安全模型评测基准,为安全模型研发提供公平、公正、客观、全面的评测能力,推动安全模型建设。 因此,构建网络安全模型评测基准的首要目标是积累行业内独有的网络安全评测数据集,覆盖多语言、多题型、多能力、多领域,以全面地评测模型安全能力。二是搭建方便快捷的网络安全模型评测框架。 因此,需要搭建方便快捷的网络安全模型评测框架,以支持不同模型、不同数据、不同评测指标的灵活接入、快速评测。三是输出全面、清晰的评测结果。网络安全模型研发的不同阶段其实对评测的需求不同。 安全领域评测从垂类安全视角,评测模型在九个安全领域的能力;安全证书考试评估支持经典证书考试评估,评测模型通过安全证书考试的能力。 SecBench 网络安全模型评测榜单 随着模型在网络安全领域的落地应用加速,网络安全模型评测变得尤为关键。

    4.8K10编辑于 2024-01-23
  • 来自专栏GiantPandaCV

    性能提升,星辰AI模型TeleChat-12B评测

    前言 2月份的时候评测过TeleChat-7B模型,见星辰AI模型TeleChat-7B评测。 最近中电信 AI 科技有限公司针对TeleChat-7B进行了性能升级,并开源了一个更大的模型TeleChat-12B,受邀对这个大模型进行新的评测。 的差异点 TeleChat-12B和TeleChat-7B均开源在https://github.com/Tele-AI/Telechat这个仓库中,并且在Huggingface,ModelScope等模型托管平台进行托管 在模型结构方面,相比TeleChat-7B模型,TeleChat-12B模型采用了词嵌入层与输出层解耦的结构,将词嵌入层和输出lm head层参数分开,有助于增强训练稳定性和收敛性。 loss,以及在评测集上的生成效果,动态提升较难学习的数据集权重,保证模型在各个数据集上都有较佳的拟合效果。

    71910编辑于 2024-05-13
  • 来自专栏AI智能体从入门到实践

    构建AI智能体:模型如何“考出好成绩”:详解内在评测与外在评测方法

    评测尤其是安全和伦理评测就像安全质检,确保模型在出厂前尽可能排除重大风险,符合伦理和法律规范,从而更负责任地推向社会。 总而言之,评测是连接模型研发与实际应用的桥梁。 四、如何去评测语言模型 评测语言模型是一个系统工程,主要有两大流派:内在评测和外在评测。内在评测:就像一个学生既要考基础知识测验,也要参加综合实践项目。 不依赖具体任务,直接通过语言模型的输出来评测模型的生成能力。外在评测:通过某些具体任务,如机器翻译、摘要生成、文案写作等,来评测语言模型处理这些具体生成任务的能力。方法一:内在评测 — 考基本功1. 优点: 直接反映模型的实用价值,结果易于理解。 缺点: 评测成本高(需要构建测试数据集和流水线),结果受任务设计影响。流程图:2. 方法总结外在评测核心:通过实际任务表现评估模型,关注实用性而非理论指标RAG架构价值:结合检索与生成,提高答案准确性和可解释性多维度评估:需要从多个角度(准确性、相关性、流畅度等)综合评估实践导向:外在评测结果直接影响模型的选择和优化方向两种方法对比维度内在评测外在评测定义评估模型基础语言能力评估模型在具体任务中的表现关注点模型的语言建模基本功模型的实际应用效果评测环境孤立

    51210编辑于 2025-11-19
领券