首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 模型评测体系介绍及中文模型表现

    近几年,ChatGPT、GPT4、LLaMA、Claude3、DeepSeek、字节豆包、百度文心一言、阿里通义千问、腾讯混元、智谱清言、华为盘古等国内外模型产品不断推出,这么多模型表现如何? 1.测试指标体系(测什么) 模型评测的指标体系按照“场景-能力-任务-指标”四个维度构建。 (6)结果展示:测试报告、榜单、雷达图、柱状图等方式展示被测模型表现。 3.测试数据集(用什么测) 测试数据集即评测数据集。 关于模型评测,国家也发布了标准GB/T45288.2—2025 人工智能 模型第2部分:评测指标与方法,读者可以参考。 另外,中文模型谁家最强呢? 》(发送“模型测试”可得) 3.SuperCLUE《中文模型基准测评2025年3月报告》(发送“SuperCLUE”可得)

    2.8K20编辑于 2025-05-30
  • 来自专栏大语言模型

    模型能力评测方式很多?

    AI评测非单一分数比拼,而是多维度、多方法的系统工程。其核心框架可拆解为基础维度、主流基准与关键方法,共同构成模型能力的“CT扫描”系统。 一、评测的三基础维度参照源:分参考式(有标准答案,如准确率、BLEU)与非参考式(依赖判官或规则,如人类偏好、单元测试)。交互模式:覆盖静态单轮问答、多轮对话、工具调用、长上下文处理等全场景。 三、关键方法与实践要点人类偏好评测:Chatbot Arena的双盲成对比较+Elo评分(R’=R+K(S-E))为黄金标准,需规避位置/冗长偏见。 AI辅助评测:GPT-4等LLM-as-a-Judge与人类一致性达80%+,但需校准冗长偏好与自偏误。 AI评测的核心是“场景匹配”:通用能力看MMLU+人类偏好,代码能力信SWE-bench+pass@k,安全侧重拒答率与校准度。唯有多维指标联动,才能勾勒模型真实能力画像。

    47610编辑于 2025-08-13
  • 来自专栏Java技术进阶

    基于OpenCompass的模型评测实践

    为了准确和公正地评估模型的能力,国内外机构在模型评测上开展了大量的尝试和探索。斯坦福大学提出了较为系统的评测框架HELM,从准确性,安全性,鲁棒性和公平性等维度开展模型评测。 由于语言模型和多模态模型的能力强大,应用场景广泛,目前学术界和工业界的评测方案往往只关注模型的部分能力维度,缺少系统化的能力维度框架与评测方案。 OpenCompass提供分布式自动化的评测系统,支持对(语言/多模态)模型开展全面系统的能力评估。 OpenCompass介绍 评测对象 本算法库的主要评测对象为语言模型与多模态模型。 我们以语言模型为例介绍评测的具体模型类型。 主观评测 语言表达生动精彩,变化丰富,大量的场景和能力无法凭借客观指标进行评测。针对如模型安全和模型语言能力的评测,以人的主观感受为主的评测更能体现模型的真实能力,并更符合模型的实际使用场景。

    1.3K10编辑于 2024-03-08
  • 来自专栏算法进阶

    语言模型评测方法全面总结!

    本文回顾了自然语言处理中的评测基准与指标,将语言模型评估分为经典和新型评测范式,分析了现有评测的不足。接着介绍了全面的语言模型评测思想、相关指标和方法,并总结了当前广受关注的语言模型评测新方向。 为了全面评估语言模型,可以将多个数据集聚合和重新组织,形成一个更通用的评测基准。本章针对语言模型的评估对评测范式进行了分类,将其分为经典评测范式和新型评测范式。表1列出了一些典型的评测基准。 然而,语言模型在需要复杂推理或特定领域知识的任务上表现不佳。此外,与GPT-3系列模型相比,GPT-4等语言模型的零样本学习能力逐渐接近小样本学习能力。 提高系统的开源性和透明度将增强有害性评测的准确度和公平性。 3 语言模型评测的一些新方向 自ChatGPT推出以来,生成式语言模型影响日益增大,传统生成式评测方法面临挑战。 图3 PandaLM 的评测结构图 未来可能的基于模型评测的研究方向包括: 更具鲁棒性的指标:开发更具鲁棒性的基于模型评测指标,以降低噪声对评测结果的影响,提高评测结果的稳定性和可靠性。

    1.4K10编辑于 2024-07-31
  • 来自专栏AI技术探索和应用

    常见的模型评测数据集

    开源模型评测排行榜 https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard 其数据是由其后端lm-evaluation-harness 每个问题都由任务描述、代码解决方案和 3 个自动化测试用例组成。 CMMLU 是一个包含了 67 个主题的中文评测数据集,涉及自然科学、社会科学、工程、人文、以及常识等,有效地评估了模型在中文知识储备和语言理解上的能力。 SuperCLUE https://github.com/CLUEbenchmark/SuperCLUE SuperCLUE是一个综合性模型评测基准,本次评测主要聚焦于模型的四个能力象限,包括语言理解与生成 同时评测分为两部分,自动化评测的客观题部分和依赖于专家打分的主观题部分,这两部分结果构成了最终的分数,您可以通过构建示例中的脚本快速对一个已部署的模型进行评测,或者向我们提交您需要评测模型的主观题预测结果

    11.3K12编辑于 2024-03-13
  • 来自专栏机器学习从理论到实战

    模型评测的重要性

    在人工智能领域,模型评测不仅是衡量其性能的重要手段,也是推动技术进步的关键因素。本文将深入探讨模型评测的重要性、面临的挑战,以及司南评测体系2.0的实现方法和特点。 一、模型评测的重要性模型评测对于确保模型的可靠性、安全性和有效性至关重要。它有助于:识别模型的局限性:通过评测可以发现模型在特定任务或数据集上的不足。 二、评测所面临的挑战模型评测面临诸多挑战,包括但不限于:垂直领域的专注:需要针对特定领域定制评测标准和数据集。时效性:技术发展迅速,评测体系需要不断更新以适应新的模型和算法。 数据集格式:确保数据集的格式符合评测工具的要求。结语模型评测是推动人工智能技术发展的重要环节。 司南评测体系2.0和Open Pass评测工具为我们提供了强大的评测手段,帮助我们更好地理解和改进模型。随着技术的不断进步,我们期待未来能有更多的创新和突破。

    38010编辑于 2024-12-06
  • 来自专栏测试开发技术

    模型评测指南:从理论到实践

    因此对模型能力及其不足之处形成更深入的认识和理解,预知并防范模型带来的安全挑战和风险,需要针对模型开展多方位的评测,一般也叫模型基准测试。 对模型进行全方位评测面临诸多挑战,由于模型的通用性强,能够胜任多种任务,因此模型的全方位评测涉及的范围广、工作量大、评测成本高昂;其次,由于数据标注工作量大,许多维度的评测基准仍然有待构建;再次, 04 评测策略 模型评测的目的不同,有不同评测策略,如模型研发人员关心的是衡量模型的性能、精选和优化模型,以加快AI创新和实践,同时确保模型的安全性和可靠性,防范潜在风险。 05 模型分类 随着人工智能领域的快速发展,新的模型和分类方式也在不断出现,一个模型可以同时属于多个分类。不同分类评测方法可能不同,因此不同模型之间评测的方式也会有差异。 按架构划分 变换器(Transformer)模型:基于自注意力机制,适用于多种任务。 例如:GPT-3(由OpenAI开发)、BERT(由Google开发)。

    1.1K10编辑于 2025-06-25
  • 13.4 语言模型文生图能力评测

    13.4 语言模型文生图能力评测 模型的文生图能力,不仅推动了创意产业的创新,还在教育、医疗、娱乐等多个领域展现出广泛的应用前景。 通过将自然语言处理与计算机视觉相结合,这些模型能够理解文本内容并生成相应的图像,极大地丰富了人机交互的方式。 本节将深入探讨模型在文生图能力方面的评测方法与标准。 图13-29 SuperCLUE-Image评测基准 对于图像质量的评测,分别考虑了构图、光彩、细节处理、用户体验、分辨率、锐度和结构合理性,其中: 构图:评价图像的整体布局和视觉吸引力 光彩:评价图像色彩的对比度和和谐程度 复杂生成:评价模型根据复杂提示词生成图片的能力 最后是在效率方面对模型进行评估,分别从生成速度和资源使用进行评价,其中: 生成速度:评估模型生成图片的速度 资源使用:评估模型生成图片时使用的资源 Sora: https://openai.com/index/sora/ [4] Magic3D:https://research.nvidia.com/labs/dir/magic3d/ [5] Text2Room

    95110编辑于 2025-04-07
  • 来自专栏OpenMMLab

    Hugging Face 模型评测榜集合收录 OpenCompass!

    然而模型评测本身也是一项复杂的系统性工程,各类评测榜单的具体标准也是一团迷雾,让人真假莫辩。 OpenCompass 是一个开源开放的模型评测平台,构建了包含学科、语言、知识、理解、推理五维度的通用能力评测体系,支持了超过 50 个评测数据集和 30 万道评测题目,支持零样本、小样本及思维链评测 OpenCompass 支持大部分主流 HuggingFaces 上的语言模型评测,只需几行简单配置,便可轻松开展模型评测。 OpenCompass在过去的两个月里进行了大量功能升级,结合模型的发展需求,新增多项特色能力评测。 平台提供模型榜单,开源评测工具,自建评测集等多种不同的开源项目,旨在为社区提供丰富强大的一站式评测平台。

    3.4K10编辑于 2023-09-21
  • 来自专栏GiantPandaCV

    星辰AI模型TeleChat-7B评测

    前言 受中电信 AI 科技有限公司的邀请,为他们近期开源的TeleChat-7B模型做一个评测。 最后,我们可以从TeleChat-7B开源项目在文创方面展示的例子看到它具有不错的文创能力和一定的代码能力,可以作为开发者来使用的一个不错的基础模型。 而对于上面的第一个问题,也出现了经典的模型幻觉问题。 问题生成 用户: 我是一名初中语文老师,下节课要教学生《桃花源记》,帮我准备5个课堂提问的问题。 TeleChat-7B: 1. 但模型本身也存在模型幻觉,指令跟随能力一般以及回答有概率重复的问题。 此外,TeleChat-7B在开源方面是相当有诚意的,将清洗之后的训练数据进行开源是在之前的模型开源中比较难见到的,如果想了解更多的数据清洗细节以及模型训练的细节可以阅读官方放出的技术报告:https

    67320编辑于 2024-02-22
  • 来自专栏AI SPPECH

    58_模型评估与评测:构建科学的多维度评测体系

    引言 在语言模型(LLM)技术飞速发展的今天,如何科学、全面地评估和评测这些模型的能力已成为学术界和工业界共同关注的核心问题。 2025年,模型生态系统呈现出百花齐放的态势,从参数规模、架构设计到应用场景都出现了多样化的发展路径。在这种背景下,单一的性能指标或评测方法已经无法满足对模型进行全面评估的需求。 本文将深入探讨模型评估与评测的科学方法论,从评估框架设计、基准测试选择、多维度指标体系构建到实际应用场景的评估实践,为读者提供一套完整的模型评估指南。 SuperCLUE 评估体系:中文模型综合测评体系,包含多个子基准 评测维度:覆盖语言理解、生成、推理、知识等多个维度 特色模块:包含Agent能力评测、多轮对话评测等特色模块 定期发布:按月发布中文模型评测报告 社会影响评估 社会价值评估:评估模型对社会的积极价值和贡献 伦理影响评估:系统评估模型的伦理影响和风险 公平性监测:研究模型公平性的持续监测方法 可持续发展评估:评估模型技术的可持续发展性 结论 模型评估与评测是一个复杂而系统的工程

    1.3K11编辑于 2025-11-13
  • 来自专栏机器之心

    全球140+模型全方位评测结果出炉,智源评测体系发布

    机器之心编辑部 2024 年 5 月 17 日,智源研究院举办模型评测发布会,正式推出科学、权威、公正、开放的智源评测体系,发布并解读国内外 140 余个开源和商业闭源的语言及多模态模型全方位能力评测结果 在语言模型客观评测中,OpenAI GPT-4、百川智能 Baichuan3 位列第一、第二。百度文心一言 4.0、智谱华章 GLM-4 和月之暗面 Kimi 均进入语言模型主客观评测前五。 多模态生成模型文生图评测结果显示,OpenAI DALL-E3 位列第一,智谱华章 CogView3、Meta-Imagine 分居第二、第三,百度文心一格、字节跳动 doubao-Image 次之。 科学权威公正开放的智源评测体系 依托科技部 “人工智能基础模型支撑平台与评测技术” 和工信部 “模型公共服务平台” 项目,智源研究院与 10 余家高校和机构联合开展模型评测方法与工具研发。 智源研究院牵头成立了 IEEE 模型评测标准小组 P3419,组织 20 余家企业及学者参与模型标准建设,同时作为《人工智能预训练模型评测指标与方法》国家标准草案的共建单位,智源此次的模型评测,借鉴了该标准

    87810编辑于 2024-05-22
  • 全球模型真实编程能力摸底!评测新标准揭秘模型能力虚胖真相

    id=60本文数据均引用自 OIBench v1.0 论文(arxiv:2506.10481v3),发布日期 2025 年 6 月 13 日微信小程序:AGI-Eval模型评测论文地址:https:// OIBench 评测结果与发现参评模型评测方式OIBench 对 18 个主流模型(包括 14 个指令微调模型和 4 个基础模型)进行了 zero-shot 评测,涵盖 C++、Python、Java DeepSeek-V3-0324 的亮点: 作为非推理模型,DeepSeek-V3-0324 表现突出,得益于其采用了 DeepSeek-R1 的链式推理蒸馏方案,推理能力大幅提升。 3. 模型与人类选手的对比许多技术人员都关心:现在的语言模型在算法编程题上的表现,和真正的竞赛选手相比到底如何? AGI-Eval 模型评测社区将持续致力于高质量评估研究,推动模型技术向更广阔的人机协作未来发展。关注我们,检索更多评测内容!— 完 —

    1.2K10编辑于 2025-07-28
  • 来自专栏韩曙亮的移动开发专栏

    【AI 模型】Meta Llama 3 模型 ( Llama 3 模型简介 | Ollama 软件下载安装 | Llama3 模型下载 | Llama 3 模型 在线 离线 使用 )

    首先 , 安装 Ollama 软件 , 到 https://ollama.com/ 下载安装 ; 然后 , 运行 ollama run llama3 命令 , 即可开始使用 Llama3 模型 ; 一 、Meta Llama 3 模型安装 1、Llama 3 模型简介 Llama 3 模型 是 Meta 公司 发布的 模型 , Meta 公司 就是 Facebook ; Llama 3 模型 Llama3 模型 ; 下载的模型放在了 C:\Users\用户名.ollama 目录中 , 在我的电脑上的路径是 C:\Users\octop.ollama ; 这个模型很大 , 有 4.7 G 安装完成后的效果 for help) 二、Meta Llama 3 模型使用 1、Llama 3 模型在线使用 在命令行中 , 可以直接进行对话 , 下面是对话内容 : D:\Llama>ollama run llama3 for help) 2、Llama 3 模型离线使用 Llama 3 模型 联网时 , 可以访问云端服务 , 可以生成更加丰富的文本 ; Llama 3 模型 在 断网后也可以使用 , 下面是断开网络后

    1.7K12编辑于 2024-08-09
  • 来自专栏流川疯编写程序的艺术

    《书生·浦语模型实战营》第7课 学习笔记:OpenCompass 模型评测实战

    OpenCompass介绍 上海人工智能实验室科学家团队正式发布了模型开源开放评测体系 “司南” (OpenCompass2.0),用于为语言模型、多模态模型等提供一站式评测服务。 其主要特点如下: 开源可复现:提供公平、公开、可复现的模型评测方案 全面的能力维度:五维度设计,提供 70+ 个数据集约 40 万题的的模型评测方案,全面评估模型能力 丰富的模型支持:已支持 20+ 评测对象 本算法库的主要评测对象为语言模型与多模态模型。我们以语言模型为例介绍评测的具体模型类型。 工具架构 模型层:模型评测所涉及的主要模型种类,OpenCompass 以基座模型和对话模型作为重点评测对象。 《书生·浦语模型实战营》第2课 学习笔记:轻松玩转书生·浦语模型趣味 Demo 《书生·浦语模型实战营》第3课 学习笔记:搭建你的 RAG 智能助理(茴香豆) 《书生·浦语模型实战营》第4课 学习笔记

    76810编辑于 2024-07-01
  • 来自专栏腾讯开源的专栏

    finLLM-Eval模型金融场景幻觉专业评测方案

    为此,我们开发了finLLM-Eval,这是一套专为模型金融场景设计的幻觉评测方案,在行业内首次提出无 GroundTruth 下金融数据准确性的评测方法,填补了模型金融领域评测的空白,旨在推动AI 面向模型生成能力评测 事实准确性评测:检测模型输出是否与客观事实一致,避免无中生有、张冠李戴等问题。 面向模型端到端应用评测 无GroundTruth的金融数据准确性评测:基于真实用户问答,自动提取“标的×时间×指标”金融事实三要素,通过内部金融数据库进行自动化验证,无需人工标注标准答案。 3. 本方案提供模型金融场景逻辑一致性、事实准确性和金融数据准确性的评测方法。在行业内首次提出无 GroundTruth 下金融数据准确性评测方案,强化了金融场景幻觉评测能力。 1、逻辑一致性与事实准确性评测 对于金融场景,模型的回答基本是由金融事实和基于事实的分析(推论、预测、建议等)组成,评测Agent将结合用户的真实Query、应用层RAG,从模型Answer中,逐句提取全部事实点和全部逻辑链

    50610编辑于 2026-01-20
  • 来自专栏arXiv每日学术速递

    SEVENLLM | 网安事件分析模型的训练与评测

    Threat Intelligence, CTI)在现代网络安全领域日益重要,为了提高安全人员安全事件分析能力,文章提出一个用于基准测试、引导和改进LLMs(Large Language Models, 语言模型 3、构建评估基准SEVENLLM-Bench,填补了网络威胁情报评估的空白。同时结合多种方法综合评估LLMs在网络安全背景下的性能。 2.2 模型微调 文章选择了在中英文能力上表现杰出的Llama-2和Qwen-1.5作为模型基座,并针对20B以下的量级进行微调。 同时发现,SEVENLLM-Instruct训练后的模型即使在较小的参数量级下也可以具备强于较大量级通用模型的能力,可用于针对该任务的轻量化部署和快速应用。 如下表展示了基于GPT-4的评分结果,文章的工作对模型在网络安全事件分析和应用领域的研究提供一定参考。

    1.1K10编辑于 2024-05-31
  • 来自专栏GiantPandaCV

    性能提升,星辰AI模型TeleChat-12B评测

    前言 2月份的时候评测过TeleChat-7B模型,见星辰AI模型TeleChat-7B评测。 最近中电信 AI 科技有限公司针对TeleChat-7B进行了性能升级,并开源了一个更大的模型TeleChat-12B,受邀对这个大模型进行新的评测。 TeleChat-7B不仅在模型结构上有所微调,而且相比于TeleChat-7B的1.5T Tokens,TeleChat-12B使用了3T Tokens进行预训练,取得了更好的性能结果。 loss,以及在评测集上的生成效果,动态提升较难学习的数据集权重,保证模型在各个数据集上都有较佳的拟合效果。 0x3. 文学创作能力测试 为了更加真实的观察模型的文学创作能力,这里不使用TeleChat官方开源仓库提供的例子,而是使用我们自己的一些prompt来进行测试。

    73910编辑于 2024-05-13
  • 来自专栏深度学习与python

    国内首个网络安全模型评测平台 SecBench 发布

    同时,通过建设安全模型评测基准,为安全模型研发提供公平、公正、客观、全面的评测能力,推动安全模型建设。 SecBench 网络安全模型评测整体设计架构 图 2. GPT-4 在能力维度、语言维度以及安全领域能力的评估结果 图 3. 因此,构建网络安全模型评测基准的首要目标是积累行业内独有的网络安全评测数据集,覆盖多语言、多题型、多能力、多领域,以全面地评测模型安全能力。二是搭建方便快捷的网络安全模型评测框架。 因此,需要搭建方便快捷的网络安全模型评测框架,以支持不同模型、不同数据、不同评测指标的灵活接入、快速评测。三是输出全面、清晰的评测结果。网络安全模型研发的不同阶段其实对评测的需求不同。 SecBench 网络安全模型评测榜单 随着模型在网络安全领域的落地应用加速,网络安全模型评测变得尤为关键。

    4.9K10编辑于 2024-01-23
  • 来自专栏机器学习与推荐算法

    SIGIR2024 | OpenP5: 模型推荐评测平台

    TLDR: 本文介绍了一个开源模型推荐评测平台OpenP5,旨在促进用于研究的基于模型生成式推荐系统的开发、训练和评估。 上述局限性可能会阻碍基于模型推荐研究的探索。 本文提出了一个开源平台OpenP5,旨在促进用于研究目的的基于模型的生成式推荐系统的开发、训练和评估。该平台在10个广泛认可的公共数据集上进行实验。 另外,OpenP5使用编码器-解码器模型(如T5)和仅解码器的模型(如Llama-2)实现,满足了两个基本的推荐任务:序列推荐和直接推荐。下图展示了不同推荐任务所对应的提示的不同。 该平台建立在Transformers库之上,便于为用户定制基于模型的推荐模型。 下表展示了OpenP5相比于基线方法的优越性,并探索了在不同模型基础上的实验效果。

    67510编辑于 2024-07-05
领券