首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏GiantPandaCV

    使用OpenCompass评测rwkv模型教程

    前言 继续MLC-LLM 支持RWKV-5推理以及对RWKV-5的一些思考文章里面提到的想法,探索一下使用OpenCompass来评测RWKV模型,对模型的实际表现有一个更客观的了解。 我在尝试的过程中也碰到了一些问题,所以这里记录一下使用OpenCompass评测的流程以及在评测RWKV过程中解决的问题。这里主要是记录如何跑通,后续可能会跑一下榜单去对比一下其它的模型。 接下来就可以按照下面的步骤来评测RWKV-5-3B的HF模型(https://huggingface.co/RWKV/rwkv-5-world-3b)了。 python run.py configs/eval_rwkv5_3b.py 运行rwkv-5-3b的评测,数据集可以通过 opencompass/configs/models/rwkv/rwkv5_3b.py 如果在评测过程中因为一些奇怪的原因挂掉了,但是又不是模型的问题,我们可以使用python run.py configs/eval_rwkv5_3b.py -r来续测,这样会在outputs下面最新时间戳的文件夹下复用已经评测的数据继续评测

    85010编辑于 2023-12-04
  • 来自专栏大语言模型

    模型能力评测方式很多?

    AI评测非单一分数比拼,而是多维度、多方法的系统工程。其核心框架可拆解为基础维度、主流基准与关键方法,共同构成模型能力的“CT扫描”系统。 一、评测的三大基础维度参照源:分参考式(有标准答案,如准确率、BLEU)与非参考式(依赖判官或规则,如人类偏好、单元测试)。交互模式:覆盖静态单轮问答、多轮对话、工具调用、长上下文处理等全场景。 三、关键方法与实践要点人类偏好评测:Chatbot Arena的双盲成对比较+Elo评分(R’=R+K(S-E))为黄金标准,需规避位置/冗长偏见。 AI辅助评测:GPT-4等LLM-as-a-Judge与人类一致性达80%+,但需校准冗长偏好与自偏误。 AI评测的核心是“场景匹配”:通用能力看MMLU+人类偏好,代码能力信SWE-bench+pass@k,安全侧重拒答率与校准度。唯有多维指标联动,才能勾勒模型真实能力画像。

    47310编辑于 2025-08-13
  • 模型评测|国产模型偷摸删库且装聋作哑

    引言 MiniMax M2 发布已经十天左右了,本觉得不写一记评测了,但是感觉它算是给当下的国产 Coding 模型又注入了一记强心剂,毕竟从榜单来看,已经与 Claude 4.5 拉到了一个水位线,而且速度要远快于 如果你是在核心代码或者疑难问题上,MiniMax M2 的能力还是距离 Claude 4.5 有一定距离 3. MiniMax M2 属于 Coding 第一梯队的模型 评测环境 • Code Agent:Claude Code v2.0.30 • LLM:Claude Sonnet 4.5 VS MiniMax ,尽量别直接上手业务库或者生产数仓,以免给你造成提桶跑路的损失~ 小结 MiniMax M2 整体是超出预期的,因为对照之前用 DeepSeek 以及 K2 非 Thinking 版本,以及 Qwen3 系列,效果都还是在预期内,在顶级之下,MiniMax M2 的能力的确是强一截,但客观的说,距离最佳 Coding 模型,还需要一点点时间。

    97910编辑于 2025-11-13
  • 来自专栏Java技术进阶

    基于OpenCompass的大模型评测实践

    沿着这条路线,随后又陆续发布了GPT-2和GPT-3模型。与此同时,谷歌也探索了不同的大规模预训练模型方案,例如如T5, Flan等。 基座模型:一般是经过海量的文本数据以自监督学习的方式进行训练获得的模型(如OpenAI的GPT-3,Meta的LLaMA),往往具有强大的文字续写能力。 工具架构 模型层:大模型评测所涉及的主要模型种类,OpenCompass以基座模型和对话模型作为重点评测对象。 能力层:OpenCompass从本方案从通用能力和特色能力两个方面来进行评测维度设计。 主观评测 语言表达生动精彩,变化丰富,大量的场景和能力无法凭借客观指标进行评测。针对如模型安全和模型语言能力的评测,以人的主观感受为主的评测更能体现模型的真实能力,并更符合大模型的实际使用场景。 在实际评测中,本文将采用真实人类专家的主观评测与基于模型打分的主观评测相结合的方式开展模型能力评估。

    1.3K10编辑于 2024-03-08
  • 来自专栏算法进阶

    大语言模型评测方法全面总结!

    本文回顾了自然语言处理中的评测基准与指标,将大语言模型评估分为经典和新型评测范式,分析了现有评测的不足。接着介绍了全面的大语言模型评测思想、相关指标和方法,并总结了当前广受关注的大语言模型评测新方向。 然而,大语言模型在需要复杂推理或特定领域知识的任务上表现不佳。此外,与GPT-3系列模型相比,GPT-4等大语言模型的零样本学习能力逐渐接近小样本学习能力。 提高系统的开源性和透明度将增强有害性评测的准确度和公平性。 3 大语言模型评测的一些新方向 自ChatGPT推出以来,生成式大语言模型影响日益增大,传统生成式评测方法面临挑战。 图3 PandaLM 的评测结构图 未来可能的基于模型评测的研究方向包括: 更具鲁棒性的指标:开发更具鲁棒性的基于模型评测指标,以降低噪声对评测结果的影响,提高评测结果的稳定性和可靠性。 人机协作评测:尝试提出结合基于模型评测和人类评测的有效方式,从而提高人类评测的可用性和基于模型评测的准确性。

    1.4K10编辑于 2024-07-31
  • 来自专栏AI技术探索和应用

    常见的大模型评测数据集

    每个问题都由任务描述、代码解决方案和 3 个自动化测试用例组成。 CMMLU 是一个包含了 67 个主题的中文评测数据集,涉及自然科学、社会科学、工程、人文、以及常识等,有效地评估了大模型在中文知识储备和语言理解上的能力。 SuperCLUE https://github.com/CLUEbenchmark/SuperCLUE SuperCLUE是一个综合性大模型评测基准,本次评测主要聚焦于大模型的四个能力象限,包括语言理解与生成 同时评测分为两部分,自动化评测的客观题部分和依赖于专家打分的主观题部分,这两部分结果构成了最终的分数,您可以通过构建示例中的脚本快速对一个已部署的大模型进行评测,或者向我们提交您需要评测模型的主观题预测结果 多语言测试 M3Exam https://github.com/DAMO-NLP-SG/M3Exam 包含 12317 个问题,涵盖从高资源语种例如中文英文,到低资源语种例如斯瓦希里语及爪哇语等9个语言

    11.3K12编辑于 2024-03-13
  • 来自专栏机器学习从理论到实战

    模型评测的重要性

    在人工智能领域,大模型评测不仅是衡量其性能的重要手段,也是推动技术进步的关键因素。本文将深入探讨大模型评测的重要性、面临的挑战,以及司南评测体系2.0的实现方法和特点。 一、大模型评测的重要性大模型评测对于确保模型的可靠性、安全性和有效性至关重要。它有助于:识别模型的局限性:通过评测可以发现模型在特定任务或数据集上的不足。 二、评测所面临的挑战大模型评测面临诸多挑战,包括但不限于:垂直领域的专注:需要针对特定领域定制评测标准和数据集。时效性:技术发展迅速,评测体系需要不断更新以适应新的模型和算法。 三、司南评测体系2.0司南评测体系2.0是一个全面升级的评测工具,它包括:工具链:提供一套完整的评测工具,支持不同模型和任务的评测。基准:建立标准化的评测基准,方便比较不同模型的性能。 榜单:定期更新的模型性能榜单,展示顶尖模型的性能。自定义数据集:支持用户自定义数据集进行评测。多模态评测:支持图像、视频等多模态数据的评测

    37910编辑于 2024-12-06
  • 代码模型评测:能否取代 GitHub Copilot?

    DeepSeek 代码模型评测:能否取代 GitHub Copilot?随着人工智能技术的快速发展,AI 编程助手已成为开发者提高工作效率的重要工具。 然而,DeepSeek 代码模型(DeepSeek Code)近期的出现,给开发者带来了新的选择。DeepSeek Code 是否具备挑战 GitHub Copilot 的能力? 本文将对 DeepSeek 代码模型进行全面评测,并探讨它是否能够取代 GitHub Copilot。1. (3) 代码解释能力代码解释是 AI 代码助手的另一个重要能力。 3. 结论:DeepSeek Code 能否取代 GitHub Copilot?

    1.1K10编辑于 2025-03-20
  • 模型评测体系介绍及中文大模型表现

    (3)数据构建:人工构建、题目自动化填充、智能算法生成三种方式定期补充或更新评测数据 (4)测试执行:将测试数据输入被测模型并观测模型输出结果 (5)结果评估:采用自动化或者人工的方式进行结果评估。 自动化评估会计算特定指标完成模型输出和标准答案的对比。人工评估的方式对评测人员的资质或者评测方法有一定的要求。较为前沿的,有通过大模型作为裁判,对其它模型进行评估的研究。 (6)结果展示:测试报告、榜单、雷达图、柱状图等方式展示被测模型表现。 3.测试数据集(用什么测) 测试数据集即评测数据集。 关于大模型评测,国家也发布了标准GB/T45288.2—2025 人工智能 大模型第2部分:评测指标与方法,读者可以参考。 另外,中文大模型谁家最强呢? 》(发送“大模型测试”可得) 3.SuperCLUE《中文大模型基准测评2025年3月报告》(发送“SuperCLUE”可得)

    2.8K20编辑于 2025-05-30
  • 来自专栏AI SPPECH

    58_大模型评估与评测:构建科学的多维度评测体系

    引言 在大语言模型(LLM)技术飞速发展的今天,如何科学、全面地评估和评测这些模型的能力已成为学术界和工业界共同关注的核心问题。 2025年,大模型生态系统呈现出百花齐放的态势,从参数规模、架构设计到应用场景都出现了多样化的发展路径。在这种背景下,单一的性能指标或评测方法已经无法满足对大模型进行全面评估的需求。 本文将深入探讨大模型评估与评测的科学方法论,从评估框架设计、基准测试选择、多维度指标体系构建到实际应用场景的评估实践,为读者提供一套完整的大模型评估指南。 SuperCLUE 评估体系:中文大模型综合测评体系,包含多个子基准 评测维度:覆盖语言理解、生成、推理、知识等多个维度 特色模块:包含Agent能力评测、多轮对话评测等特色模块 定期发布:按月发布中文大模型评测报告 多模态能力评估 MMMU:多模态理解基准,评估模型对图像和文本的综合理解 SEED-Bench:全面的多模态评测基准,包含12个任务类型 M3E:评估模型在多模态环境中的推理能力 POPE:评估视觉-语言模型的事实一致性

    1.3K11编辑于 2025-11-13
  • 【AGI-Eval评测报告】混元图像2.0模型开箱评测模型实测效果大放送!

    目录:1.腾讯混元图像 2.0 模型介绍2.腾讯混元图像 2.0 模型开箱评测   2.1 评测核心结论   2.2 实时文生图评测   2.3 实时绘画板评测1. 3.多重使用方式:对于普通创作者而言,只需文字输入或语音说出提示词,无论是做社交配图、教学插图,还是记录灵感片段,模型都能实时生成图像。对于有设计基础的用户,可以实时画布、多层编辑。 模型体验入口:https://hunyuan.tencent.com/2.模型开箱评测那么 ,腾讯混元图像 2.0 模型在实测表现中又如何呢?首先来看本次开箱评测的核心结论。 2.1 评测核心结论AGI-Eval 大模型评测社区第一时间做了模型评测评测结论如下:腾讯混元图像 2.0 模型在实时生成速度和交互模式上实现了一定突破,尤其适合快速获取基础视觉素材或日常娱乐图像。 prompt 3:一辆锈迹斑斑的红色皮卡车,配有白色轮圈我们为其准备了一个简单的prompt,混元图像 2.0 模型可以快速精准满足需求,质感相对来说较真实。

    86710编辑于 2025-05-23
  • 来自专栏测试开发技术

    模型评测指南:从理论到实践

    对大模型进行全方位评测面临诸多挑战,由于大模型的通用性强,能够胜任多种任务,因此大模型的全方位评测涉及的范围广、工作量大、评测成本高昂;其次,由于数据标注工作量大,许多维度的评测基准仍然有待构建;再次, 对大模型评测需要从模型本身特点,通用还是专业领域,多模还是单模、主要能力是问题解答还是代码编写等多方面考虑,之后需要考虑评测的目的,是为了验证模型的哪些特点,然后选择评测数据集。 04 评测策略 大模型评测的目的不同,有不同评测策略,如大模型研发人员关心的是衡量模型的性能、精选和优化模型,以加快AI创新和实践,同时确保模型的安全性和可靠性,防范潜在风险。 按架构划分 变换器(Transformer)模型:基于自注意力机制,适用于多种任务。 例如:GPT-3(由OpenAI开发)、BERT(由Google开发)。 例如:GPT-4(由OpenAI开发) 06 大模型基准评测体系 由于各种大模型的差异及评测目的的不同,评测方式同样也多种多样,如果总结成体系,能更好指导评测执行。

    1.1K10编辑于 2025-06-25
  • 13.4 大语言模型文生图能力评测

    13.4 大语言模型文生图能力评测模型的文生图能力,不仅推动了创意产业的创新,还在教育、医疗、娱乐等多个领域展现出广泛的应用前景。 通过将自然语言处理与计算机视觉相结合,这些模型能够理解文本内容并生成相应的图像,极大地丰富了人机交互的方式。 本节将深入探讨大模型在文生图能力方面的评测方法与标准。 图13-29 SuperCLUE-Image评测基准 对于图像质量的评测,分别考虑了构图、光彩、细节处理、用户体验、分辨率、锐度和结构合理性,其中: 构图:评价图像的整体布局和视觉吸引力 光彩:评价图像色彩的对比度和和谐程度 github.com/lllyasviel/ControlNet [2] Text2Video:https://github.com/Picsart-AI-Research/Text2Video-Zero [3] Sora: https://openai.com/index/sora/ [4] Magic3D:https://research.nvidia.com/labs/dir/magic3d/ [5] Text2Room

    95110编辑于 2025-04-07
  • 来自专栏机器之心

    全球140+大模型全方位评测结果出炉,智源评测体系发布

    机器之心编辑部 2024 年 5 月 17 日,智源研究院举办大模型评测发布会,正式推出科学、权威、公正、开放的智源评测体系,发布并解读国内外 140 余个开源和商业闭源的语言及多模态大模型全方位能力评测结果 在语言模型客观评测中,OpenAI GPT-4、百川智能 Baichuan3 位列第一、第二。百度文心一言 4.0、智谱华章 GLM-4 和月之暗面 Kimi 均进入语言模型主客观评测前五。 多模态生成模型文生图评测结果显示,OpenAI DALL-E3 位列第一,智谱华章 CogView3、Meta-Imagine 分居第二、第三,百度文心一格、字节跳动 doubao-Image 次之。 科学权威公正开放的智源评测体系 依托科技部 “人工智能基础模型支撑平台与评测技术” 和工信部 “大模型公共服务平台” 项目,智源研究院与 10 余家高校和机构联合开展大模型评测方法与工具研发。 智源研究院牵头成立了 IEEE 大模型评测标准小组 P3419,组织 20 余家企业及学者参与大模型标准建设,同时作为《人工智能预训练模型评测指标与方法》国家标准草案的共建单位,智源此次的模型评测,借鉴了该标准

    87810编辑于 2024-05-22
  • 来自专栏李俊飞的专栏

    3D XPoint 存储性能评测(1)

    此次实测对比一下 3D XPoint 和 SSD 等存储的性能。 1、3D XPoint, SSD, SAS 与 SATA 读写速度对比 结果分析: (1)3D XPoint 读写峰值速度在 2GB/s 左右,随机读写能到 1.8GB 左右,SSD 读写为 300~ 2、3D XPoint 在不同读写比例下的读写速度峰值 注:横轴为读写比例 结果分析: (1) 3D XPoint 在不同业务模式的读写速度差别不大,读峰值 2.1GB/s,写峰值 1.9GB/s,混合读写速度在 二、测试环境 1、硬件环境 存储类型 设备型号和容量 3D XPoint INTEL SSDPED1K375GA v1.0 / 375.08 GB SSD/SAS/SATA SSD:Z3 12*800G , SAS/SATA:实验室测试设备 2、软件环境 测设设备 测试软件及版本 实验室设备 fio 2.0.8 Z3 fio 2.0.8

    2.1K00发布于 2017-07-05
  • 来自专栏OpenMMLab

    Hugging Face 大模型评测榜集合收录 OpenCompass!

    然而大模型评测本身也是一项复杂的系统性工程,各类评测榜单的具体标准也是一团迷雾,让人真假莫辩。 OpenCompass 是一个开源开放的大模型评测平台,构建了包含学科、语言、知识、理解、推理五大维度的通用能力评测体系,支持了超过 50 个评测数据集和 30 万道评测题目,支持零样本、小样本及思维链评测 OpenCompass 支持大部分主流 HuggingFaces 上的大语言模型评测,只需几行简单配置,便可轻松开展模型评测。 平台提供大模型榜单,开源评测工具,自建评测集等多种不同的开源项目,旨在为社区提供丰富强大的一站式评测平台。 同时我们提供大量开源模型在该数据集上的评测结果,支持更进一步的数据分析与模型分析。

    3.4K10编辑于 2023-09-21
  • 来自专栏GiantPandaCV

    星辰AI大模型TeleChat-7B评测

    前言 受中电信 AI 科技有限公司的邀请,为他们近期开源的TeleChat-7B大模型做一个评测。 首先,该项目不仅开源了1TB训练预料,而且还在仓库里开源了基于LoRA的详细微调方案,这为研究人员和开发者提供了极大的便利,让我们能够更好地理解和应用这个大模型模型。 0x3. 文学创作能力测试 为了更加真实的观察模型的文学创作能力,这里不使用TeleChat-7B官方开源仓库提供的例子,而是使用我们自己的一些prompt来进行测试。 但模型本身也存在大模型幻觉,指令跟随能力一般以及回答有概率重复的问题。 但由于TeleChat模型的训练Token相比于主流模型已经比较少了,只有1.0T数据,所以相信上述问题通过更多高质量的数据以及PPO等训练可以进一步被缓解。

    67320编辑于 2024-02-22
  • 来自专栏AI智能体从入门到实践

    构建AI智能体:大模型如何“考出好成绩”:详解内在评测与外在评测方法

    3. 指导研发与优化,明白我们该如何改进它 通过评测发现模型的短板,不擅长数学计算或容易胡说八道,为开发者优化方向提供依据。对模型开发者而言,评测是指引方向的罗盘。 四、如何去评测语言模型 评测语言模型是一个系统工程,主要有两大流派:内在评测和外在评测。内在评测:就像一个学生既要考基础知识测验,也要参加综合实践项目。 不依赖具体任务,直接通过语言模型的输出来评测模型的生成能力。外在评测:通过某些具体任务,如机器翻译、摘要生成、文案写作等,来评测语言模型处理这些具体生成任务的能力。方法一:内在评测 — 考基本功1. ,无结果生成")5.2 输出结果知识库索引构建完成,包含 3 条知识开始准确率评测... =============评测时间: 2025-09-08 19:56:45测试用例数量: 3正确回答数量: 3总体准确率: 100.00% 详细结果:=========================

    54621编辑于 2025-11-19
  • 来自专栏目标检测和深度学习

    目标检测入门(二):模型评测与训练技巧

    文章结构 检测模型评测指标 目标检测模型本源上可以用统计推断的框架描述,我们关注其犯第一类错误和第二类错误的概率,通常用准确率和召回率来描述。 除此之外,COCO官方也保留一部分test数据作为比赛的评测集。 COCO数据集物体大小分布 如本文第一节所述,COCO提供的评测标准更为精细化,提供的API不仅包含了可视化、评测数据的功能,还有对模型的错误来源分析脚本,能够更清晰地展现算法的不足之处。 通常,背景类的RoI Proposal个数要远远多于前景类,Fast R-CNN的处理方式是随机对两种样本进行上采样和下采样,以使每一batch的正负样本比例保持在1:3,这一做法缓解了类别比例不均衡的问题 总结 本篇文章里,我们介绍了检测模型常用的标准评测数据集和训练模型的技巧,上述内容在溯源和表述方面的不实之处也请读者评论指出。从下一篇开始,我们将介绍检测领域较新的趋势,请持续关注。

    2.5K60发布于 2018-04-18
  • 【AGI-Eval评测报告 NO.6】o3 o4-mini 文本权威评测:o3 强势登顶

    目录: 1. o3 和 o4 mini评测分析    1.1 评测概述    1.2 o3 评测结果    1.3 o4-mini评测结果 2. o3 和 o4 mini 信息回顾 1.o3 和 o4 同类型模型能力对比: 本次评测,我们基于自建的通用能力评测集与公开评测集,将 OpenAI o3 与 o1 进行了对比: 在通用能力上,OpenAI o3 水位优于 OpenAI o1,其中推理能力有明显提升 1.3 o4-mini 评测结果 o4-mini 核心结论: o4-mini 处于推理模型第一梯队,和 o1 能力相当,但相较 o3 仍有差距;o4-mini 处于小型推理模型 Top1。 * 评测指标是被评测模型相对于标杆模型的五档加权胜率 *标杆模型为 GPT4-turbo-0125 评测方案:可点击阅读原文跳转官网,评测榜单处点击评测方案查看 2.o3 和 o4 mini 实测回顾 实测翻车率略高 虽然 o3 和 o4 mini 在实测中有不少翻车案例,但是在更加全面、科学的评测中,我们印证了 OpenAI o3 是 OpenAI 最强大的推理模型,它推动了编码、数学、科学、视觉感知等领域的发展

    42810编辑于 2025-05-08
领券