首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 全球模型真实编程能力摸底!评测新标准揭秘模型能力虚胖真相

    当前,语言模型(LLMs)在编程领域的能力受到广泛关注,相关论断在市场中普遍存在,例如 DeepMind 的 AlphaCode 曾宣称达到人类竞技编程选手的水平;OpenAI 的顶尖模型屡屡被报道能通过谷歌高级编程面试 基于此数据集,我们对全球 18 个主流模型的算法编程能力进行了系统评测并量化得分,详细评分榜单如下所示,可以看到全球顶尖模型距离以往所宣称的编程能力还存在很大差距,哪怕是最高分的 o4-mini-high 模型与人类选手的对比许多技术人员都关心:现在的语言模型在算法编程题上的表现,和真正的竞赛选手相比到底如何? 总结与展望本文深入分析了当前模型编程能力评估中存在的认知鸿沟,揭示了 “宣传” 与 “现实” 之间的差距。 尤为重要的是,希望 OIBench 的开源和透明能够为社区协作和持续创新做出一些贡献。我们期待它能成为连接学术、产业和开发者的桥梁,推动模型在算法智能领域迈向新高度。

    1.2K10编辑于 2025-07-28
  • 来自专栏OpenMMLab

    “百模大战”模型哪家强?开源的全面评测来了!

    不可否认的是,目前模型评测还是一个比较困难的问题。尽管此前已经有了 MMLU、CEval 等比较权威的开源数据集榜单,可是它们只能反映模型在某个点上的能力,并无法准确地衡量出一个模型的综合能力。 ) 支持零样本、小样本及思维链评测,轻松激发模型最大性能; 代码和提示词全面开源评测结果可自行复现; 支持对多模态模型开展全面的能力评测(包括 KOSMOS-2/MiniGPT-4 等最新多模态模型) 感受一下目前支持的所有数据集: 丰富的模型支持 作为目前最受欢迎的模型托管平台,HuggingFace 存放了市面上几乎所有流行的开源模型。 支持多种评测提示词构建策略,最大程度激发模型性能(点开可以放大查看) 开源可复现 最重要的是,OpenCompass 作为一个公开的评测方案,项目的一切是全面开源的! 目前,OpenCompass 已经放出了 ChatGPT,以及一批 7B 和 13B 开源模型评测结果。

    2.4K30编辑于 2023-08-21
  • 模型评测体系介绍及中文模型表现

    基准测试能验证模型效果,促进模型能力的持续提升,指导厂家的选型、推广大模型的行业应用,提升模型的安全合规性。 1.测试指标体系(测什么) 模型评测的指标体系按照“场景-能力-任务-指标”四个维度构建。 近年模型基准测试发展迅猛,各大机构纷纷新增数据集,尤其是2023年,一年就新增了209个评测数据集。 关于模型评测,国家也发布了标准GB/T45288.2—2025 人工智能 模型第2部分:评测指标与方法,读者可以参考。 另外,中文模型谁家最强呢? 根据SuperCLUE发布的报告,最值得关注的中文模型有: SuperCLUE将其和国外模型评测结果一起,进行了四象限分类,大家可以参考下: SuperCLUE测试报告很详尽,读者可发送“SuperCLUE

    2.9K20编辑于 2025-05-30
  • 来自专栏大语言模型

    模型能力评测方式很多?

    AI评测非单一分数比拼,而是多维度、多方法的系统工程。其核心框架可拆解为基础维度、主流基准与关键方法,共同构成模型能力的“CT扫描”系统。 一、评测的三基础维度参照源:分参考式(有标准答案,如准确率、BLEU)与非参考式(依赖判官或规则,如人类偏好、单元测试)。交互模式:覆盖静态单轮问答、多轮对话、工具调用、长上下文处理等全场景。 三、关键方法与实践要点人类偏好评测:Chatbot Arena的双盲成对比较+Elo评分(R’=R+K(S-E))为黄金标准,需规避位置/冗长偏见。 AI辅助评测:GPT-4等LLM-as-a-Judge与人类一致性达80%+,但需校准冗长偏好与自偏误。 AI评测的核心是“场景匹配”:通用能力看MMLU+人类偏好,代码能力信SWE-bench+pass@k,安全侧重拒答率与校准度。唯有多维指标联动,才能勾勒模型真实能力画像。

    50310编辑于 2025-08-13
  • 来自专栏AI科技评论

    超越 Devin,姚班带队 OpenCSG 刷新模型编程 SWEBench 评测榜单

    近日,来自中国大模型初创公司OpenCSG推出的StarShip CodeGen Agent,以23.67%的成绩刷新了普林斯顿SWEBench(模型真实独立编程评测)排行榜,取得了全球第二名的成绩, SWEBench评测高度贴近真实编程场景,难度极高,不仅要求模型能理解需求、协调多个函数/类甚至文件的变更,还要求模型与执行环境交互,处理超长上下文并执行远超传统代码生成任务的复杂逻辑推理。 1、模型编程的真实挑战 2024年3月,首个AI软件工程师Devin的横空出世,引爆了整个技术界。 核心在于软件工程师并不只是编写代码,更涉及到需求理解、代码解读、编程计划、代码生成、调试与异常修复等等环节,这里面的每个环节都会影响模型编程的可用性和效果。 3月,Devin以独立解决13.86%的问题解决率高居榜首,这直接将“模型编程”从几乎不可用的状态提升到“看到曙光”。

    77110编辑于 2024-06-03
  • 来自专栏AI技术探索和应用

    常见的模型评测数据集

    开源模型评测排行榜 https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard 其数据是由其后端lm-evaluation-harness ,旨在由入门级程序员解决,涵盖编程基础知识、标准库功能等。 CMMLU 是一个包含了 67 个主题的中文评测数据集,涉及自然科学、社会科学、工程、人文、以及常识等,有效地评估了模型在中文知识储备和语言理解上的能力。 SuperCLUE https://github.com/CLUEbenchmark/SuperCLUE SuperCLUE是一个综合性模型评测基准,本次评测主要聚焦于模型的四个能力象限,包括语言理解与生成 同时评测分为两部分,自动化评测的客观题部分和依赖于专家打分的主观题部分,这两部分结果构成了最终的分数,您可以通过构建示例中的脚本快速对一个已部署的模型进行评测,或者向我们提交您需要评测模型的主观题预测结果

    11.4K12编辑于 2024-03-13
  • 来自专栏算法进阶

    语言模型评测方法全面总结!

    本文回顾了自然语言处理中的评测基准与指标,将语言模型评估分为经典和新型评测范式,分析了现有评测的不足。接着介绍了全面的语言模型评测思想、相关指标和方法,并总结了当前广受关注的语言模型评测新方向。 为了全面评估语言模型,可以将多个数据集聚合和重新组织,形成一个更通用的评测基准。本章针对语言模型的评估对评测范式进行了分类,将其分为经典评测范式和新型评测范式。表1列出了一些典型的评测基准。 它对30个语言模型在42个场景和评测指标下进行了评测并公开了结果。然而,HELM也指出了其评测中的遗漏和不足,如部分场景和任务缺失、部分评估方法不足等。由于部分模型不再开源,全面评测存在困难。 提高系统的开源性和透明度将增强有害性评测的准确度和公平性。 3 语言模型评测的一些新方向 自ChatGPT推出以来,生成式语言模型影响日益增大,传统生成式评测方法面临挑战。 更可靠的评测方法:进一步发展更加可靠的基于模型评测方法,增强评测结果的可信度。 知识增强的评测方法:探索将特定知识注入到语言模型中的方法,从而提高基于语言模型评测方法在某些专业领域的表现。

    1.4K10编辑于 2024-07-31
  • 来自专栏Java技术进阶

    基于OpenCompass的模型评测实践

    为了准确和公正地评估模型的能力,国内外机构在模型评测上开展了大量的尝试和探索。斯坦福大学提出了较为系统的评测框架HELM,从准确性,安全性,鲁棒性和公平性等维度开展模型评测。 谷歌也提出了包含数理科学,编程代码,阅读理解,逻辑推理等子任务的评测集Big-Bench,涵盖200多个子任务,对模型能力进行系统化的评估。 由于语言模型和多模态模型的能力强大,应用场景广泛,目前学术界和工业界的评测方案往往只关注模型的部分能力维度,缺少系统化的能力维度框架与评测方案。 OpenCompass提供分布式自动化的评测系统,支持对(语言/多模态)模型开展全面系统的能力评估。 OpenCompass介绍 评测对象 本算法库的主要评测对象为语言模型与多模态模型。 我们以语言模型为例介绍评测的具体模型类型。

    1.4K10编辑于 2024-03-08
  • 来自专栏机器学习从理论到实战

    模型评测的重要性

    在人工智能领域,模型评测不仅是衡量其性能的重要手段,也是推动技术进步的关键因素。本文将深入探讨模型评测的重要性、面临的挑战,以及司南评测体系2.0的实现方法和特点。 一、模型评测的重要性模型评测对于确保模型的可靠性、安全性和有效性至关重要。它有助于:识别模型的局限性:通过评测可以发现模型在特定任务或数据集上的不足。 二、评测所面临的挑战模型评测面临诸多挑战,包括但不限于:垂直领域的专注:需要针对特定领域定制评测标准和数据集。时效性:技术发展迅速,评测体系需要不断更新以适应新的模型和算法。 数据集格式:确保数据集的格式符合评测工具的要求。结语模型评测是推动人工智能技术发展的重要环节。 司南评测体系2.0和Open Pass评测工具为我们提供了强大的评测手段,帮助我们更好地理解和改进模型。随着技术的不断进步,我们期待未来能有更多的创新和突破。

    38410编辑于 2024-12-06
  • 来自专栏新智元

    国内开源第一!百川开源模型Baichuan-13B评测揭晓|SuperCLUE

    目前为止,中文社区已经陆续发布了大量的开源模型,主要集中在6B-13B之间。 目前是中文百亿参数最好的模型吗? 目前认为对于同等量级开源模型 ,在SuperCLUE开放式多轮测评上Baichuan-13B-Chat是最好的开源模型。 2. 与ChatGPT3.5接近了吗? 详细评测方法可访问:首测生成、多轮对话能力!SuperCLUE-Open中文模型开放域测评基准发布 在SuperCLUE开放式多轮基准中,Baichuan-13B-Chat具有非常不错的效果。 在当前的生成问题与多轮评测基准中,相对于gpt-3.5、Claude基础版已经基本接近,相对于国内的百亿级开源模型,Baichuan-13B-Chat具有很大的领先性(超过了20点以上)。 不可否认的是,逻辑推理与计算对于任何语言模型来说都是一难点与痛点,即使是对于gpt4而言,稍难的题目就难以给出正确答案。 评估的不足和局限性 1.

    1.3K10编辑于 2023-08-07
  • 来自专栏计算机视觉战队

    超越所有开源模型,专门用于编程任务的模型来了

    LLM的性能越来越好了 最近一段时间,随着语言模型(LLM)的不断发布,LLM 排位赛也变得火热起来,研究者们试图在新的 LLM 评测系统中不断刷新自家模型的分数。 近日,WizardLM 团队又发布了新的 WizardCoder-15B 模型。 值得注意的是,与这些模型相比,WizardCoder 模型大小要小得多。此外,WizardCoder 比其他经过指令微调的开源 LLM 表现出更显著的优势。 与开源模型的比较。 表 1 在 HumanEval 和 MBPP 基准上对 WizardCoder 与其他开源模型进行了全面的比较。表 1 结果表明,WizardCoder 比所有开源模型都具有显著的性能优势。 OVO:在线蒸馏一次视觉Transformer搜索 最近几篇较好论文实现代码(附源代码下载) AI模型落地不远了!

    81030编辑于 2023-08-24
  • 全球模型编程评测!工程能力才是关键,别被「刷榜成绩」骗了

    近两年,语言模型编程能力发展飞快,例如 DeepMind 的 AlphaCode 曾宣称达到人类竞技编程选手的水平;OpenAI 的顶尖模型屡屡被报道能通过谷歌高级编程面试,并在 LeetCode 然而,当我们将目光从模型刷榜转向解决真实的、复杂的工程项目时,一个核心问题随之浮现:这些号称擅长编程模型在面对真实工程场景时,其准确性、健壮性和实际应用价值究竟如何? △ 图 1: CoreCodeBench 题型展示△ 图 2: CoreCodeBench 模型能力榜单通过在 CoreCodeBench 上对当前主流语言模型的全面评测,我们得出了以下关键结论:模型编程能力迭代进步显著 多函数协作是当前模型编程场景的主要瓶颈:几乎所有模型在处理多函数任务时的表现都显著劣于单函数任务。 AGI-Eval 评测社区将持续致力于高质量评估研究,推动语言模型技术向更广阔的未来发展。关注我们,检索更多评测内容!— 完 —

    87010编辑于 2025-07-31
  • 来自专栏测试开发技术

    模型评测指南:从理论到实践

    因此对模型能力及其不足之处形成更深入的认识和理解,预知并防范模型带来的安全挑战和风险,需要针对模型开展多方位的评测,一般也叫模型基准测试。 对模型进行全方位评测面临诸多挑战,由于模型的通用性强,能够胜任多种任务,因此模型的全方位评测涉及的范围广、工作量大、评测成本高昂;其次,由于数据标注工作量大,许多维度的评测基准仍然有待构建;再次, 04 评测策略 模型评测的目的不同,有不同评测策略,如模型研发人员关心的是衡量模型的性能、精选和优化模型,以加快AI创新和实践,同时确保模型的安全性和可靠性,防范潜在风险。 05 模型分类 随着人工智能领域的快速发展,新的模型和分类方式也在不断出现,一个模型可以同时属于多个分类。不同分类评测方法可能不同,因此不同模型之间评测的方式也会有差异。 例如:传统的图像识别模型。 按所有权和开放性划分 开源模型模型的代码和权重对公众开放,可以自由使用和修改。

    1.1K10编辑于 2025-06-25
  • 13.4 语言模型文生图能力评测

    13.4 语言模型文生图能力评测 模型的文生图能力,不仅推动了创意产业的创新,还在教育、医疗、娱乐等多个领域展现出广泛的应用前景。 通过将自然语言处理与计算机视觉相结合,这些模型能够理解文本内容并生成相应的图像,极大地丰富了人机交互的方式。 本节将深入探讨模型在文生图能力方面的评测方法与标准。 图13-29 SuperCLUE-Image评测基准 对于图像质量的评测,分别考虑了构图、光彩、细节处理、用户体验、分辨率、锐度和结构合理性,其中: 构图:评价图像的整体布局和视觉吸引力 光彩:评价图像色彩的对比度和和谐程度 复杂生成:评价模型根据复杂提示词生成图片的能力 最后是在效率方面对模型进行评估,分别从生成速度和资源使用进行评价,其中: 生成速度:评估模型生成图片的速度 资源使用:评估模型生成图片时使用的资源 LLMScore 利用语言模型分析图像与提示的匹配程度,适合自动化评估,然而其准确性可能受训练数据的影响。

    96010编辑于 2025-04-07
  • 来自专栏学习

    开源模型与闭源模型

    在人工智能(AI)和机器学习(ML)的快速发展过程中,模型(Large Models)已经成为推动技术进步的重要力量。当前,业界存在两种主要的模型开发模式:开源模型和闭源模型。 一、开源模型 开源模型是指开发者将模型的代码和训练数据公开,使得任何人都可以访问、修改和使用这些资源。 三、开源模型与闭源模型的对比 1.透明性与可控性: 开源模型的透明性更高,任何人都可以查看和验证其代码和数据,确保模型的行为符合预期。这对于学术研究和技术验证非常重要。 3.资源共享与独占优势: 开源模型在资源共享方面表现突出,任何人都可以利用这些开源资源进行学习和研究,促进技术的普及和应用。 闭源模型通过控制代码和数据的访问,能够更好地保护用户隐私和数据安全,降低被恶意利用的风险。 五、总结 开源模型和闭源模型各有优缺点,适合不同的应用场景和需求。

    1.7K10编辑于 2024-10-09
  • 来自专栏OpenMMLab

    新增5种编程语言代码测试!模型评测平台OpenCompass上新啦

    语言模型(LLM)在理解和生成自然语言文本方面已经取得了显著的进步。 随着应用场景的逐渐多样化,利用模型快速写出高质量代码,修复代码 Bug,提升开发效率等需求对语言模型编程代码的能力提出了新的挑战。 学术社区在代码模型上发展迅速,如 Code LLaMa,WizardCoder 等在社区获得了广泛关注。那我们该如何进行代码模型的选型? 相信通过全面透明的代码能力评测,你一定可以找到最适合自己需求的代码模型方案。 OpenCompass 代码能力评测 主要评测集 HumanEval HumanEval 是一个由 OpenAI 提供用于评估 AI 对编程问题的解决能力的数据集。

    2.3K20编辑于 2023-09-11
  • 来自专栏睡前机器学习

    开源模型到底开源什么?

    语言模型的“开源”完全不是这么一回事。先别管OpenAI现在名叫钮钴禄氏·CloseAI,就算哪天良心发现,真的要找回自己做一个名副其实的OpenAI,洗心革面把GPT-4给开源了。 那么,现在很多研究者在呼吁的开源,到底是要开源什么呢?开源模型,具体来说,是开源训练好的模型参数。模型参数拿到手,基本上就能完整复现能力了。 前面说过,模型这玩意距离能力复现就一步之遥,有很多人爱开源模型,也有很多人不爱开源模型,原因和上面差不多,还有一种是大公司机构才敢用,官方辞令很多,譬如“出于社会责任考虑”,或者“安全伦理存在巨大风险 这里为咱们的中文开源语言模型打个Call吧,能讲中文还开源语言模型真的不多,清华放出来的ChatGLM-6B应该是佼佼者,而是真·单卡就能运行。这里说的是消费级显卡。 最后就是开源数据集了,这项工作很重要,但也很容易被圈外忽视。现在中文语言模型缺的东西很多,抱怨的也很多,还有一票人天天平替这个平替那个,实在不知道怎么想。

    1.6K20编辑于 2023-09-09
  • 来自专栏OpenMMLab

    Hugging Face 模型评测榜集合收录 OpenCompass!

    在过去的半年多里,语言模型的发展突飞猛进,无论是产业界还是学术界,均取得了丰硕成果。如何量化模型性能,开源模型与闭源模型的差距有多大,这些都是整个社区都非常关心的话题。 我们面向开源社区,推出 OpenCompass 开放评测体系,以期从更纯粹的学术和中立视角来对模型的性能进行评价和分析。 OpenCompass 是一个开源开放的模型评测平台,构建了包含学科、语言、知识、理解、推理五维度的通用能力评测体系,支持了超过 50 个评测数据集和 30 万道评测题目,支持零样本、小样本及思维链评测 平台提供模型榜单,开源评测工具,自建评测集等多种不同的开源项目,旨在为社区提供丰富强大的一站式评测平台。 开源评测工具 OpenCompass 量化模型性能提升 我们将各类评测能力开源在 OpenCompass 项目:https://github.com/open-compass/opencompass,社区用户可以自行使用此工具对模型进行全方面能力的评测以及复现

    3.4K10编辑于 2023-09-21
  • 来自专栏机器学习入门

    【AI模型】LLM主流开源模型介绍

    学习目标 了解LLM主流开源模型. 掌握ChatGLM、LLaMA、Bloom等基础模型的原理 LLM主流模型类别 随着ChatGPT迅速火爆,引发了模型的时代变革,国内外各大公司也快速跟进生成式AI市场,近百款模型发布及应用 目前,市面上已经开源了各种类型的语言模型,本章节我们主要介绍其中的三类: ChatGLM-6B:衍生的模型(wenda、ChatSQL等) LLaMA:衍生的模型(Alpaca、Vicuna 、BELLE、Phoenix、Chimera等) Bloom:衍生的模型(Bloomz、BELLE、Phoenix等) ChatGLM-6B模型 ChatGLM-6B 是清华大学提出的一个开源 小结 本小节主要介绍了LLM主流的开源模型,对不同模型架构、训练目标、优缺点进行了分析和总结。

    1.2K10编辑于 2024-09-24
  • 来自专栏AI SPPECH

    58_模型评估与评测:构建科学的多维度评测体系

    引言 在语言模型(LLM)技术飞速发展的今天,如何科学、全面地评估和评测这些模型的能力已成为学术界和工业界共同关注的核心问题。 2025年,模型生态系统呈现出百花齐放的态势,从参数规模、架构设计到应用场景都出现了多样化的发展路径。在这种背景下,单一的性能指标或评测方法已经无法满足对模型进行全面评估的需求。 本文将深入探讨模型评估与评测的科学方法论,从评估框架设计、基准测试选择、多维度指标体系构建到实际应用场景的评估实践,为读者提供一套完整的模型评估指南。 SuperCLUE 评估体系:中文模型综合测评体系,包含多个子基准 评测维度:覆盖语言理解、生成、推理、知识等多个维度 特色模块:包含Agent能力评测、多轮对话评测等特色模块 定期发布:按月发布中文模型评测报告 EleutherAI Eval:专注于开源模型评估的工具集 MMLU Evaluator:专门用于评估模型多任务语言理解能力的工具 2.

    1.3K11编辑于 2025-11-13
领券