首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 全球模型真实编程能力摸底!评测新标准揭秘模型能力虚胖真相

    当前,语言模型(LLMs)在编程领域的能力受到广泛关注,相关论断在市场中普遍存在,例如 DeepMind 的 AlphaCode 曾宣称达到人类竞技编程选手的水平;OpenAI 的顶尖模型屡屡被报道能通过谷歌高级编程面试 基于此数据集,我们对全球 18 个主流模型的算法编程能力进行了系统评测并量化得分,详细评分榜单如下所示,可以看到全球顶尖模型距离以往所宣称的编程能力还存在很大差距,哪怕是最高分的 o4-mini-high 模型与人类选手的对比许多技术人员都关心:现在的语言模型在算法编程题上的表现,和真正的竞赛选手相比到底如何? 总结与展望本文深入分析了当前模型编程能力评估中存在的认知鸿沟,揭示了 “宣传” 与 “现实” 之间的差距。 尤为重要的是,希望 OIBench 的开源和透明能够为社区协作和持续创新做出一些贡献。我们期待它能成为连接学术、产业和开发者的桥梁,推动模型在算法智能领域迈向新高度。

    1.2K10编辑于 2025-07-28
  • 来自专栏OpenMMLab

    “百模大战”模型哪家强?开源的全面评测来了!

    不可否认的是,目前模型评测还是一个比较困难的问题。尽管此前已经有了 MMLU、CEval 等比较权威的开源数据集榜单,可是它们只能反映模型在某个点上的能力,并无法准确地衡量出一个模型的综合能力。 ; 全面支持各类开源模型(InternLM, LLaMA, ChatGLM2, Baichuan 等)和 API 模型(ChatGPT, Claude 等); 分布式高效评测,三小时完成千亿模型评测(资源充足的情况下 ) 支持零样本、小样本及思维链评测,轻松激发模型最大性能; 代码和提示词全面开源评测结果可自行复现; 支持对多模态模型开展全面的能力评测(包括 KOSMOS-2/MiniGPT-4 等最新多模态模型) 感受一下目前支持的所有数据集: 丰富的模型支持 作为目前最受欢迎的模型托管平台,HuggingFace 存放了市面上几乎所有流行的开源模型。 支持多种评测提示词构建策略,最大程度激发模型性能(点开可以放大查看) 开源可复现 最重要的是,OpenCompass 作为一个公开的评测方案,项目的一切是全面开源的!

    2.4K30编辑于 2023-08-21
  • 模型评测体系介绍及中文模型表现

    1.测试指标体系(测什么) 模型评测的指标体系按照“场景-能力-任务-指标”四个维度构建。 2.测试方法(如何测) 模型基准测试流程包括:需求分析、环境准备、数据构建、测试执行、结果评估、结果展示这几个步骤。 近年模型基准测试发展迅猛,各大机构纷纷新增数据集,尤其是2023年,一年就新增了209个评测数据集。 关于模型评测,国家也发布了标准GB/T45288.2—2025 人工智能 模型2部分:评测指标与方法,读者可以参考。 另外,中文模型谁家最强呢? 参考文档: 1.Evaluating Large Language Models: A Comprehensive Survey(发送“模型测试”可得) 2.中国信通院《模型基准测试体系研究报告2024

    2.9K20编辑于 2025-05-30
  • 来自专栏大语言模型

    模型能力评测方式很多?

    AI评测非单一分数比拼,而是多维度、多方法的系统工程。其核心框架可拆解为基础维度、主流基准与关键方法,共同构成模型能力的“CT扫描”系统。 一、评测的三基础维度参照源:分参考式(有标准答案,如准确率、BLEU)与非参考式(依赖判官或规则,如人类偏好、单元测试)。交互模式:覆盖静态单轮问答、多轮对话、工具调用、长上下文处理等全场景。 三、关键方法与实践要点人类偏好评测:Chatbot Arena的双盲成对比较+Elo评分(R’=R+K(S-E))为黄金标准,需规避位置/冗长偏见。 AI辅助评测:GPT-4等LLM-as-a-Judge与人类一致性达80%+,但需校准冗长偏好与自偏误。 AI评测的核心是“场景匹配”:通用能力看MMLU+人类偏好,代码能力信SWE-bench+pass@k,安全侧重拒答率与校准度。唯有多维指标联动,才能勾勒模型真实能力画像。

    50310编辑于 2025-08-13
  • 来自专栏AI科技评论

    超越 Devin,姚班带队 OpenCSG 刷新模型编程 SWEBench 评测榜单

    近日,来自中国大模型初创公司OpenCSG推出的StarShip CodeGen Agent,以23.67%的成绩刷新了普林斯顿SWEBench(模型真实独立编程评测)排行榜,取得了全球第二名的成绩, SWEBench评测高度贴近真实编程场景,难度极高,不仅要求模型能理解需求、协调多个函数/类甚至文件的变更,还要求模型与执行环境交互,处理超长上下文并执行远超传统代码生成任务的复杂逻辑推理。 1、模型编程的真实挑战 2024年3月,首个AI软件工程师Devin的横空出世,引爆了整个技术界。 核心在于软件工程师并不只是编写代码,更涉及到需求理解、代码解读、编程计划、代码生成、调试与异常修复等等环节,这里面的每个环节都会影响模型编程的可用性和效果。 2、OpenCSG的突破: 模型+Agent齐发力 近日SWEBench最新评测结果更新,OpenCSG跃居榜单第二名,该公司推出的OpenCSG StarShip CodeGen Agent在Lite

    77110编辑于 2024-06-03
  • 来自专栏Soul Joy Hub

    模型AIGC系列课程 3-2】国产开源模型:ChatGLM

    GLM https://arxiv.org/pdf/2103.10360.pdf GLM是General Language Model的缩写,是一种通用的语言模型预训练框架。 具体来说,GLM通过随机遮盖文本中连续的标记,并训练模型按顺序重新生成这些遮盖的部分。这种自回归的空白填充目标使得GLM能够更好地捕捉上下文中标记之间的依赖关系,并且能够处理可变长度的空白。 这个图示说明了GLM预训练的过程,具体解释如下: a) 原始文本:给定一个原始文本,例如[x1, x2, x3, x4, x5, x6]。 在生成过程中,模型可以根据之前生成的词片段和Part A中的上下文来预测下一个词片段。 d) 自注意力掩码:为了限制模型的注意力范围,

    77820编辑于 2023-08-28
  • 来自专栏算法进阶

    语言模型评测方法全面总结!

    因此,提高评估结果的解释性对于提高模型性能和优化至关重要。 2 全面的语言模型评测 HELM是Liang等人提出的一种全面评估语言模型的方法,适用于多个场景、任务和评估指标。 它对30个语言模型在42个场景和评测指标下进行了评测并公开了结果。然而,HELM也指出了其评测中的遗漏和不足,如部分场景和任务缺失、部分评估方法不足等。由于部分模型不再开源,全面评测存在困难。 提高系统的开源性和透明度将增强有害性评测的准确度和公平性。 3 语言模型评测的一些新方向 自ChatGPT推出以来,生成式语言模型影响日益增大,传统生成式评测方法面临挑战。 BERTScore的计算结构如图2所示。 图2 BERTScore的计算结构 3.1.2 BERTforMTE BERT for MTE是一种基于BERT的评测方法,通过句子对编码的方式同时编码待测文本和参考文本,并使用基于MLP的回归模型得到最后的指标分数

    1.4K10编辑于 2024-07-31
  • 来自专栏AI技术探索和应用

    常见的模型评测数据集

    开源模型评测排行榜 https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard 其数据是由其后端lm-evaluation-harness ,旨在由入门级程序员解决,涵盖编程基础知识、标准库功能等。 CMMLU 是一个包含了 67 个主题的中文评测数据集,涉及自然科学、社会科学、工程、人文、以及常识等,有效地评估了模型在中文知识储备和语言理解上的能力。 SuperCLUE https://github.com/CLUEbenchmark/SuperCLUE SuperCLUE是一个综合性模型评测基准,本次评测主要聚焦于模型的四个能力象限,包括语言理解与生成 同时评测分为两部分,自动化评测的客观题部分和依赖于专家打分的主观题部分,这两部分结果构成了最终的分数,您可以通过构建示例中的脚本快速对一个已部署的模型进行评测,或者向我们提交您需要评测模型的主观题预测结果

    11.4K12编辑于 2024-03-13
  • 来自专栏Java技术进阶

    基于OpenCompass的模型评测实践

    谷歌也迅速上线了基于自家语言模型PaLM和PaLM-2的Bard,与OpenAI和微软展开正面竞争。 为了准确和公正地评估模型的能力,国内外机构在模型评测上开展了大量的尝试和探索。斯坦福大学提出了较为系统的评测框架HELM,从准确性,安全性,鲁棒性和公平性等维度开展模型评测。 谷歌也提出了包含数理科学,编程代码,阅读理解,逻辑推理等子任务的评测集Big-Bench,涵盖200多个子任务,对模型能力进行系统化的评估。 OpenCompass提供分布式自动化的评测系统,支持对(语言/多模态)模型开展全面系统的能力评估。 OpenCompass介绍 评测对象 本算法库的主要评测对象为语言模型与多模态模型。 我们以语言模型为例介绍评测的具体模型类型。

    1.4K10编辑于 2024-03-08
  • 来自专栏机器学习从理论到实战

    模型评测的重要性

    在人工智能领域,模型评测不仅是衡量其性能的重要手段,也是推动技术进步的关键因素。本文将深入探讨模型评测的重要性、面临的挑战,以及司南评测体系2.0的实现方法和特点。 一、模型评测的重要性模型评测对于确保模型的可靠性、安全性和有效性至关重要。它有助于:识别模型的局限性:通过评测可以发现模型在特定任务或数据集上的不足。 二、评测所面临的挑战模型评测面临诸多挑战,包括但不限于:垂直领域的专注:需要针对特定领域定制评测标准和数据集。时效性:技术发展迅速,评测体系需要不断更新以适应新的模型和算法。 数据集格式:确保数据集的格式符合评测工具的要求。结语模型评测是推动人工智能技术发展的重要环节。 司南评测体系2.0和Open Pass评测工具为我们提供了强大的评测手段,帮助我们更好地理解和改进模型。随着技术的不断进步,我们期待未来能有更多的创新和突破。

    38410编辑于 2024-12-06
  • 来自专栏新智元

    国内开源第一!百川开源模型Baichuan-13B评测揭晓|SuperCLUE

    目前是中文百亿参数最好的模型吗? 目前认为对于同等量级开源模型 ,在SuperCLUE开放式多轮测评上Baichuan-13B-Chat是最好的开源模型2. 与ChatGPT3.5接近了吗? 详细评测方法可访问:首测生成、多轮对话能力!SuperCLUE-Open中文模型开放域测评基准发布 在SuperCLUE开放式多轮基准中,Baichuan-13B-Chat具有非常不错的效果。 在当前的生成问题与多轮评测基准中,相对于gpt-3.5、Claude基础版已经基本接近,相对于国内的百亿级开源模型,Baichuan-13B-Chat具有很大的领先性(超过了20点以上)。 而gpt-3.5-turbo虽然也完成了任务,但是返回了一点多余的内容,这在实际的下游场景中可能会对编程造成一定的麻烦。 2. 上下文能力的例子 在两轮对话的测试中,百川展现了不错的上下文能力。 2. 评估的能力主要是基于SuperCLUE的十基础能力,即使具有较高的代表性,但并不能保证覆盖了所有能力的评估。 3.

    1.3K10编辑于 2023-08-07
  • 来自专栏

    最新最强,DeepSeek模型v2的技术指标评测

    最近,来自杭州的深度求索发布了第二代开源MoE模型DeepSeek-V2,从各项指标来看,都具备了领先水平,无论与开源模型,还是闭源模型对比,都处于第一梯队,是GPT-4, 文心4.0, Qwen1.5 在性能上,它与GPT-4-Turbo、文心4.0等闭源模型在中文综合能力评测中处于同一梯队,英文综合能力与开源模型LLaMA3-70B处于同一梯队。 中文能力 中文综合能力(AlignBench)开源模型中最强,与 GPT-4-Turbo,文心 4.0 等闭源模型评测中处于同一梯队。 编程能力 擅长编程任务和逻辑推理,适用于技术领域和需要复杂决策的应用场景。从官方把coder放在突出位置,就可以看出团队对自家模型编程能力的自信。 在当前主流的模型服务中,我认为要具备以下几点才能称得上好模型:1. 开源2. 价格低,3. 对中文的理解能力强,4. 在架构上支持更大的上下文窗口和更牛的性能。

    8K10编辑于 2024-05-13
  • 来自专栏计算机视觉战队

    超越所有开源模型,专门用于编程任务的模型来了

    LLM的性能越来越好了 最近一段时间,随着语言模型(LLM)的不断发布,LLM 排位赛也变得火热起来,研究者们试图在新的 LLM 评测系统中不断刷新自家模型的分数。 近日,WizardLM 团队又发布了新的 WizardCoder-15B 模型。 值得注意的是,与这些模型相比,WizardCoder 模型大小要小得多。此外,WizardCoder 比其他经过指令微调的开源 LLM 表现出更显著的优势。 与开源模型的比较。 表 1 在 HumanEval 和 MBPP 基准上对 WizardCoder 与其他开源模型进行了全面的比较。表 1 结果表明,WizardCoder 比所有开源模型都具有显著的性能优势。 OVO:在线蒸馏一次视觉Transformer搜索 最近几篇较好论文实现代码(附源代码下载) AI模型落地不远了!

    81030编辑于 2023-08-24
  • 全球模型编程评测!工程能力才是关键,别被「刷榜成绩」骗了

    近两年,语言模型编程能力发展飞快,例如 DeepMind 的 AlphaCode 曾宣称达到人类竞技编程选手的水平;OpenAI 的顶尖模型屡屡被报道能通过谷歌高级编程面试,并在 LeetCode 然而,当我们将目光从模型刷榜转向解决真实的、复杂的工程项目时,一个核心问题随之浮现:这些号称擅长编程模型在面对真实工程场景时,其准确性、健壮性和实际应用价值究竟如何? △ 图 1: CoreCodeBench 题型展示△ 图 2: CoreCodeBench 模型能力榜单通过在 CoreCodeBench 上对当前主流语言模型的全面评测,我们得出了以下关键结论:模型编程能力迭代进步显著 多函数协作是当前模型编程场景的主要瓶颈:几乎所有模型在处理多函数任务时的表现都显著劣于单函数任务。 AGI-Eval 评测社区将持续致力于高质量评估研究,推动语言模型技术向更广阔的未来发展。关注我们,检索更多评测内容!— 完 —

    87010编辑于 2025-07-31
  • 来自专栏测试开发技术

    模型评测指南:从理论到实践

    因此对模型能力及其不足之处形成更深入的认识和理解,预知并防范模型带来的安全挑战和风险,需要针对模型开展多方位的评测,一般也叫模型基准测试。 对模型进行全方位评测面临诸多挑战,由于模型的通用性强,能够胜任多种任务,因此模型的全方位评测涉及的范围广、工作量大、评测成本高昂;其次,由于数据标注工作量大,许多维度的评测基准仍然有待构建;再次, 04 评测策略 模型评测的目的不同,有不同评测策略,如模型研发人员关心的是衡量模型的性能、精选和优化模型,以加快AI创新和实践,同时确保模型的安全性和可靠性,防范潜在风险。 垂直模型 L2:针对特定任务或场景,利用任务相关数据进行预训练或微调,提高在该任务上的性能和效果。 例如:传统的图像识别模型。 按所有权和开放性划分 开源模型模型的代码和权重对公众开放,可以自由使用和修改。

    1.1K10编辑于 2025-06-25
  • 13.4 语言模型文生图能力评测

    13.4 语言模型文生图能力评测 模型的文生图能力,不仅推动了创意产业的创新,还在教育、医疗、娱乐等多个领域展现出广泛的应用前景。 通过将自然语言处理与计算机视觉相结合,这些模型能够理解文本内容并生成相应的图像,极大地丰富了人机交互的方式。 本节将深入探讨模型在文生图能力方面的评测方法与标准。 图13-29 SuperCLUE-Image评测基准 对于图像质量的评测,分别考虑了构图、光彩、细节处理、用户体验、分辨率、锐度和结构合理性,其中: 构图:评价图像的整体布局和视觉吸引力 光彩:评价图像色彩的对比度和和谐程度 复杂生成:评价模型根据复杂提示词生成图片的能力 最后是在效率方面对模型进行评估,分别从生成速度和资源使用进行评价,其中: 生成速度:评估模型生成图片的速度 资源使用:评估模型生成图片时使用的资源 LLMScore 利用语言模型分析图像与提示的匹配程度,适合自动化评估,然而其准确性可能受训练数据的影响。

    96010编辑于 2025-04-07
  • 来自专栏学习

    开源模型与闭源模型

    一、开源模型 开源模型是指开发者将模型的代码和训练数据公开,使得任何人都可以访问、修改和使用这些资源。 这有助于发现和修正潜在的偏见和错误,提高模型的可信度​ (AIIndex)​。 2.社区协作和创新: 开源社区的协作可以加速技术进步。 2.安全和隐私问题: 开源模型的公开性也意味着潜在的安全和隐私风险。恶意行为者可能会利用这些资源进行攻击或滥用,导致数据泄露和隐私侵犯​ (Unite.AI)​。 三、开源模型与闭源模型的对比 1.透明性与可控性: 开源模型的透明性更高,任何人都可以查看和验证其代码和数据,确保模型的行为符合预期。这对于学术研究和技术验证非常重要。 闭源模型则更注重控制和保护,开发者可以完全掌握模型的使用和分发,防止技术泄露和被滥用。 2.创新速度与商业应用: 开源模型通过社区协作,能够快速迭代和创新,推动技术进步。

    1.7K10编辑于 2024-10-09
  • 来自专栏OpenMMLab

    新增5种编程语言代码测试!模型评测平台OpenCompass上新啦

    语言模型(LLM)在理解和生成自然语言文本方面已经取得了显著的进步。 随着应用场景的逐渐多样化,利用模型快速写出高质量代码,修复代码 Bug,提升开发效率等需求对语言模型编程代码的能力提出了新的挑战。 学术社区在代码模型上发展迅速,如 Code LLaMa,WizardCoder 等在社区获得了广泛关注。那我们该如何进行代码模型的选型? 相信通过全面透明的代码能力评测,你一定可以找到最适合自己需求的代码模型方案。 OpenCompass 代码能力评测 主要评测集 HumanEval HumanEval 是一个由 OpenAI 提供用于评估 AI 对编程问题的解决能力的数据集。

    2.3K20编辑于 2023-09-11
  • 来自专栏睡前机器学习

    开源模型到底开源什么?

    语言模型的“开源”完全不是这么一回事。先别管OpenAI现在名叫钮钴禄氏·CloseAI,就算哪天良心发现,真的要找回自己做一个名副其实的OpenAI,洗心革面把GPT-4给开源了。 那么,现在很多研究者在呼吁的开源,到底是要开源什么呢?开源模型,具体来说,是开源训练好的模型参数。模型参数拿到手,基本上就能完整复现能力了。 前面说过,模型这玩意距离能力复现就一步之遥,有很多人爱开源模型,也有很多人不爱开源模型,原因和上面差不多,还有一种是大公司机构才敢用,官方辞令很多,譬如“出于社会责任考虑”,或者“安全伦理存在巨大风险 这里为咱们的中文开源语言模型打个Call吧,能讲中文还开源语言模型真的不多,清华放出来的ChatGLM-6B应该是佼佼者,而是真·单卡就能运行。这里说的是消费级显卡。 最后就是开源数据集了,这项工作很重要,但也很容易被圈外忽视。现在中文语言模型缺的东西很多,抱怨的也很多,还有一票人天天平替这个平替那个,实在不知道怎么想。

    1.6K20编辑于 2023-09-09
  • 来自专栏OpenMMLab

    Hugging Face 模型评测榜集合收录 OpenCompass!

    在过去的半年多里,语言模型的发展突飞猛进,无论是产业界还是学术界,均取得了丰硕成果。如何量化模型性能,开源模型与闭源模型的差距有多大,这些都是整个社区都非常关心的话题。 我们面向开源社区,推出 OpenCompass 开放评测体系,以期从更纯粹的学术和中立视角来对模型的性能进行评价和分析。 OpenCompass 是一个开源开放的模型评测平台,构建了包含学科、语言、知识、理解、推理五维度的通用能力评测体系,支持了超过 50 个评测数据集和 30 万道评测题目,支持零样本、小样本及思维链评测 平台提供模型榜单,开源评测工具,自建评测集等多种不同的开源项目,旨在为社区提供丰富强大的一站式评测平台。 开源评测工具 OpenCompass 量化模型性能提升 我们将各类评测能力开源在 OpenCompass 项目:https://github.com/open-compass/opencompass,社区用户可以自行使用此工具对模型进行全方面能力的评测以及复现

    3.4K10编辑于 2023-09-21
领券