首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏机器之心

    击败Llama 2,抗衡GPT-3.5,Stability AI新模型登顶开源大模型排行榜

    性能数据 为了对这些模型进行内部评估,研究者使用了 EleutherAI 的 lm-eval-harness 基准,并加入了 AGIEvalAGIEval 则由微软创建,专门用于评估基础模型在「以人为本」(human-centric)的标准化考试中的表现,比如数学竞赛、律师资格考试。 两个模型在 lm-eval-harness 基准上的评估结果如下(这些 FreeWilly 测试结果是由 Stability AI 研究人员来评估的): 二者在 AGIEval 基准上的表现如下(全部是

    38230编辑于 2023-08-08
  • 来自专栏新智元

    微软华人团队发布全新基准AGIEval,专为人类考试而生

    最近,微软的研究人员发布了一个全新基准AGIEval,专门用于评估基础模型在「以人为本」(human-centric)的标准化考试中,如高考、公务员考试、法学院入学考试、数学竞赛和律师资格考试中的表现。 论文链接:https://arxiv.org/pdf/2304.06364.pdf 数据链接:https://github.com/microsoft/AGIEval 研究人员使用AGIEval基准评估了三个最先进的基础模型 AGIEval数据集 近年来,大型基础模型如GPT-4在各个领域已经表现出非常强大的能力,可以辅助人类处理日常事件,甚至还能在法律、医学和金融等专业领域提供决策建议。 研究人员构造AGIEval数据集主要遵循两个设计原则: 1. 通过遵守这些官方认可的评估人类水平能力的标准,AGIEval可以确保对模型性能的评估与人类决策和认知能力直接相关。 2.

    49540编辑于 2023-05-15
  • 来自专栏机器之心

    中文大语言模型赶考:商汤与上海AI Lab等新发布「书生·浦语」

    “书生・浦语” 联合团队选取了 20 余项评测对其进行检验,其中包含全球最具影响力的四个综合性考试评测集: 由伯克利加州大学等高校构建的多任务考试评测集 MMLU; 微软研究院推出的学科考试评测集 AGIEval “书生・浦语” 不仅显著超越了 GLM-130B 和 LLaMA-65B 等学术开源模型,还在 AGIEval、C-Eval,以及 Gaokao 等多个综合性考试中领先于 ChatGPT;在以美国考试为主的 图中粗体表示结果最佳,下划线表示结果第二 AGIEval 是由微软研究院在今年新提出的学科考试评测集,主要目标是通过面向的考试来评估语言模型的能力,从而实现模型智能和人类智能的对比。 值得一提的是,在这 19 个大项有 9 个大项是中国高考,通常也列为一个重要的评测子集 AGIEval (GK)。 下列表格中,带 GK 的是中国高考科目。

    46330编辑于 2023-08-04
  • 来自专栏AI技术探索和应用

    常见的大模型评测数据集

    AGIEval https://github.com/ruixiangcui/AGIEval AGIEval 是一个用于评估基础模型在标准化考试(如高考、公务员考试、法学院入学考试、数学竞赛和律师资格考试 AGIEval 是一个以人为中心的基准测试,专门用于评估基础模型在与人类认知和解决问题相关的任务中的一般能力。 有关基准测试的完整描述,请参阅我们的论文:AGIEval:评估基础模型的以人为本的基准。

    11.4K12编辑于 2024-03-13
  • 来自专栏机器之心

    性能超越Llama2-13B,可免费商用,姚星创业公司开源百亿参数通用大模型

    多个权威中文测评中表现优异,超越 Baichuan-13B 为验证模型各项能力,XVERSE-13B 通过 C-Eval、AGIEval 和 GAOKAO-Bench 等三个最具影响力的中文测评基准的综合评估 在 AGIEval 测评里,XVERSE-13B 综合评分达到 41.4 分,超越了同参数规模主流模型(图二)。 AGIEval 测评基准由微软研究院发起,旨在全面评估基础模型在人类认知和问题解决相关任务上的能力,包含了中国的高考、司法考试,以及美国的 SAT、LSAT、GRE 和 GMAT 等 20 个公开且严谨的官方入学和职业资格考试

    48530编辑于 2023-09-08
  • 来自专栏新智元

    王小川大模型首亮相!70亿参数霸榜,清北抢先用|独家专访

    baichuan-7B不仅在C-Eval、AGIEval和Gaokao中文权威评测榜单上,以显著优势全面超过了ChatGLM-6B等其他大模型,并且在MMLU英文权威评测榜单上,大幅领先LLaMA-7B modelscope.cn/models/baichuan-inc/baichuan-7B/summary 多个中文评估基准拿下7B最佳 为了验证模型的各项能力,baichuan-7B在C-Eval、AGIEvalAGIEval的评测里,baichuan-7B综合评分达到34.4分,远超LLaMA-7B、Falcon-7B、Bloom-7B以及ChatGLM-6B等其他开源模型。 https://cevalbenchmark.com/static/leaderboard_zh.html(2023-06-15) AGIEval评测基准由微软研究院发起,旨在全面评估基础模型在人类认知和问题解决相关任务上的能力

    41520编辑于 2023-08-05
  • 来自专栏量子位

    国产130亿参数大模型免费商用!性能超Llama2-13B,支持8k上下文,哈工大已用上

    具体到各项能力测评上,他们选取了 MMLU(英文)、 C-Eval(中文)、AGIEval(中英) 、GAOKAO-Bench(中英)、GAOKAO-English(英文)等在内的评测集。 其内容涵盖从初级水平到高级专业水平) 还有在C-Eval、AGIEval和GAOKAO-Bench等中文测评中,分别以54.7、41.4以及53.9分超越了其他模型。

    50010编辑于 2023-09-08
  • 来自专栏量子位

    1.3>7?微软新模型“以小博大”战胜Llama2,网友:用Benchmark训练的吧?

    phi-1.5在AGIEval、 LM-Eval等多个Benchmark上都取得了比Llama2还要优异的成绩。 如果这些听起来不够直观,那么又该怎么形容它的效果呢? 而在AGIEval测试中,phi-1.5以0.247的均分战胜了0.236分的Llama2。 除了能力测评表现优异,phi-1.5在安全性上也不输给Llama2。

    47540编辑于 2023-09-19
  • 来自专栏量子位

    王小川大模型2个月交卷!开源7B规模里中文最强,GitHub揽星2.2k

    而且在3个中文评估基准C-Eval、AGIEval和Gaokao上,均拿下SOTA。 据官方消息,baichuan-7B代码采用更为宽松的开源协议,只需简单登记,就能免费商用。 为了验证模型的各项能力,baichuan-7B在C-Eval、AGIEval和Gaokao三个中文评估基准进行了综合评估,均获得优异成绩。

    45540编辑于 2023-08-04
  • 来自专栏OpenMMLab

    开源模型离GPT-4有多远,OpenCompass LLM评测8月榜单新鲜出炉

    我们选用了 C-Eval、AGIEval、MMLU、GAOKAO-Bench、ARC-c/e, CMMLU 等 多个中英文多领域的数据集来进行性能评估。 GPT4 优势依然十分明显,但 ChatGPT 已经在 C-Eval、AGIEval、MMLU 上被开源模型几近追平。

    1.2K31编辑于 2023-09-11
  • 来自专栏新智元

    「模仿学习」只会套话?解释微调+130亿参数Orca:推理能力打平ChatGPT

    在实验评估中,Orca超过了其他SOTA指令微调模型,在BigBench Hard(BBH)等复杂的零样本推理基准中实现了比Vicuna-13B翻倍的性能表现,在AGIEval上也实现了42%的性能提升 在AGIEval的实验中可以看到,Orca的表现与Text-da-Vinci-003相当,并实现了ChatGPT 88%的性能表现,不过明显落后于GPT-4 对于分析和推理任务,Vicuna的表现明显更差

    48520编辑于 2023-08-05
  • Baichuan2模型部署运行

    AGIEval 旨在评估模型的认知和解决问题相关的任务中的一般能力。 我们只保留了其中的四选一单项选择题,并进行了随机划分。我们采用了与 C-Eval 类似的评测方案。 7B 模型结果 C-Eval MMLU CMMLU Gaokao AGIEval BBH 5-shot 5-shot 5-shot 5-shot 5-shot 3-shot GPT Baichuan2-7B-Base 54.00 54.16 57.07 47.47 42.73 41.56 13B 模型结果 C-Eval MMLU CMMLU Gaokao AGIEval

    79110编辑于 2024-03-26
  • AGI-Eval 评测框架开源,让每个人都能轻松开启评测

    your-api-endpoint export SCORE_MODEL_NAME=your-model-name export SCORE_API_KEY=your-api-keyStep3:启动评测agieval

    26410编辑于 2025-11-25
  • 来自专栏新智元

    Stability AI火速发布Llama 2微调模型FreeWilly,性能媲美ChatGPT!网友惊呼游戏规则已改变

    模型性能的评估 在性能评估方面,Stability AI的研究人员采用了EleutherAI的lm-eval-harness,并加入了AGIEval

    47820编辑于 2023-08-07
  • 来自专栏量子位

    王小川的大模型打造秘籍首次曝光:五步走,两个月炼成

    目前,比较权威的几个评估数据集主要有中文数据集C-Eval数据集、Gaokao、AGIEval,英文数据集MMLU,代码能力评估集Human Eval和数学能力评估集GSM8K、MATH等。 其中,C-Eval数据集是最全面的中文基础模型评测数据集,涵盖了52个学科和四个难度的级别; Gaokao是以中国高考题作为评测大语言模型能力的数据集,用以评估模型的语言能力和逻辑推理能力; AGIEval 中文评测方面,baichuan-7B在C-Eval、Gaokao和AGIEval的综合评估中均获得了优异成绩,不仅远超其他同规模参数的大模型,甚至比某些参数规模更大的模型还要出色。

    53340编辑于 2023-08-05
  • 来自专栏开源服务指南

    无损剪切音视频文件的跨平台工具:LosslessCut | 开源日报 0908

    的关键特性和核心优势: 在标准的中文和英文 benchmark (C-Eval/MMLU) 上取得同尺寸更好效果 支持多领域学科评测数据集 C-Eval 和 Gaokao 具备认知与问题解决相关任务能力评估 AGIEval

    3K10编辑于 2023-09-14
  • 来自专栏量子位

    12项性能位居第一,中国最接近GPT-4的大模型来了!现已全面开放服务!

    据了解,这个评测是在全球51个知名评测集(包括MMLU、AGIEval、ARC、CEval、Race、GSM8K等)、共计30万道问题集合上测试所得到的结果。 时隔仅仅两个月(今年6月),商汤科技联合上海人工智能实验室发布InternLM-104B版本,并且当时在三个全球权威测评基准中(MMLU、AGIEval、C-Eval)的表现就均已超越ChatGPT。

    95710编辑于 2023-09-08
  • 来自专栏新智元

    1300亿参数,国内首个数学大模型MathGPT上线!多项基准赶超GPT-4

    MathGPT技术报告 MathGPT技术报告显示,在CEval-Math、AGIEval-Math、APE5K、CMMLU-Math、高考数学和Math401等6个公开数学评测集合的测试结果中,好未来的

    74610编辑于 2023-09-09
  • 来自专栏机器之心

    小模型如何比肩大模型,北理工发布明德大模型MindLLM,小模型潜力巨大

    我们的评估结果优于部分大型模型,在未使用指令微调和对齐时,MindLLM模型 在 MMLU 和 AGIEval 评测上的性能优于 MPT-7B 和 GPT-J-6B 等大型模型。 预训练细节如下: 预训练阶段评估 较小的模型可以击败更大的模型 为评估模型的中英文能力,我们使用MMLU(5-shot)和AGIEval(4-shot)评估模型英文能力,使用C-Eval(5-shot) 其中AGIEval采用英文部分的多选题部分。

    1.7K20编辑于 2023-10-29
  • 来自专栏新智元

    20B量级大模型性能媲美Llama2-70B!完全开源,从基座到工具全安排明白了

    具体来说,InternLM-20B在MMLU、C-Eval、AGIEval综合性学科评测中成绩优异,在同量级开源模型中处于领先位置。 尤其是在包含中文学科考试的C-Eval和AGIEval上,表现明显超过了Llama2-70B。

    72610编辑于 2023-09-22
领券