搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏运维开发王义杰
AI: 当前流行的大模型智能水平排名
这些大模型的智能水平可以通过一系列的标准化基准测试来评估，如MMLU、GPQA、MATH、MGSM、DROP和HumanEval。这些测试指标包括MMLU、GPQA、MATH、MGSM、DROP和HumanEval。以下是对这些指标的详细解释，以帮助大众理解它们的含义及其重要性。 1. MMLU（Massive Multitask Language Understanding） MMLU（大规模多任务语言理解）是一个综合性的测试，旨在评估模型在多个任务上的语言理解能力。 GPT-4o GPT-4o在各个测试中的表现十分突出，特别是在MMLU（88.7）、MGSM（90.5）和HumanEval（90.2）测试中，它的得分均为最高。例如，在MMLU（86.4）和DROP（80.9）测试中的表现显示，它依然是一款非常有竞争力的模型。
2.7K10编辑于 2024-08-05
来自专栏机器之心
彻底反转：号称「碾压」LLaMA的Falcon实测得分仅49.08，HuggingFace决定重写排行榜代码
不过，仔细看过数据之后，围观者产生了疑问：为什么在 HuggingFace 的 Open LLM 排行榜上，LLaMA-65B 的 MMLU 这项分数是 48.8，明显低于官方数据 63.4？地址：https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard LLaMA 论文中的 MMLU 数据。 MMLU 是 Massive Multitask Language Understanding 的缩写，是一个基准数据集，旨在通过仅在零样本和少样本设置下评估模型来衡量预训练期间获取的知识。 Chain-of-thought Hub 上重新写了开源的 LLaMA eval 代码，然后在同样的设定下，用官方 prompt，fp16，HF 默认代码，公平比较了 Falcon 和 LLaMA 在 MMLU 为了方便大家检查代码和开源结果，符尧公布了相关地址：https://github.com/FranxYao/chain-of-thought-hub/tree/main/MMLU 如果在检查后有新的发现
40560编辑于 2023-08-07
来自专栏山行AI
热门提示词资源库——promptbase
MMLU是作为测试大型语言模型的一般知识和推理能力的一项测试而建立的。完整的MMLU基准测试包含了来自基础数学到美国历史、法律、计算机科学、工程学、医学等57个领域的成千上万个不同形式的挑战问题。在进一步完善Medprompt的过程中，我们注意到MMLU的特定题目表现相对较差。MMLU包含了各种各样的问题类型，这取决于学科和具体的评估标准。考虑到问题的多样性，我们如何能够让GPT-4在MMLU上表现得更好？我们的重点是基于以下观察，对投资组合方法进行扩展。根据这个论证，我们发现通过向MedPrompt增加一个简单的两种方法的提示组合，可以提高在MMLU上的表现。在集合中动态利用适当的提示技术进一步提高了MMLU的性能，提升了0.5%。我们注意到Medprompt+依赖于从GPT-4获取置信度分数（对数概率）。
1.7K10编辑于 2024-02-06
来自专栏自然语言处理
【LLM系列之FLAN-T5/PaLM】Scaling Instruction-Finetuned Language Models
Flan-PaLM 540B 在多个基准测试中实现了最优的性能，例如在五次 MMLU 上达到 75.2%。保留了 57 个 MMLU 任务以供评估。位于本文中心的最大模型是 PaLM 模型。使用超过六个分数（MMLU-Direct、MMLU-CoT、BBH-Direct、BBH-CoT、TyDiQA-Direct 和 MGSM-CoT）的宏观平均值完成指标的归一化平均值，评估结果（下表中的归一化平均值显示了所有模型和任务的微调组合基准组合是 MMLU（57 个任务）、BBH（23 个任务）、TyDiQA（8 种语言）和 MGSM（10 种语言）。作为聚合指标，我们报告了 MMLU-direct、MMLU-CoT、BBH-direct、BBH-CoT、TyDiQA 和 MGSM 的归一化平均值。这些评估基准是保留的（不包括在微调数据中）。
87120编辑于 2023-08-25
来自专栏HyperAI超神经
斯坦福/苹果等23所机构发布DCLM基准测试，高质量数据集能否撼动Scaling Laws？基础模型与Llama3 8B表现相当
为了评估数据整理算法，研究人员主要关注 3 个性能指标：MMLU 5-shot 准确率、CORE 中心准确率、EXTENDED 中心准确率。 MMLU 作为衡量大语言模型性能的基准测试，旨在更全面考察模型对不同语言的理解能力。因此，研究人员将 MMLU 作为评估集，并从 MMLU 中检测、删除 DCLM-BASELINE 中存在的问题。由此可见，DCLM-BASELINE 在 MMLU 测试基准上的性能提升，并不是因为其数据集中包含 MMLU 中的数据。 MMLU重叠去除比较其次，研究人员还将训练的新模型，与 7B-8B 参数规模下的其他模型进行了比较。与之前最先进的开放数据语言模型 MAP-Neo 相比，生成的数据集 DCLM-BASELINE 在 MMLU 上提高了 6.6 %，同时训练所需的计算量减少了 40%。
30410编辑于 2024-07-29
来自专栏一个正经的测试
GPT-4的备胎？Mistral AI今日上线！
在所有已能通过API访问的大模型中排第二，全班唯二在MMLU考试中拿80分以上的。本文深入探讨了它们在大小、成本方面的差异，尤其是它们在多任务最大化语言理解 (MMLU) 基准测试中的性能。 MMLU 中的 Mistral 和 GPT-4：当谈到衡量模型对各种任务的理解和解决问题的能力的 MMLU 基准时，这两个模型都展示了各自的优势。 GPT-4由于其庞大的规模，在存储和处理更大范围的信息方面具有先天的优势，这在MMLU任务中是有利的。四、结论 Mistral 和 GPT-4 之间的比较，特别是在 MMLU 性能方面，说明了 AI 领域的重大转变。
29210编辑于 2024-02-28
来自专栏人工智能前沿讲习
【他山之石】Mamba真比Transformer更优吗？Mamba作者：混合架构才是最优解！
尤其是在MMLU基准上，即使提高了训练数据的token数量，基于Mamba的模型依旧和Transformer有不小的差距。 Mamba vs. 在常见任务上，Mamba和Mamba-2的性能都可以匹配甚至超过Transformer模型，但MMLU基准是一个例外。 Mamba折戟MMLU与电话簿任务由于MMLU在一众下游任务的结果中显得如此反常，论文对此进行了更细致的拆解和讨论。如上图所示，MMLU的任务类似于考试中的选择题，但在cloze格式中也可以不提供备选答案，以填空题的方式提供给模型。结合表3中的结果，我们有理由推断，纯SSM模型和Transformer模型包含的知识内容应该是同等级别的，但前者需要更多的训练才能理解MMLU的前两种格式。
1.6K10编辑于 2024-07-16
每周AI论文速递（240603-240607）
本文介绍了 MMLU-Pro，一个增强的数据集，旨在通过整合更多具有挑战性的推理题目并将选项集从四个扩展到十个来扩展主要依赖知识驱动的 MMLU 基准。此外，MMLU-Pro 消除了 MMLU 中的琐碎和噪音题目。我们的实验结果表明，与 MMLU 相比，MMLU-Pro 不仅提高了挑战性，使准确率显著下降了 16% 到 33%，而且在不同提示下表现出更大的稳定性。测试了 24 种不同的提示样式，模型分数对提示变化的敏感性从 MMLU 的 4-5% 降低到 MMLU-Pro 的仅 2%。此外，我们发现，使用 Chain of Thought (CoT) 推理的模型在 MMLU-Pro 上的表现优于直接回答模型，这与原始 MMLU 上的发现形成鲜明对比，表明 MMLU-Pro 包含更多复杂的推理题目
24700编辑于 2025-04-08
来自专栏机器之心
过去三个月，LLaMA系模型发展如何？指令微调的核心问题又是什么？
区分度，模型强弱需要能一眼看出分方向，现阶段可以暂时分成英文知识 — MMLU 中文知识 — C-Eval 推理 — GSM8k / BBH 代码 — HumanEval / MBPP 解决上面四项平衡之后适合 pretrained checkpoint - 基本上可以看 https://github.com/FranxYao/chain-of-thought-hub 的做法 Knowledge: MMLU ) 只加 reasoning (BBH) FLANv2 增加的效果有 knowledge (MMLU) reasoning (BBH) Multilingual (TyDiQA / MGSM) 注意如果一个数据集的测试集被用来训练模型，叫做数据泄漏，此时模型的分数会特别高，不可信如果一个数据集的训练集被用来训练模型，叫做分布内泛化，此时模型的分数是可信的有些数据集分布内泛化的难度不高，比如 MMLU 基本上做 data scaling 就可以加分有些数据集，如果模型不强，即使看过了训练集，模型在测试集上也做不好，比如 GSM8K — 这种类型的数据集是优质 eval 数据集代码的难度可能介于 MMLU
1.5K30编辑于 2023-08-08
来自专栏机器之心
用神经架构搜索给LLM瘦身，模型变小，准确度有时反而更高
大规模多任务语言理解该团队也使用表 1 中的参数搜索了在大规模多任务语言理解（MMLU）任务上的帕累托最优子网络。该搜索的目标空间是模型大小 / MMLU 准确度。图 2 展示了在模型大小 / MMLU 准确度以及吞吐量 / MMLU 准确度这两个目标空间中的帕累托边界。可以看到，在这些帕累托最优子网络中，某些架构在模型大小和吞吐量这两方面都有优势。比如某些子网络的 MMLU 准确度比预训练的 LLaMA2-7B 更高，如图中红点所示。事实上，取得了高 1.1% MMLU 准确度且模型大小降低了 1.5 倍的非量化子网络在量化后不仅维持着原来的准确度，而且大小还降低了 2.5 倍。但是，对于 ARC-c、MMLU 和 TruthfulQA 等某些任务而言，情况却并非如此，这说明 LLaMA2-7B 在这些任务有过度参数化的现象。
40210编辑于 2024-06-17
来自专栏机器之心
13B模型全方位碾压GPT-4？这背后有什么猫腻
下面演示了 MMLU 基准测试中的改写样本。结果证明，如果训练集中包含此类样本，13B 模型可以达到极高的性能 (MMLU 85.9)。他们在 MMLU、GSK8k 和 HumanEval 等基准测试中验证了这些观察结果。实验在第 5.1 节中，实验证明了在改写样本上训练的模型可以取得显着的高分，在三个广泛使用的基准（MMLU、HumanEval 和 GSM-8k）中实现与 GPT-4 相当的性能，这表明改写样本应被视为污染在第 5.2 节中，本文根据 MMLU/HumanEval 中改写样本评估不同的污染检测方法。改写样本污染基准如表 2 所示，在改写样本上训练的 Llama-2 7B 和 13B 在 MMLU 上取得显着的高分，从 45.3 到 88.5。
37130编辑于 2023-11-18
来自专栏测试技术圈
AI模型的基准测试
现在常见的模型的基准测试有 GLUE、SuperGLUE、HELM、MMLU等等。模型的知识获取能力基准测试：MMLU、C-Eval MMLU（Massive Multitask Laguage Understanding），是一个知识获取能力评价模型，通过零样本、少样本来衡量模型在预训练期间获得的知识 MMLU提供了57个任务涉及到了初等数学、美国历史、计算机科学、法律、伦理道德等。图 3 MMLU 测试结果清华大学和上海交通大学联合发布了中文 MMLU：C-Eval基准测试。
1.4K30编辑于 2023-09-04
来自专栏机器之心
GPT-5涌现能力可预测？UC伯克利仅使用当前模型检查点预测未来模型
为了进行验证，该研究使用四个标准 NLP 基准 ——MMLU、GSM8K、CommonsenseQA 和 CoLA。通过仅使用小规模 LLM 来拟合涌现定律，该研究能够准确预测涌现点。图 3（左）绘制了每个模型在 GSM8K 和 MMLU 上的少样本和微调性能与预训练损失的关系。可以看到，微调后的模型遵循与少样本设置类似的 ReLU 形状。在 MMLU 和 GSM8K 上，随着微调数据量的增加，涌现点进一步向能力较弱的 LLM 偏移。因此，微调数据量可以调节涌现偏移。在 MMLU 和 GSM8K 上，可以分别提前最多 4.3 倍和 3.9 倍的 FLOPS 涌现出现。
29100编辑于 2025-02-14
来自专栏DrugOne
扩展指令微调语言模型
表1 平均五次测试的MMLU得分（百分比）对于57个任务，包括模型和人类准确性比较图2 微调数据包括473个数据集，146个任务类别和1836个任务。例如，在MMLU基准上，Flan-PaLM 540B实现了75.2%的成绩。这相比于先前的模型有明显优势。作者将评估结果分为保留的CoT基准（MMLU、BBH和MGSM）和保留的非CoT基准（MMLU、BBH和TyDiQA），并计算CoT和非CoT的归一化平均值。这些结果对于一些基准测试来说非常强大，例如，Flan-T5-XL仅有3B参数，MMLU得分为52.4%，超过了GPT-3 175B的43.9%得分。 Flan-PaLM在多个基准测试中达到了最先进的性能水平，例如在五次迁移学习多任务理解（MMLU）上达到了75.2%的性能。
68430编辑于 2023-09-19
ARC-AGI-2：抽象推理与泛化能力的终极测试
随着AI模型能力的快速演进，传统的知识密集型基准测试（如MMLU、GPQA）已经面临严重的饱和问题。这表明ARC-AGI-2对AI模型来说仍然是一个极具挑战性的基准，与MMLU等传统基准上顶级模型往往能达到80-90%的分数形成鲜明对比。与其他基准的关系知识密集型基准对比基准主要焦点性质ARC-AGI-2对比MMLU通用知识57个科目，多选题奖励记忆；ARC-AGI-2奖励适应MMLU-Pro复杂推理扩展选项，CoT友好仍然知识密集；ARC-AGI 世界知识ARC-AGI-2：仅需要核心知识先验（对象持久性、计数、几何、拓扑）其他基准：通常需要专业知识（历史事实、科学术语、数学符号）2.过拟合抗性ARC-AGI-2：每个任务都是唯一的；无法提前记忆MMLU MMLU上85%的分数和ARC-AGI-2上30%的分数，其难度和意义完全不同。开发者应当根据任务需求选择合适的基准进行评估。
27010编辑于 2026-02-23
来自专栏AI科技大本营的专栏
百模大战，谁是大模型的裁判员？
比如，前不久Meta刚宣布开源并支持商用的Llama2，就明确使用MMLU、TriviaQA、Natural Questions、GSM8K、HumanEval、BoolQ、HellaSwag、OpenBookQA OpenAI则在GPT-4的报告GPT-4 Technical Report中，详细展示了在各类型考试中的成绩，以及在MMLU、HellaSwag、ARC、WinoGrande、HumanEval、DROP 二是以MMLU、AGIEval为代表，通过收集真实世界中的书籍、考试等资料，形成选择题、问答题等任务。例如MMLU向大模型提出多选问答任务，涵盖57个领域知识，包括STEM、人文社科等学科，目的是考察大模型在多样性、高级知识任务上的推理能力的表现。也有尚未进行基准评测的大模型团队，其中有受访团队提到，目前中文大模型评测基准多是MMLU路径，侧重于考验模型的知识能力，但对于想要衡量模型性能，还存在一定的局限性。
70820编辑于 2023-08-08
来自专栏新智元
LLM准确率飙升27%！谷歌DeepMind提出全新「后退一步」提示技术
比方说，MMLU物理和化学方面的性能提高了7%，TimeQA提高了27%，MuSiQue则提高了7%。其中MMLU是大规模多任务语言理解测试数据集，TimeOA是时间敏感问题测试数据集，MusiQue则是多跳问答数据集，包含25000个2至4跳的问题。在MMLU物理和化学任务中分别提高了7%和11%，在TimeQA任务中提高了27%，在MuSiQue任务中提高了7%。（本文中仅以此类问题进行讲解）显然，在MMLU基准中的问题，需要LLM进行更深层次的推理。此外，它们还要求理解和应用公式，而这些公式往往是物理和化学原理和概念。推理步骤仍然是后退推理能否很好地完成MMLU等需要复杂推理的任务的瓶颈。特别是对于MMLU物理来说，更是如此，推理和数学技能是成功解决问题的关键。
50410编辑于 2023-12-01
来自专栏深度学习自然语言处理
最强MOE开源：Mixtral 8x22B 发布！
图1：性能（MMLU）与推理预算权衡（活动参数数量）的度量。Mistral 7B、Mixtral 8x7B 和 Mixtral 8x22B 都属于与其它开放模型相比高度高效的模型家族。图2：在广泛常识、推理和知识基准上的性能，顶级领先的大型语言模型（LLM）开放模型：MMLU（测量大规模多任务语言理解）、HellaSwag（10次射击）、Wino Grande（5次射击）、Arc Challenge 在法语、德语、西班牙语和意大利语的 HellaSwag、Arc Challenge 和 MMLU 基准测试中，它的表现大大超过了 LLaMA 2 70B。图3：Mistral 开源模型与 LLaMA 2 70B 在法语、德语、西班牙语和意大利语的 HellaSwag、Arc Challenge 和 MMLU 的比较。
1.3K10编辑于 2024-04-19
来自专栏新智元
谷歌医疗大模型登Nature，Med-PaLM重磅揭秘！AI医生成绩比肩人类
接着，通过利用提示策略的组合，Flan-PaLM在MedQA（美国医疗执照考试USMLE）、MedMCQA、PubMedQA和MMLU临床主题上超越了SOTA。其中包括6个现有数据集：MedQA 、MedMCQA 、PubMedQA、LiveQA 、MedicationQA和MMLU临床主题。 - MMLU包含57个领域的试题。团队选择了与医学知识最相关的子任务：解剖学、临床知识、大学医学、医学遗传学、专业医学和大学生物学。每个MMLU子任务包含四个选项的多项选择题以及答案。模型开发和性能评估研究第二个关键贡献是：通过少样本、CoT、以及自洽性提示策略的组合，Flan-PaLM在MedQA、MedMCQA、PubMedQA和MMLU临床主题上取得了SOTA，超越几个强大在MMLU临床主题中的表现 MMLU数据集包含来自多个临床知识、医学和生物学相关主题的多项选择问题。其中包括解剖学、临床知识、专业医学、人类遗传学、大学医学和大学生物学等内容。
81520编辑于 2023-08-07
来自专栏强大的AI网站推荐
强大的AI网站推荐（第一集）—— Devv AI
性能：在MMLU-Pro基准测试中得分为77.6%，在MMMU（多模态理解）测试中得分为71.7%，在数学问题解决能力测试中得分为90.9%。性能：在MMLU基准测试中得分为82%，在HumanEval（代码生成）测试中得分为87.2%，在数学问题解决能力测试中得分为70.2%。性能：在HumanEval基准测试中得分为92%，在MMLU基准测试中得分为81.5%，在编程任务中表现优于Gemini 1.5 Pro。性能：在ARC-AGI测试中得分为15-20%，在MMLU测试中得分为79.5%。性能：MMLU基准测试：在MMLU（多任务语言理解）测试中，GPT-4o 得分为 82%，表现出色，说明其在多任务语言理解方面具有较高的准确率。
74112编辑于 2025-11-24

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

AI: 当前流行的大模型智能水平排名

彻底反转：号称「碾压」LLaMA的Falcon实测得分仅49.08，HuggingFace决定重写排行榜代码

热门提示词资源库——promptbase

【LLM系列之FLAN-T5/PaLM】Scaling Instruction-Finetuned Language Models

斯坦福/苹果等23所机构发布DCLM基准测试，高质量数据集能否撼动Scaling Laws？基础模型与Llama3 8B表现相当

GPT-4的备胎？Mistral AI今日上线！

【他山之石】Mamba真比Transformer更优吗？Mamba作者：混合架构才是最优解！

每周AI论文速递（240603-240607）

过去三个月，LLaMA系模型发展如何？指令微调的核心问题又是什么？

用神经架构搜索给LLM瘦身，模型变小，准确度有时反而更高

13B模型全方位碾压GPT-4？这背后有什么猫腻

AI模型的基准测试

GPT-5涌现能力可预测？UC伯克利仅使用当前模型检查点预测未来模型

扩展指令微调语言模型

ARC-AGI-2：抽象推理与泛化能力的终极测试

百模大战，谁是大模型的裁判员？

LLM准确率飙升27%！谷歌DeepMind提出全新「后退一步」提示技术

最强MOE开源：Mixtral 8x22B 发布！

谷歌医疗大模型登Nature，Med-PaLM重磅揭秘！AI医生成绩比肩人类

强大的AI网站推荐（第一集）—— Devv AI

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐