本周概览本周大模型领域多项技术突破引人注目,包括NVIDIA发布Rubin平台大幅降低成本、OpenAI推出健康垂直领域功能,以及上海AI Lab开源Yume1.5世界模型实现效率飞跃。 榜单变化OpenRouter模型调用量排名:整体调用量方面,Claude Sonnet 4.5超越Grok Code Fast 1排名第一;Gemini 3 Flash Preview由第6名上升2名到第 中,Wan 2.6超过Nano Banana到榜单第5位。 GPQA榜单:GPT-5.1 High、GPT-5 Medium新上榜,并列第6位。 编程模型调用量Grok Code Fast 1Claude Opus 4.5MiniMax M2.1各公司按不同能力领域排名汇总测评类型领先公司大语言模型 Text ArenaGoogle、xAI、Anthropic
本周概览本周大模型领域呈现显著变化,Google的Gemini 3 Flash模型系列表现突出,不仅在多个榜单新晋前列,还发布了新的高速低成本模型。 成本上,成为了全球性价比最高的模型)和 T5Gemma 模型(首个多模态和长上下文的编码器-解码器模型,建立在 Gemma 3 的强大功能之上,使用了「适应(adaptation)」技术将已经完成预训练的仅解码器模型转换为编码器 榜单变化模型调用量排名变化Gemini 2.5 Flash 排名上升了 1 名到第 2,仅次于 Grok Code Fast 1GPT-OSS-120B 排名上升了 1 名到第 4DeepSeek V3.2 5.2 跃升至第 2 位Claude Sonnet 4.5、Claude Opus 4.5 排名第 3、4MiniMax M2 排名保持第 5Devstral 2 2512 排名由第 9 上升了 2 名大语言模型 1GPT-5.2Claude Sonnet 4.5公司市占率GoogleOpenAIxAI各公司按不同能力领域排名汇总测评类型领先公司大语言模型 Text ArenaGoogle、xAI、Anthropic
本周概览本周大模型领域持续涌现创新成果,数学、编程和多模态能力均出现显著进展。 M2.1,在Multi-SWE-bench榜单中以仅10B激活参数拿下49.4%成绩,超越Claude Sonnet 4.5等顶尖竞品,拿下全球SOTA北航提出代码大模型的Scaling Laws,建立区分语言特性的 榜单变化OpenRouter模型调用量:Grok Code Fast 1、Claude Sonnet 4.5、Gemini 2.5 Flash位列前三;小米MiMo-V2-Flash (free)新晋第 、Anthropic紧随其后;OpenAI市占率下降7.2%(17.7% → 10.5%)至第4位;DeepSeek份额上升1.8%(7.8% → 9.6%)保持第5名;小米份额占比7.0%,位列第7大语言模型 编程模型调用量Grok Code Fast 1GPT-5.2Claude Sonnet 4.5各公司按不同能力领域排名汇总测评类型领先公司大语言模型 Text ArenaGoogle、xAI、Anthropic
本周概览本周大模型领域继续保持快速发展态势,各大厂商在医疗AI、视频生成、代码能力等多个领域取得显著进展。 榜单变化OpenRouter模型调用量排名:整体调用量方面,Claude Opus 4.5超越上周榜首Claude Sonnet 4.5,位列第1;MiMo-V2-Flash(free)上升两名,排名第 上升至第8名,替代了上周MiniMax的位置编程调用量方面,Claude Opus 4.5保持第1;Claude Sonnet 4.5排名上升2名,排名第3;DeepSeek V3.2重回前十,排名第8大语言模型榜单 :ERNIE-5.0-0110新上榜,排名第8,超过GPT-5.1(high),相比ERNIE-5.0-preview-1203版本上升了6名,该模型基于预发布测试,评分可能随着公开发布后的反馈而变化图像编辑能力榜单 Claude Opus 4.5Grok Code Fast 1Claude Sonnet 4.5各公司按不同能力领域排名汇总测评类型领先公司大语言模型 Text ArenaGoogle、xAI、Anthropic
上周大模型生态竞争激烈,GPT-5.2全面领先多项基准测试,Google凭借Gemini系列重夺市占率第一,xAI份额大幅下滑,同时多个新模型和智能体在编程、图像、数学及综合任务中崭露头角。1. 周重要变化以下为OpenRouter模型调用量排名变动整体调用量:Grok Code Fast 1 登顶Grok 4.1 Fast 跌出前10Claude Opus 4.5 从第6升至第4GPT-OSS 前二名不变:Grok Code Fast 1、Claude Sonnet 4.5GPT-OSS-120B 从第9跃升至第3MiniMax M2 降至第5Devstral 2 2512 新晋第9各类能力榜单更新榜单表现亮点大语言模型 GPQA)GPT-5.2 Pro(93.2%)第1,GPT-5.2(92.4%)第2前沿数学(EPOCH AI FrontierMath)GPT-5.2 以40.3%正确率登顶(首次突破40%)GAIA 榜单 编程调用量前三:Grok Code Fast 1、Claude Sonnet 4.5、GPT-OSS-120B按公司划分的多维榜单表现榜单领先公司/机构Text Arena(大语言模型)Google、xAI
同时,通义实验室开源了GUI智能体MAI-UI,涵盖从端侧小模型到云端大模型的多个尺寸版本。 重点关注事件通义实验室于12月26日开源GUI智能体MAI-UI,提供从2B端侧小模型到235B云端大模型四个尺寸版本,覆盖全场景部署需求,论文地址:https://arxiv.org/abs/2512.22047DeepSeek 榜单变化OpenRouter模型调用量变化:Grok Code Fast 1、Claude Sonnet 4.5保持前两位;小米发布的MiMo-V2-Flash (free)从第4名上升至第3名;编程调用量方面 大语言模型Text Arena榜单:GLM-4.7新晋榜单第17名,模型评分基于预发布测试,可能会随公开发布后社区反馈和投票的演变而发生变化。 编程模型调用量Grok Code Fast 1Devstral 2 2512 (free)Gemini 3 Flash Preview各公司按不同能力领域排名汇总测评类型领先公司大语言模型 Text ArenaGoogle
海外权威大模型竞技场 Chatbot Arena 公布最新排名,腾讯混元首次上榜,跻身全球 Top 15。 跟其他测评不一样,Chatbot Arena 的测评人是C端用户——用户在平台上以匿名方式与多个模型互动,然后投票决定哪个模型更好,从而根据分数生成排行榜。 这种测评也被看成是大模型直接PK的竞技场,简单直接。 这是腾讯混元旗舰模型首次入围这一榜单,相信这只是一个开始,未来我们也有信心获得更好的成绩。 今年以来,腾讯混元大模型快速迭代。 不久推出最新版混元Turbo S模型,这一模型在中文基础能力上的表现同样抢眼。 3月18日发布的《中文大模型测评基准SuperCLUE 3月报告》中,腾讯混元位列基础模型国内第二,综合实力稳居国内大模型第一梯队。
开放传神(OpenCSG)成立于2023年,是一家致力于大模型生态社区建设,汇集人工智能行业上下游企业链共同为大模型在垂直行业的应用提供解决方案和工具平台的公司。 硅谷大厂和大模型创业公司纷纷闯入LLM for SE这个领域,这项记录被连续改写。 较为遗憾的是,相比于基础模型榜单上中国公司的“百花齐放”,这项挑战中国公司鲜少参与,直到这一次OpenCSG刷新了这一记录。 2、OpenCSG的突破: 模型+Agent齐发力 近日SWEBench最新评测结果更新,OpenCSG跃居榜单第二名,该公司推出的OpenCSG StarShip CodeGen Agent在Lite 这些产品的快速推出与迭代,既满足了市场需求,同时也为了一个共同的目标:让大模型赋能每一个企业每一个人。“让大模型赋能每个企业、每个人,就需要让大模型变成水和电一样。
现在的大模型榜单上,真的都是水分。 全是作弊的考生,真的。 上周,AI圈有个很炸裂的大模型发布,在全网引起了山呼海啸,一众从业者和媒体尊称它为开源新王。 就是Reflection 70B。 于是有人,又做了一个验证测试,他把所有API的参数全部设为10个Token、0温度、top_k 1,然后让大模型,重复entsprechend这个词20次,因为大模型对token的计算都不太一样,所以其实 但是大模型领域,太新了,这些评测榜单,比如SuperCLUE、C-Eval、HuggingFace,话语权没那么大,供需关系倒过来了,如果机构在评测时用什么问题以及对应什么答案是什么一直不公开,如果机构的评测逻辑与工具 3月26日:"沙利文发布了《2024年中国大模型能力评测》,评测显示,百度文心一言稳居国产大模型首位,拿下数理科学、语言能力、道德责任、行业能力及综合能力等五大评测维度的四项第一" 我不想说什么模型好什么模型不好 所以这里,我想说一个暴论:现在的大模型榜单,还有各种乱七八糟的AI产品榜单,参考看看可以,但是不要奉为圣经,更不要当真,拿来做你跟别人吵架的凭据。 骗骗兄弟可以,别把自己也骗了。
,StarCoder2-15B-Instruct成功挤进HumanEval榜单。 在软件技术的前沿,UIUC张令明组携手BigCode组织的研究者,近日公布了StarCoder2-15B-Instruct代码大模型。 这一创新成果在代码生成任务取得了显著突破,成功超越CodeLlama-70B-Instruct,登上代码生成性能榜单之巅。 这一成果证明了,通过自身分布内的数据,大模型同样能够有效地学习如何与人类偏好对齐,而无需依赖外部教师大模型的偏移分布。 在自主可控代码大模型领域,StarCoder2-15B-Instruct显著超越了之前的佼佼者OctoCoder,证明了其在该领域的领先地位。
拓展到多语言、生成式、多模态、结构化、知识驱动等领域,能力全面;先后登顶 GLUE 等六大 AI 权威榜单,其中上周再次登顶多模态榜单 VAQ Challenge 2021。 AliceMind 拥有以下 8 大技术创新点: 通用语言模型(StructBERT) Google 于 2018 年底推出的 BERT 模型是业界广泛使用的自然语言预训练模型,达摩院团队在 BERT Structural LM模型在 DocVQA 榜单上排名第一,同时在表单理解 FUNSD 数据集和文档图片分类 RVL-CDIP 数据集上也超过现有的所有预训练模型。 机器阅读理解模型(UED) 自最开始声名大噪的SQuAD榜单起,阿里围绕着机器阅读理解发展路线:单段落抽取->多文档抽取/检索->多文档生成->开放式阅读理解,拿下了一系列的榜单冠军: 2018 年在单段落机器阅读理解领域顶级赛事 LatticeBERT 在 2020 年 9 月达到中文予以理解评估基准 CLUE 榜单的 base 模型中的第一名。
衡宇 发自 凹非寺 量子位 | 公众号 QbitAI 龙争虎斗的大模型竞技场,今天突然更新: 国内大模型公司零一万物旗下的Yi-Large千亿参数闭源大模型,跃升总榜第七,也成为榜上国产大模型第一。 模型强度的置信区间,则如下图所示: 值得注意的是,为了提高大模型竞技场查询的整体质量,LMSYS还实施了重复数据删除机制,并出具了去除冗余查询后的榜单。 LMSYS公开表示,去除冗余查询后的榜单将在后续成为默认总榜。 编程能力、长提问及最新推出的 “艰难提示词” 的三个评测是LMSYS所给出的针对性榜单。这三个榜单以专业性与高难度著称,可称为当下大模型最烧脑的公开盲测。 LMSYS增加这一类别榜单的原因,是官方认为这类提示能够测试最新语言模型面临挑战性任务时的性能。
新智元报道 编辑:LRS 【新智元导读】在私域数据、感知能力、简洁指令、定量统计方面比拼多模态大语言模型。 多模态大语言模型(Multimodal Large Language Model,MLLM)依赖于LLM丰富的知识储备以及强大的推理和泛化能力来解决多模态问题,目前已经涌现出一些令人惊叹的能力,比如看图写作和看图写代码 但一方面这些传统数据集可能难以反映MLLM涌现的新能力,另一方面由于大模型时代的训练集都不再统一,因此难以保证这些评测数据集没有被其他MLLM训练过。 12种模型在14种子任务上的测试比较如图2所示: 图2. 12种模型在14种子任务上的比较。每种子任务的满分为200分。 一共16个榜单,包括感知类和认知类的总榜单以及14个子任务的榜单也已发布。 图3.感知类任务总榜单 图4.认知类任务总榜单 图5.所有榜单 另外研究人员也总结了MLLM模型在实验中暴露的一些通用问题,如图6所示,希望可以为后续的模型优化提供指导。 图6.
该工作使用来自不同数据源的多达450万个实例对模型进行训练,在7个关键榜单上均刷新了最佳性能。 SMPLer-X除了常见的身体动作捕捉,还能输出面部和手部动作,甚至对体型做出估计。 在数据扩展方面,研究人员对32个3D人体数据集进行了系统的评估与分析,为模型训练提供参考; 2. 在模型缩放方面,利用视觉大模型来研究该任务中增大模型参数量带来的性能提升; 3. 通过微调策略可以将SMPLer-X通用大模型转变为专用大模型,使其能够实现进一步的性能提升。 除此之外,研究人员也展示了低成本的微调策略来将通用大模型适应到特定场景。 此外,研究人员还在ARCTIC和DNA-Rendering两个测试集上评估了动捕大模型的泛化性。 研究人员希望SMPLer-X能带来超出算法设计的启发,并为学术社区提供强大的全身人体动捕大模型。
北京大学和其他机构的研究人员近期提出了一种名为Video-LLaVA的视觉语言大模型。该模型的创新之处在于能够同时处理图片和视频作为输入。 在处理视觉任务中,该模型展现出了出色的性能,在多个评估榜单中名列前茅,尤其在视频方面取得了令人瞩目的成绩。 这项研究的关键点在于关注如何将LLM的输入统一起来,从而提升LLM在视觉理解方面的能力。 与以往的视觉语言大模型不同,Video-LLaVA的重点在于将图片和视频特征提前绑定到一个统一的特征空间中,以便语言模型能够从统一的视觉表示中学习模态之间的交互。 模型通过广泛的视觉-文本对数据集来学习解读视觉信号的能力。每个视觉信号对应一个对话回合的数据。训练目标是原始的自回归损失,模型专注于基本的视觉理解能力。其他参数在此阶段被冻结。 该研究还与InstructBLIP,Otter,mPLUG-owl 等图片语言大模型在图片语言理解任务上进行了比较,结果如表2所示: 表2 为了评估预先对齐视觉输入的效果,研究团队进行了大量的对比实验。
近期,由安全公司 Portswigger 发起的“2017年十大Web黑客技术”评选结果出炉了! 经过一开始初选的37个技术议题提名,到后来白帽社区投票的15个入围技术议题,最后,经专家评审委员会评选,又甄选出了最终的 TOP 10 榜单!
在人工智能这个充满无限可能的领域内,通用大模型和垂直大模型各有千秋。就我个人而言,在二者之间的选择上,并不存在偏向某一方的倾向。我觉得应当依据实际应用场景的具体需求,来挑选最为契合的大模型。 通用大模型通用大模型,乃是旨在应对多种任务与数据类型的庞然大物级人工智能模型。 在知识覆盖的广度方面,通用大模型无疑具有明显的优势。当我们对于当下所需模型所涉及的精确专业领域的界限感到模糊不清时,选择通用大模型无疑是一种明智之举。垂直大模型接下来谈谈垂直大模型。 然而,由于垂直大模型的训练内容聚焦于当前行业,其涉猎的范围更集中,数据针对性更强,所以在提供专业咨询时往往更加精准、细致,这也正是垂直大模型的独特价值所在。 因此,对于通用大模型或者垂直大模型,更倾向于哪一方不取决于个人想法,而是取决于用户需要。
大模型超越AI 目前所指的大模型,是“大规模深度学习模型”的简称,指具有大量参数和复杂结构的机器学习模型,可以处理大规模的数据和复杂的问题,多应用于自然语言处理、计算机视觉、语音识别等领域。 本文将探讨大模型的概念、训练技术和应用领域,以及与大模型相关的挑战和未来发展方向。 大模型是指具有庞大参数数量的机器学习模型。传统的机器学习模型通常只有几百或几千个参数,而大模型则可能拥有数亿或数十亿个参数。 训练大模型的挑战 训练大模型需要应对一系列挑战,包括: 以下是与大模型相关的一些代码示例: 计算资源需求: import tensorflow as tf # 指定使用GPU进行训练 with tf.device 更智能的模型压缩技术:模型压缩和加速技术将继续发展,以减小大模型的计算和存储开销。 更好的计算平台支持:为了支持训练和部署大模型,计算平台将继续改进,提供更强大的计算资源和工具。
考虑到这一点,腾讯优图分别联合中国科学技术大学以及厦门大学,一连发布了两篇关于多模态大模型的论文。 这里面不仅有首篇多模态大模型综述—— 还有一个全面的评测榜单! 多模态大模型TOP12排行 研究人员一共设置了16个榜单,包括了两个总榜单和14个子任务。 总榜单可以看做是模型“整体能力”的评分,分为感知类和认知类,14个子任务则是其中的一些细分小任务,可以评测多模态大模型是不是更擅长做某件事。 在这两个榜单中都保持在前三,属实是当前开源多模态大模型的“顶流玩家”了。 (doge) 首篇多模态大模型综述 当然,这个榜单的评测标准并非“空穴来风”。 要想知道为什么榜单这样评分,可以去看看另一篇关于多模态大模型的论文综述,后者仔细整理了它的定义、关键技术和挑战。
一、 本月榜单摘要2026 年伊始,SCALE 评测框架迎来了重要进化。 “大 SQL 转换” 专项测试,国产大模型在长文本逻辑处理上仍面临挑战(如 Seed 模型在长 SQL 任务中得分排名较为落后)。 开发策略建议:对于业务逻辑极度复杂的 SQL 或存储过程,建议采用“逻辑分块”的协作方式,即由人工明确核心逻辑单元,再由大模型进行分块实现或转换,以抵消大模型的长距离逻辑漂移。 SCALE 榜单的出现让 AI 应用开发者有了一个十分权威的参考,本次模型 SQL 能力榜单与我们的实际应用感受相当一致,为爱可生开源社区点个赞。 欢迎您访问 SCALE 官方网站,查看完整的最新榜单和模型对比详情,共同把握 AI 技术的前沿脉搏。数据截止时间:2026/1/5