首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >大模型榜单周报(2025/12/08—2025/12/12)

大模型榜单周报(2025/12/08—2025/12/12)

原创
作者头像
KAI智
发布2025-12-16 18:56:42
发布2025-12-16 18:56:42
1.3K0
举报
文章被收录于专栏:AI早知道AI早知道

上周大模型生态竞争激烈,GPT-5.2全面领先多项基准测试,Google凭借Gemini系列重夺市占率第一,xAI份额大幅下滑,同时多个新模型和智能体在编程、图像、数学及综合任务中崭露头角。


1. 周重要变化

以下为OpenRouter模型调用量排名变动

整体调用量:
  • Grok Code Fast 1 登顶
  • Grok 4.1 Fast 跌出前10
  • Claude Opus 4.5 从第6升至第4
  • GPT-OSS-120BGemini 2.5 Flash Lite 重回前10(第5、第7)
  • MiniMax M2 掉出前10
市占率:
  • Google23.5% 重回第一(+4%)
  • xAI 份额暴跌至 17.3%(-16.6%,两周累计降幅超20%)
  • Anthropic、OpenAI、DeepSeek 紧随其后
编程调用量:
  • 前二名不变:Grok Code Fast 1Claude Sonnet 4.5
  • GPT-OSS-120B 从第9跃升至第3
  • MiniMax M2 降至第5
  • Devstral 2 2512 新晋第9
各类能力榜单更新

榜单

表现亮点

大语言模型(Text Arena)

ernie-5.0-preview-1103 新晋第19名(预发布评分)

编程能力(LMArena)

gpt-5.2-high、gpt-5.2 新晋第2、第6名(预发布)

代码工程(SWE-bench BashOnly)

GPT-5.2 (high reasoning) 第3,GPT-5.2 第5

图像编辑(Artificial Analysis Image Editing Leaderboard)

Seedream 4.5 第2,P-Image-Edit 第7

文生图(Artificial Analysis Text to Image Leaderboard)

Seedream 4.5 第5,Z-lmageTurbo 第10

理科能力(LLM Stats GPQA)

GPT-5.2 Pro(93.2%)第1,GPT-5.2(92.4%)第2

前沿数学(EPOCH AI FrontierMath)

GPT-5.2 以40.3%正确率登顶(首次突破40%)

GAIA 榜单

Su Zero + SQ Pro 登顶,Su Zero + Shuqian Lite 第4

2. 周各榜单排名情况

OpenRouter 相关排名
  • 调用量前三:Grok Code Fast 1、Claude Sonnet 4.5、Gemini 2.5 Flash
  • 公司市占率前三:Google、xAI、Anthropic
  • 编程调用量前三:Grok Code Fast 1、Claude Sonnet 4.5、GPT-OSS-120B
按公司划分的多维榜单表现

榜单

领先公司/机构

Text Arena(大语言模型)

Google、xAI、Anthropic、OpenAI、阿里、百度、月之暗面、智谱、DeepSeek

LMArena(编程)

Anthropic、OpenAI、Google、智谱

LiveCodeBench(编程)

Anthropic、Google、OpenAI、阿里、月之暗面

SWE-benchLite(代码工程)

基于 Claude、Gemini、GPT、Qwen、DeepSeek 的开源系统领先

Image Edit Arena(图像编辑/生成)

Google、字节、Reve、Black Forest Labs

Text-to-Image Arena(文生图)

Google、Black Forest Labs、腾讯、字节

Image Editing Leaderboard

Google、字节、Black Forest Labs、Pruna AI、生数科技、OpenAI、阿里

Text to Image Leaderboard

Google、Black Forest Labs、字节、ImagineArt、阿里

GPQA(理科)

OpenAI、Google、xAI、Anthropic、阿里

FrontierMath(前沿数学)

OpenAI、Google、月之暗面、Anthropic、xAI

Humanity's Last Exam

Google、OpenAI、Anthropic

GAIA 榜单代表性智能体系统(基于基础模型开发)
  • Suzhou AI Lab & Shuqian Tech(Gemini 3、Claude Sonnet 4.5、GPT5.1)
  • Lenovo LR AILab(GPT5、o3、Gemini-3-pro)
  • NVIDIA(Nemotron-ToolOrchestrator + GPT-5/Claude/0wen等)
  • ZTE-AICloud(ZTE NebulaLLM + Claude/Gemini)
  • JoinAI(JoinLLM + GPT4.1/DeepSeek/Gemini)
  • 其他:AIP agent、MAI-A Ads、ShawnAgent(集成GPT5/o3/Claude/Gemini)

3. 周重点关注事件

OpenAI 发布 GPT-5.2 系列
  • 包含 Instant、Thinking、Pro 三个版本
  • GDPval 评测 中超越44个职业的人类专家水平
  • GPQA、FrontierMath、SWE-bench 等多项基准刷新纪录
Google 推出 Gemini Deep Research 智能体
  • 开源 DeepSearchQA 基准,用于评估网络研究能力
  • HLE、DeepSearchQA、BrowseComp 测试中取得 SOTA 结果
Mistral AI 开源 Devstral 2 代码模型系列
  • 包括 Devstral 2 (123B)Devstral Small 2 (24B)
  • SWE-bench Verified 上达 72.2%
  • 成本效率比 Claude Sonnet 高达7倍

关注我,获取更多AI前沿洞察

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1. 周重要变化
    • 整体调用量:
    • 市占率:
    • 编程调用量:
    • 各类能力榜单更新
  • 2. 周各榜单排名情况
    • OpenRouter 相关排名
    • 按公司划分的多维榜单表现
    • GAIA 榜单代表性智能体系统(基于基础模型开发)
  • 3. 周重点关注事件
    • OpenAI 发布 GPT-5.2 系列
    • Google 推出 Gemini Deep Research 智能体
    • Mistral AI 开源 Devstral 2 代码模型系列
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档