开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

社区首页 >专栏 >大模型榜单周报（2025/12/08—2025/12/12）

大模型榜单周报（2025/12/08—2025/12/12）

原创

作者头像

KAI智

发布于 2025-12-16 18:56:42

发布于 2025-12-16 18:56:42

1.3K0

举报

文章被收录于专栏：AI早知道AI早知道

上周大模型生态竞争激烈，GPT-5.2全面领先多项基准测试，Google凭借Gemini系列重夺市占率第一，xAI份额大幅下滑，同时多个新模型和智能体在编程、图像、数学及综合任务中崭露头角。

1. 周重要变化

以下为OpenRouter模型调用量排名变动

整体调用量：

Grok Code Fast 1 登顶
Grok 4.1 Fast 跌出前10
Claude Opus 4.5 从第6升至第4
GPT-OSS-120B、Gemini 2.5 Flash Lite 重回前10（第5、第7）
MiniMax M2 掉出前10

市占率：

Google 以 23.5% 重回第一（+4%）
xAI 份额暴跌至 17.3%（-16.6%，两周累计降幅超20%）
Anthropic、OpenAI、DeepSeek 紧随其后

编程调用量：

前二名不变：Grok Code Fast 1、Claude Sonnet 4.5
GPT-OSS-120B 从第9跃升至第3
MiniMax M2 降至第5
Devstral 2 2512 新晋第9

各类能力榜单更新

榜单	表现亮点
大语言模型（Text Arena）	ernie-5.0-preview-1103 新晋第19名（预发布评分）
编程能力（LMArena）	gpt-5.2-high、gpt-5.2 新晋第2、第6名（预发布）
代码工程（SWE-bench BashOnly）	GPT-5.2 (high reasoning) 第3，GPT-5.2 第5
图像编辑（Artificial Analysis Image Editing Leaderboard）	Seedream 4.5 第2，P-Image-Edit 第7
文生图（Artificial Analysis Text to Image Leaderboard）	Seedream 4.5 第5，Z-lmageTurbo 第10
理科能力（LLM Stats GPQA）	GPT-5.2 Pro（93.2%）第1，GPT-5.2（92.4%）第2
前沿数学（EPOCH AI FrontierMath）	GPT-5.2 以40.3%正确率登顶（首次突破40%）
GAIA 榜单	Su Zero + SQ Pro 登顶，Su Zero + Shuqian Lite 第4

2. 周各榜单排名情况

OpenRouter 相关排名

调用量前三：Grok Code Fast 1、Claude Sonnet 4.5、Gemini 2.5 Flash
公司市占率前三：Google、xAI、Anthropic
编程调用量前三：Grok Code Fast 1、Claude Sonnet 4.5、GPT-OSS-120B

按公司划分的多维榜单表现

榜单	领先公司/机构
Text Arena（大语言模型）	Google、xAI、Anthropic、OpenAI、阿里、百度、月之暗面、智谱、DeepSeek
LMArena（编程）	Anthropic、OpenAI、Google、智谱
LiveCodeBench（编程）	Anthropic、Google、OpenAI、阿里、月之暗面
SWE-benchLite（代码工程）	基于 Claude、Gemini、GPT、Qwen、DeepSeek 的开源系统领先
Image Edit Arena（图像编辑/生成）	Google、字节、Reve、Black Forest Labs
Text-to-Image Arena（文生图）	Google、Black Forest Labs、腾讯、字节
Image Editing Leaderboard	Google、字节、Black Forest Labs、Pruna AI、生数科技、OpenAI、阿里
Text to Image Leaderboard	Google、Black Forest Labs、字节、ImagineArt、阿里
GPQA（理科）	OpenAI、Google、xAI、Anthropic、阿里
FrontierMath（前沿数学）	OpenAI、Google、月之暗面、Anthropic、xAI
Humanity's Last Exam	Google、OpenAI、Anthropic

GAIA 榜单代表性智能体系统（基于基础模型开发）

Suzhou AI Lab & Shuqian Tech（Gemini 3、Claude Sonnet 4.5、GPT5.1）
Lenovo LR AILab（GPT5、o3、Gemini-3-pro）
NVIDIA（Nemotron-ToolOrchestrator + GPT-5/Claude/0wen等）
ZTE-AICloud（ZTE NebulaLLM + Claude/Gemini）
JoinAI（JoinLLM + GPT4.1/DeepSeek/Gemini）
其他：AIP agent、MAI-A Ads、ShawnAgent（集成GPT5/o3/Claude/Gemini）

3. 周重点关注事件

OpenAI 发布 GPT-5.2 系列

包含 Instant、Thinking、Pro 三个版本
在 GDPval 评测 中超越44个职业的人类专家水平
在 GPQA、FrontierMath、SWE-bench 等多项基准刷新纪录

Google 推出 Gemini Deep Research 智能体

开源 DeepSearchQA 基准，用于评估网络研究能力
在 HLE、DeepSearchQA、BrowseComp 测试中取得 SOTA 结果

Mistral AI 开源 Devstral 2 代码模型系列

包括 Devstral 2 (123B) 和 Devstral Small 2 (24B)
在 SWE-bench Verified 上达 72.2%
成本效率比 Claude Sonnet 高达7倍

关注我，获取更多AI前沿洞察

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

评论

登录后参与评论

0 条评论

热度

最新

目录

1. 周重要变化
- 整体调用量：
- 市占率：
- 编程调用量：
- 各类能力榜单更新

2. 周各榜单排名情况
- OpenRouter 相关排名
- 按公司划分的多维榜单表现
- GAIA 榜单代表性智能体系统（基于基础模型开发）

3. 周重点关注事件
- OpenAI 发布 GPT-5.2 系列
- Google 推出 Gemini Deep Research 智能体
- Mistral AI 开源 Devstral 2 代码模型系列