
上周大模型生态竞争激烈,GPT-5.2全面领先多项基准测试,Google凭借Gemini系列重夺市占率第一,xAI份额大幅下滑,同时多个新模型和智能体在编程、图像、数学及综合任务中崭露头角。
以下为OpenRouter模型调用量排名变动
榜单 | 表现亮点 |
|---|---|
大语言模型(Text Arena) | ernie-5.0-preview-1103 新晋第19名(预发布评分) |
编程能力(LMArena) | gpt-5.2-high、gpt-5.2 新晋第2、第6名(预发布) |
代码工程(SWE-bench BashOnly) | GPT-5.2 (high reasoning) 第3,GPT-5.2 第5 |
图像编辑(Artificial Analysis Image Editing Leaderboard) | Seedream 4.5 第2,P-Image-Edit 第7 |
文生图(Artificial Analysis Text to Image Leaderboard) | Seedream 4.5 第5,Z-lmageTurbo 第10 |
理科能力(LLM Stats GPQA) | GPT-5.2 Pro(93.2%)第1,GPT-5.2(92.4%)第2 |
前沿数学(EPOCH AI FrontierMath) | GPT-5.2 以40.3%正确率登顶(首次突破40%) |
GAIA 榜单 | Su Zero + SQ Pro 登顶,Su Zero + Shuqian Lite 第4 |
榜单 | 领先公司/机构 |
|---|---|
Text Arena(大语言模型) | Google、xAI、Anthropic、OpenAI、阿里、百度、月之暗面、智谱、DeepSeek |
LMArena(编程) | Anthropic、OpenAI、Google、智谱 |
LiveCodeBench(编程) | Anthropic、Google、OpenAI、阿里、月之暗面 |
SWE-benchLite(代码工程) | 基于 Claude、Gemini、GPT、Qwen、DeepSeek 的开源系统领先 |
Image Edit Arena(图像编辑/生成) | Google、字节、Reve、Black Forest Labs |
Text-to-Image Arena(文生图) | Google、Black Forest Labs、腾讯、字节 |
Image Editing Leaderboard | Google、字节、Black Forest Labs、Pruna AI、生数科技、OpenAI、阿里 |
Text to Image Leaderboard | Google、Black Forest Labs、字节、ImagineArt、阿里 |
GPQA(理科) | OpenAI、Google、xAI、Anthropic、阿里 |
FrontierMath(前沿数学) | OpenAI、Google、月之暗面、Anthropic、xAI |
Humanity's Last Exam | Google、OpenAI、Anthropic |
关注我,获取更多AI前沿洞察
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。