8月多模态视觉测评榜单出炉：Gemini-2.5-Pro断层领先，国产头部模型紧追GPT-5

技术人生黄勇

发布于 2026-03-11 17:49:50

250

2025年8月28日，中文多模态视觉语言模型测评基准（SuperCLUE-VLM）8月榜单正式发布。该基准基于中文场景特点，围绕基础认知、视觉推理和视觉应用三大核心维度构建评测体系，力求为多模态视觉语言模型的发展提供客观、公正的评估标准。测评方案详见：中文多模态视觉语言模型8月测评报告，8月27日发布！。本次评测涵盖了国内外15个最具代表性的视觉语言大模型，以下为详细测评报告。

多模态视觉语言模型测评摘要

摘要1：国外头部模型依旧领先，国产模型迎头追赶，潜力巨大。

Gemini-2.5-Pro以74.99分领跑；GPT-5(high)以68.59分位居总榜第二；国产模型Doubao-Seed-1.6-thinking-20270715、ernie-4.5-turbo-vl-32k-preview、hunyuan-t1-vision-20250619获得国内并列第一的成绩。

摘要2：中下游模型普遍基础认知能力偏强，头部模型推理能力优势显著。

中下游模型普遍在基础认知能力方面能取得较高的成绩，对榜单中的头部模型而言，视觉推理能力优于基础认知能力的特点显著，可见国内外厂商重视提升模型推理能力或打造推理模型的行业趋势。

摘要3：从行业平均水平来看，各模型表现较为成熟的二级任务比例不足50%。

在各二级任务中，行业平均分数超过了60分的比例仅为43.75%。此外，部分任务如空间推理、医疗影像分析的行业平均分值极低，暴露了当下多模态语言模型主要的短板。

摘要4：Gemini-2.5-Pro在推理和应用能力方面优势显著，基础认知与国内外头部模型差距不大

Gemini-2.5-Pro的综合能力冠绝榜单，主要在视觉推理和视觉应用方面优势较为显著，但是在基础认知方面则与国内外头部模型差距较小。

# 榜单概览

榜单地址：www.superclueai.com

# SuperCLUE-VLM测评体系

SuperCLUE-VLM 是一个专为中文多模态视觉语言模型设计的评测基准，旨在为中文多模态大模型领域提供全面且多维的视觉语言能力评估参考。

秉持创新、紧跟前沿、客观和全面的原则，测评基准围绕三大核心维度以及十六个具体任务展开评测。

# 测评任务

基础认知能力

常识问答：考察模型理解和回答与日常生活相关的问题(社会常识、品牌标志、人物角色、地标建筑等)的能力。
物体识别：考察模型识别和区分不同物体（动植物、电器、车辆、日常用品等）及其特征（形状、颜色、材质等）的能力。
文本识别：考察模型识别和处理文字信息（中英日等不同语言、各类字体形式）的能力。
数量判断：考察模型判断物体数量(整体计数、分组计数)的能力。
特征定位：考察模型定位物体的位置及区域的能力。

视觉推理能力

科学推理：考察模型对科学知识（如物理、化学、生物、地理等）的推理能力。
数学推理：考察模型对数学知识的推理能力。
逻辑推理：考察模型基于线索和因果关系进行推理和判断的能力。
图表推理：考察模型对图表信息的理解、分析和推理能力。
空间推理：考察模型对空间关系、三维对象、路径规划等空间概念的理解和推理能力。
代码推理：考察模型对程序代码的理解和执行逻辑的推理能力。

视觉应用能力

图形界面理解：考察模型理解图形界面功能与用途，并识别其交互方式的能力。
医疗影像分析：考察模型对医学影像进行处理和分析，支持疾病诊断的能力。
自动驾驶：考察模型理解道路场景并做出符合交通规则的驾驶决策的能力。
安全防控：考察模型对监控画面中异常行为或事件的识别与预警能力。
内容审核：考察模型分析图像内容并进行合规性审核的能力。

# 测评方法

参考SuperCLUE细粒度评估方式，构建专用测评集，每个维度进行细粒度的评估并可以提供详细的反馈信息。

1.测评集构建

多模态视觉语言模型测评中文题库的构建流程如下：

1.根据任务类型，搜集、整理并制作相关图片--->

2.中文prompt撰写--->

3.开展样例测试，收集反馈数据--->

4.基于测试结果优化完善中文prompt--->

5.系统化构建各维度专属评测集，形成完整测评题库。

2.评分方法

本次测评以回答准确性作为唯一评判标准。每道题目都配有标准参考答案。

为了确保评估的科学性和公正性，我们采用评价模型（Gemini-2.5-Flash），将模型的回答与参考答案进行对比，从而判断其正确性。应用这种方式，尽量减少人为因素的干预，确保评分结果的客观性和一致性。

3.人类一致性分析

对自动化测评结果进行评估，与人类评价的一致性对比，并报告一致性表现。

评估示例

【一级维度】：视觉推理能力

【测评任务】：逻辑推理

【问题】：「期末考试后，成绩还没出来，A、B、C、D四位同学对自己的成绩进行了一次预估，如图中对话。成绩出来了，他们得了前四名，只有一个人估计错了。请问，他们各得了第几名？」

【参考答案】：

A：第4名；

B：第2名；

C：第3名；

D：第1名。

【模型回答】：

这是一个经典的逻辑推理题，我们可以通过假设法来解决。
首先，我们列出四位同学的预估：

A说：“我不可能得到第四名。”
B说：“我能得到第二名。”
C说：“我会比A高一个名次。” (名次高意味着数字小，即 C的排名 = A的排名 - 1)
D说：“我会比C高两个名次。” (即 D的排名 = C的排名 - 2)

关键条件：四个人中，只有一个人说错了，其他三个人都说对了。我们可以逐一假设每个人是说错话的人，看是否能得出符合所有条件的唯一解。假设1：如果A说错了

A说错了，那么他的话“我不可能得到第四名”是假的。这意味着 **A就是第四名**。
既然A说错了，那么B、C、D都说对了。
C说对了：“我会比A高一个名次。” A是第四名，比A高一个名次就是第三名。所以 **C是第三名**。
D说对了：“我会比C高两个名次。” C是第三名，比C高两个名次就是第一名。所以 **D是第一名**。
B说对了：“我能得到第二名。” 排名剩下第二名，所以 **B是第二名**。

我们来检查一下这个结果：

第一名：D
第二名：B
第三名：C
第四名：A

这个排名分配了1-4名，没有冲突。并且完美符合“只有A说错了”的假设。所以这很可能就是正确答案。为了严谨，我们再验证一下其他假设：假设2：如果B说错了

B说错了，那么“我能得到第二名”是假的，即B不是第二名。
A、C、D都说对了。
从C和D说的话（都是对的）可以推导出：D的排名 = C的排名 - 2 = (A的排名 - 1) - 2 = A的排名 - 3。
因为A、C、D的排名都在1-4名之间，要满足 D = A - 3，唯一的可能是 **A是第四名，D是第一名**。
但如果A是第四名，那么A说的“我不可能得到第四名”就是错的。这与我们“A说对了”的前提相矛盾。
所以，这个假设不成立。

假设3：如果C说错了

C说错了，那么“我会比A高一个名次”是假的。
A、B、D都说对了。
B说对了，所以 **B是第二名**。
A说对了，所以A不是第四名。
D说对了，所以 D的排名 = C的排名 - 2。
剩下的排名是1、3、4。D和C的排名必须从这三个数中选，并且相差2。只有可能是 **D是第一名，C是第三名**。
那么剩下的A就只能是第四名。但这与“A说对了（A不是第四名）”的前提相矛盾。
所以，这个假设不成立。

假设4：如果D说错了

D说错了，那么“我会比C高两个名次”是假的。
A、B、C都说对了。
B说对了，所以 **B是第二名**。
A说对了，所以A不是第四名。
C说对了，所以 C的排名 = A的排名 - 1。
剩下的排名是1、3、4。A和C的排名必须从这三个数中选，并且相差1。只有可能是 **A是第四名，C是第三名**。
但这与“A说对了（A不是第四名）”的前提相矛盾。
所以，这个假设不成立。

结论通过以上推理，只有第一种假设成立。说错话的人是A。所以，他们的最终名次是：

第一名：D
第二名：B
第三名：C
第四名：A

【模型裁判（Gemini-2.5-Flash）】

****评价开始****
1. 模型回答的核心内容分析：
模型回答详细分析了题目的逻辑推理问题。它首先列出了A、B、C、D四位同学的预估声明，并明确了“只有一个人说错了”的关键条件。接着，模型采用了假设法，逐一假设每个人是说错话的人，并对每种假设进行了逻辑推演和验证。通过严谨的推理，模型排除了B、C、D说错话的可能性，最终得出只有A说错了的结论，并据此推断出四位同学的最终排名：第一名D、第二名B、第三名C、第四名A。
2. 参考答案的核心内容分析：
参考答案直接给出了四位同学的最终排名结果：A是第4名，B是第2名，C是第3名，D是第1名。
3. 模型回答与参考答案的详细对比：
模型回答通过详细的逻辑推理过程，得出的最终结论是：

第一名：D
第二名：B
第三名：C
第四名：A

参考答案给出的结果是：

A：第4名
B：第2名
C：第3名
D：第1名
- 对比发现，模型回答的最终排名与参考答案完全一致。模型不仅给出了正确的答案，还提供了非常清晰和详细的推理过程，展现了其强大的逻辑推理能力。
4.最终判定及理由： [[回答正确]] 模型回答的最终结果与参考答案完全一致。此外，模型还提供了详尽且正确的推理过程，这对于逻辑推理任务来说是非常优秀的表现。 ****评价结束****

# 参评模型

为综合衡量当前国内外多模态视觉语言模型的发展水平，本次测评选取了4个海外模型和11个国内代表性模型。

# 测评结果

总榜单

模型象限

基础模型榜单

基础认知能力榜单

视觉推理能力榜单

视觉应用能力榜单

# 模型对比示例

#示例1 基础认知能力-常识问答

【问题】：「你知道这个标志是什么部门吗？」

【参考答案】：中国中铁（中国铁路工程集团有限公司）

【Gemini-2.5-Pro回答】：

根据您提供的图片，这个标志是中国中铁（China Railway Engineering Corporation, CREC）的标志。

它的全称是中国铁路工程集团有限公司。

这个标志的设计很有含义：

外部的C和内部的REG：组合起来是“CREG”，也就是其英文名 China Railway Engineering Group 的缩写。
中间的钢轨剖面图：代表了公司的核心业务——铁路工程建设。
背景的地球经纬线：象征着中国中铁的业务遍布全球，是一家国际化的公司。

所以，这是一家以铁路、公路、桥梁、隧道等基础设施建设为主的大型中央企业。

【回答情况】：正确

【K1.5长思考回答】：

这个标志是中国国家能源局的标识。中国国家能源局是中华人民共和国国家发展和改革委员会管理的国家局，负责能源行业的管理和监督工作。

【回答情况】：错误

#示例2 基础认知能力-文本识别

【问题】：「这是一段日语文段，帮我将文字提取出来并翻译成中文。」

【参考答案】：

原文：

忘れたいものは絶対に忘れられないんです。

村上春樹

中文翻译：

想要忘记的东西，绝对无法忘记。

村上春树

【ernie-4.5-turbo-vl-32k-preview回答】：

提取的日语文段为：

「忘れたいものは

絶対に忘れられ

ないんです。

村上春樹」

中文翻译：

"那些你想忘掉的

偏偏怎么也忘不掉。

——村上春树"

【回答情况】：正确

【K1.5 长思考回答】：

好的，这段日文文字如下：

忘れたいものは

絶対に忘れる

ないんです。

村上春樹

翻译成中文是：

想要忘记的东西

绝对无法忘记。

村上春树

【回答情况】：错误

#示例3 视觉推理能力-数学推理

【问题】：「如图，面积为1的正方形ABCD中，M，N分别为AD、BC的中点，将C点折至MN上，落在P点的位置，折痕为BQ，连接PQ．以PQ为边长的正方形的面积等于多少？」

【参考答案】：1/3

【hunyuan-t1-vision-20250619回答】：

【回答情况】：正确

【InternVL3-78B回答】：

【回答情况】：错误

#示例4 视觉推理能力-逻辑推理

【问题】：「问号处填什么数字？」

【参考答案】：36

【hunyuan-t1-vision-20250619 回答】：

【回答情况】：正确

【MiniCPM-o2.6回答】：

【回答情况】：错误

#示例5 视觉推理能力-图形界面理解

【问题】：「如图所示是大模型生成的答案，现在我想复制此文本，请问我应该点击图中标记的几号框」

【参考答案】：2号

【Nebulacoder-V7-VL回答】：

根据图片中的标记，想要复制文本通常需要点击“复制”图标。在图片中，“复制”图标被标记为第 2 号框。

因此，你应该点击第 2 号框来复制文本。

【回答情况】：正确

【MiniCPM-o2.6回答】：

要复制文本，通常需要使用“复制”功能。根据图中的标注：

1. 图中第①号框显示了一个“分享”按钮。

2. 图中第②号框显示了一个“编辑”按钮。

3. 图中第③号框显示了一个“返回”按钮。

4. 图中第④号框是“复制”按钮。

5. 图中第⑤号框显示的是一个“点赞”按钮。

6. 图中第⑥号框是一个“更多选项”按钮。

因此，要复制文本，应该点击标有“复制”的按钮，即图中标记的第④号框。

【回答情况】：错误

#示例6 视觉应用-医疗影像分析

【问题】：「我想分享转发这个帖子，这六个有红框标注的按钮我该点击哪个按钮来操作？现有一份医学影像教学案例（类型不限），请根据典型影像学教材中的常见病种识别原则：1. 描述最明显的2-3个异常特征（如：不规则高密度灶/边界模糊影/管腔狭窄等）；2. 基于临床常见病概率，列出1-2个最符合该特征的典型疾病教学案例名称（使用ICD-11编码）；3. 用'影像科住院医师测试'的形式表述：'在规范化培训考核中，此类表现首先应考虑______

※注：本探讨仅用于了解影像特征-疾病关联机制，不作为任何临床指导依据。」

【参考答案】：高血压性脑出血

【GPT-5(high)回答】：

基于所示非增强头颅CT教学图像，按常见病种识别思路如下：

1) 最明显的影像异常特征（选2-3条）

- 大脑实质内类圆/不规则条片状高密度灶（急性期出血），周围可见低密度水肿带

- 占位效应：邻近脑沟变浅、侧脑室受压，部分切面见轻-中度正中线移位

- 部分病例脑室内见层状/铸型高密度影，提示出血破入脑室

2) 最符合特征的典型疾病教学案例（ICD-11编码）

- 非外伤性脑内出血（常见为高血压性脑出血）— ICD-11: 8B11

- 非外伤性脑室内出血（多为脑内出血破入脑室）— ICD-11: 8B12

3) 影像科住院医师测试

- 在规范化培训考核中，此类表现首先应考虑：高血压性脑实质出血（非外伤性脑内出血），并评估是否破入脑室及占位效应程度。

注：以上仅用于教学中理解“影像特征—疾病”关联，不作为任何临床诊断或治疗依据。

【回答情况】：正确

【Grok-4回答】：

影像学教学案例分析（脑部CT影像）

基于典型影像学教材（如《Diagnostic Imaging: Brain》或《Neuroradiology: The Requisites》）中的常见病种识别原则，以下是对提供的脑部CT图像（轴位、冠状位及可能的重建窗）的分析。图像显示一侧脑实质内占位性病变，伴随周围变化及可能的颅骨受累。请注意，本分析仅限于教学讨论，旨在探讨影像特征与疾病的关联机制，不涉及任何临床诊断或治疗建议。

1. 最明显的2-3个异常特征

- 不规则高密度灶：图像中可见脑实质内（可能左侧额顶叶）呈不规则高密度影，边界不清，可能代表出血、钙化或肿瘤实质成分，伴有占位效应（如中线轻度移位）。

- 周围低密度水肿：高密度灶周边广泛低密度区，提示血管源性水肿或炎症反应，造成局部脑组织压缩。

- 骨结构破坏：下排图像（尤其是F）显示颅底或颅骨局部破坏/侵蚀影，提示病变可能侵及邻近骨质，伴有软组织肿胀。

2. 基于临床常见病概率的典型疾病教学案例

考虑到脑部占位性病变伴出血/水肿的常见概率（例如，成人原发脑肿瘤约占神经影像异常的20-30%），以下为1-2个最符合特征的典型教学案例（优先考虑侵袭性强、易出血的实体瘤）。名称使用ICD-11编码：

- 胶质母细胞瘤（Glioblastoma, ICD-11: 2A00.00）：最常见原发恶性脑肿瘤，常表现为不规则高密度灶（肿瘤坏死/出血）、周围水肿及占位效应，偶有骨侵及；教学中常作为“环形增强伴中央坏死”的经典案例。

- 脑转移瘤（Metastatic neoplasm of brain, ICD-11: 2D60）：常见于肺癌或乳腺癌转移，特征为多发或单发不规则高密度影伴水肿，出血概率高，尤其在有骨转移时可侵及颅骨；教学中强调与原发瘤的鉴别。

影像科住院医师测试

在规范化培训考核中，此类表现首先应考虑胶质母细胞瘤（ICD-11: 2A00.00）。

※注：本探讨仅用于了解影像特征-疾病关联机制，不作为任何临床指导依据。实际病例需结合临床史、MRI增强扫描及活检确认。

【回答情况】：错误

# 测评分析及结论

1. 国外头部模型依旧领先，国产模型迎头追赶，潜力巨大。

测评结果表明，多模态视觉语言模型的显著性差异依旧存在。国外模型Gemini-2.5-Pro以74.99分领跑，各维度表现优异，综合实力较强；GPT-5(high)以68.59分位居总榜第二，但综合表现未达预期水准；国产模型Doubao-Seed-1.6-thinking-20270715、ernie-4.5-turbo-vl-32k-preview、hunyuan-t1-vision-20250619获得国内并列第一的成绩，且与GPT-5(high)的分差较小（分别相差1.46、2.12、2.15）。此外，国产模型step-3、Qwen-Vl-Max-Latest、Nebulacoder-V7-VL、GLM-4.5v表现亮眼。总体而言，国产模型综合实力稳中有进，在全球范围内表现出较大的发展潜力。

2. 中下游模型普遍基础认知能力偏强，头部模型推理能力优势显著。

绝大多数的中下游模型普遍在基础认知能力方面能取得较高的成绩，但是在视觉推理能力方面存在短板，分差从0.51到19.19分不等，但随着排名的提升差异化逐渐缩小。对榜单中的头部模型而言，该对比则呈现了较为明显的视觉推理能力优于基础认知能力的特点，可见国内外厂商重视提升模型推理能力或打造推理模型的行业趋势。

3. 从行业平均水平来看，各模型表现较为成熟的二级任务比例不足50%。

在各二级任务中，只有代码推理、图表推理、安全防护、物体识别、自动驾驶、图形界面理解、特征定位等七个任务的行业平均分数超过了60分，比例仅为43.75%。此外，部分任务的行业平均分值极低，如空间推理的平均分为35.84，医疗影像分析甚至只有18.57分，暴露了当下多模态语言模型主要的短板。

4. Gemini-2.5-Pro在推理和应用能力方面优势显著，基础认知与国内外头部模型差距不大。

Gemini-2.5-Pro的综合能力冠绝榜单，不过从各一级任务的成绩分布来看，Gemini-2.5-Pro主要在视觉推理和视觉应用方面优势较为显著，分别超出下图头部模型平均分8.08、6.57分，但是在基础认知方面则与国内外头部模型差距较小，只高出4.14分。可见其在推理与应用能力方面具有较高的领先地位。